자연어처리를 위한 NLTK라이브러리

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

ENN

자연어처리를 위한 NLTK라이브러리 본문

딥러닝 NLP

자연어처리를 위한 NLTK라이브러리

k.dahee 2022. 8. 30. 22:52

NLTK(Natural Language Toolkit)패키지

교육용으로 개발된 자연어처리 및 문서 분석용 파이썬 패키지이다.

NLTK가 제공하는 주요 기능은 다음과 같다

1. 말뭉치

- 말뭉치(corpus)는 자연어분석 작업을 위해 만든 샘플 문서 집합을 말한다. 단순히 문서 모음 뿐만 아니라 품사, 형태소 등 구조적인 형태로 정리해 놓은 것도 존재한다.

import nltk
nltk.download("book", quiet=True)
from nltk.book import *

2. 토큰 생성

- 자연어 문서를 분석하기 위해서는 우선 긴 문자열 분석을 위한 작은 단위로 나누어야한다. 이 문자열 단위를 토큰(token)이라고 하고, 이렇게 문자열을 토큰으로 나누는 작업을 토크나이징이라고 한다.

from nltk.tokenize import sent_tokenize
print(sent_tokenize(emma_raw[:1000])[3])

3. 형태소 분석

- 형태소(morpheme)는 언어학에서 일정한 의미가 있는 가장 작은 말의 단위를 뜻한다. 보통 자연어 처리에서는 토큰으로 형태소를 이용한다. 형태소 분석은 단어로부터 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성을 파악하고 이를 이용하여 형태소를 찾아내서나 처리하는 작업이다.

'딥러닝 NLP' 카테고리의 다른 글

NLP, NLP Process, NLP Library (0)	2022.09.19
CNN과 RNN 비교 (0)	2022.09.07
딥러닝을 위한 Pandas 개념 정리 (0)	2022.07.25

'딥러닝 NLP' Related Articles

ENN

자연어처리를 위한 NLTK라이브러리 본문

자연어처리를 위한 NLTK라이브러리

NLTK(Natural Language Toolkit)패키지

1. 말뭉치

2. 토큰 생성

3. 형태소 분석

'딥러닝 NLP' 카테고리의 다른 글

티스토리툴바