ENN
자연어처리를 위한 NLTK라이브러리 본문
NLTK(Natural Language Toolkit)패키지
교육용으로 개발된 자연어처리 및 문서 분석용 파이썬 패키지이다.
NLTK가 제공하는 주요 기능은 다음과 같다
1. 말뭉치
- 말뭉치(corpus)는 자연어분석 작업을 위해 만든 샘플 문서 집합을 말한다. 단순히 문서 모음 뿐만 아니라 품사, 형태소 등 구조적인 형태로 정리해 놓은 것도 존재한다.
import nltk
nltk.download("book", quiet=True)
from nltk.book import *
2. 토큰 생성
- 자연어 문서를 분석하기 위해서는 우선 긴 문자열 분석을 위한 작은 단위로 나누어야한다. 이 문자열 단위를 토큰(token)이라고 하고, 이렇게 문자열을 토큰으로 나누는 작업을 토크나이징이라고 한다.
from nltk.tokenize import sent_tokenize
print(sent_tokenize(emma_raw[:1000])[3])
3. 형태소 분석
- 형태소(morpheme)는 언어학에서 일정한 의미가 있는 가장 작은 말의 단위를 뜻한다. 보통 자연어 처리에서는 토큰으로 형태소를 이용한다. 형태소 분석은 단어로부터 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성을 파악하고 이를 이용하여 형태소를 찾아내서나 처리하는 작업이다.
'딥러닝 NLP' 카테고리의 다른 글
NLP, NLP Process, NLP Library (0) | 2022.09.19 |
---|---|
CNN과 RNN 비교 (0) | 2022.09.07 |
딥러닝을 위한 Pandas 개념 정리 (0) | 2022.07.25 |