딥러닝 NLP

자연어처리를 위한 NLTK라이브러리

k.dahee 2022. 8. 30. 22:52

NLTK(Natural Language Toolkit)패키지

교육용으로 개발된 자연어처리 및 문서 분석용 파이썬 패키지이다. 

 

NLTK가 제공하는 주요 기능은 다음과 같다

1. 말뭉치

- 말뭉치(corpus)는 자연어분석 작업을 위해 만든 샘플 문서 집합을 말한다. 단순히 문서 모음 뿐만 아니라 품사, 형태소 등 구조적인 형태로 정리해 놓은 것도 존재한다.

import nltk
nltk.download("book", quiet=True)
from nltk.book import *

 

2. 토큰 생성

- 자연어 문서를 분석하기 위해서는 우선 긴 문자열 분석을 위한 작은 단위로 나누어야한다. 이 문자열 단위를 토큰(token)이라고 하고, 이렇게 문자열을 토큰으로 나누는 작업을 토크나이징이라고 한다.

from nltk.tokenize import sent_tokenize
print(sent_tokenize(emma_raw[:1000])[3])

3. 형태소 분석

- 형태소(morpheme)는 언어학에서 일정한 의미가 있는 가장 작은 말의 단위를 뜻한다. 보통 자연어 처리에서는 토큰으로 형태소를 이용한다. 형태소 분석은 단어로부터 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성을 파악하고 이를 이용하여 형태소를 찾아내서나 처리하는 작업이다.