딥러닝 NLP

NLP, NLP Process, NLP Library

ehokim 2022. 9. 19. 21:21

NLP

자연어란 인간이 일상생활에서 구사하는 언어 그 자체 즉, 인간의 언어를 의미함. 이것을 처리하는 자연어 처리(Natural Language Processing)란 기계가 인간의 언어인 자연어를 이해하고 추론하여 처리하는 일련의 과정을 말함.

NLP Process

  1. Text Preprocessing - 특수문자나 공백, 대소문자, 이모티콘 처리 등 AI가 학습할 수 있도록 정제하는 작업
  2. Feature Vectorization - 전처리된 텍스트 데이터에서 특징(feature)를 얻어내어 벡터값을 부여함
  3. AI Modeling - Feature vectorization한 텍스트 데이터를 머신러닝 또는 딥러닝 모델을 적용해 학습-예측하는 단계

NLP Library

  1. NLTK(National Language Toolkit for Python) - 파이썬 NLP 패키지 중 하나로 오랜 시간 연구에 활용됨. 가장 기본적인 패키지
  2. SpaCy - 속도가 빨라 최근에 많이 이용하는 패키지
  3. Gensim - 요약분야 모델링에 가장 최적화된 패키지