목록딥러닝 NLP (4)
ENN
NLP 자연어란 인간이 일상생활에서 구사하는 언어 그 자체 즉, 인간의 언어를 의미함. 이것을 처리하는 자연어 처리(Natural Language Processing)란 기계가 인간의 언어인 자연어를 이해하고 추론하여 처리하는 일련의 과정을 말함. NLP Process Text Preprocessing - 특수문자나 공백, 대소문자, 이모티콘 처리 등 AI가 학습할 수 있도록 정제하는 작업 Feature Vectorization - 전처리된 텍스트 데이터에서 특징(feature)를 얻어내어 벡터값을 부여함 AI Modeling - Feature vectorization한 텍스트 데이터를 머신러닝 또는 딥러닝 모델을 적용해 학습-예측하는 단계 NLP Library NLTK(National Language ..
CNN(Convolutional Neural Network) - 딥러닝에서 주로 이미지나 영상 데이터를 처리할 때 쓰이며, 전처리 작업이 들어가는 neural network모델이다. DNN(Deep Neural Network)의 문제점을 보완하여 CNN은 이미지를 raw 그대로 받음으로써 공간적, 지역적 정보를 유지한 채 특성들의 계틍을 빌드합니다. - Feed-forward Neural Network의 한 종류로 MLP의 변화도니 형태이다. - 이미지 처리와 비디오 처리에 적합하다. RNN(Recurrent Neural Network) - 입력과 출력을 시퀀스 단위로 처리하는 시퀀스 모델 - Feed- Forward Neural Network에 속하지 않으며 은닉층의 노드에서 활성화 함수를 통해 나온 ..
NLTK(Natural Language Toolkit)패키지 교육용으로 개발된 자연어처리 및 문서 분석용 파이썬 패키지이다. NLTK가 제공하는 주요 기능은 다음과 같다 1. 말뭉치 - 말뭉치(corpus)는 자연어분석 작업을 위해 만든 샘플 문서 집합을 말한다. 단순히 문서 모음 뿐만 아니라 품사, 형태소 등 구조적인 형태로 정리해 놓은 것도 존재한다. import nltk nltk.download("book", quiet=True) from nltk.book import * 2. 토큰 생성 - 자연어 문서를 분석하기 위해서는 우선 긴 문자열 분석을 위한 작은 단위로 나누어야한다. 이 문자열 단위를 토큰(token)이라고 하고, 이렇게 문자열을 토큰으로 나누는 작업을 토크나이징이라고 한다. from n..
Pandas의 주요 구성 요소 dataframe: column과 row로 구성된 2차원 데이터셋 series : 1개의 column 값으로만 구성된 1차원 데이터셋 index : DMBS의 기본키(pk)랑 같은 개념 #기본 세팅 import pandas as pd titanic_df = pd.read_csv('titanic.csv') #파일 불러오기 head()와 tail() head()는 dataframe의 맨 앞부터 일부 데이터만 추출 titanic_df.head() tail()은 dataframe의 맨 뒤부터 일부 데이터만 추출 titanic_df.tail() #display 옵션 설정 pd.set_option('display.max_rows',100) #보이는 행의 개수 설정 pd.set_opti..