티스토리 뷰

텍스트 데이터, 시계열 또는 일반적인 시퀀스 데이터를 처리할 수 있는 딥러닝 모델

1.     순환 신경망

2.     1D ConvNet

 

텍스트 벡터화

텍스트를 수치형 텐서로 변환하는 과정

1.     텍스트를 단어로 나누고 각 단어를 하나의 벡터로 변환

2.     텍스트를 문자로 나누고 각 문자를 하나의 벡터로 변환

3.     텍스트에서 단어나 문자의 n-그램을 추출하여 각 n-그램을 하나의 벡터로 변환

 

Token (토큰): 텍스트를 단어, 문자, n-gram으로 나누는 단위

Tokenizing (토큰화): 텍스트를 토큰으로 나누는 작업 토크나이징

 

토큰과 벡터를 연결하는 방법

-       원 핫 인코딩

-       토큰 임베딩 (단어 임베딩)

 

-핫 인코딩

-       토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법

단어 임베딩

-       -핫 인코딩은 대부분 0으로 채워져있는 고차원 벡터인 반면,
단어 임베딩은 저차원의 실수형 벡터