카테고리 없음
케라스 창시자에게 배우는 딥러닝 - 텍스트분석 1편
데이터사이엔티스트
2020. 8. 10. 07:54
텍스트 데이터, 시계열 또는 일반적인 시퀀스 데이터를 처리할 수 있는 딥러닝 모델
1. 순환 신경망
2. 1D ConvNet
텍스트 벡터화
텍스트를 수치형 텐서로 변환하는 과정
1. 텍스트를 단어로 나누고 각 단어를 하나의 벡터로 변환
2. 텍스트를 문자로 나누고 각 문자를 하나의 벡터로 변환
3. 텍스트에서 단어나 문자의 n-그램을 추출하여 각 n-그램을 하나의 벡터로 변환
Token (토큰): 텍스트를 단어, 문자, n-gram으로 나누는 단위
Tokenizing (토큰화): 텍스트를 토큰으로 나누는 작업 – 토크나이징
토큰과 벡터를 연결하는 방법
- 원 핫 인코딩
- 토큰 임베딩 (단어 임베딩)
원-핫 인코딩
- 토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법
단어 임베딩
- 원-핫 인코딩은 대부분 0으로 채워져있는 고차원 벡터인 반면,
단어 임베딩은 저차원의 실수형 벡터