
추천시스템에 대한 업무를 처음 맡으면서 매력적인 필드라 생각하는 동시에 공부할 것도 참 많다고 생각하는 필드에요. 실무에 투입되는 모델에 대한 고민과 추천시스템이 다른 필드와 어떻게 다른지에 대해서 고민하면서 한번 기본부터 정리해보자 하는 시간을 가져보는 취지에서 작성하는 글이니 참고차 봐주시면 좋을 것 같습니다. 시작하기 앞서, 추천시스템에서는 데이터의 특성이 가장 크게 두가지로 구분이 됩니다: 유저, 아이템추천시스템의 기본 목적은 유저에게 어떤 아이템을 추천해주면 좋을까? 로 유저와 아이템 데이터 정의하는게 필수 작업입니다. 예를 들면, 우리가 흔히 알고 있는 배달의민족 플랫폼에서는 유저는 배달을 시키는 고객들이고 아이템은 고객들이 배달을 시키는 음식 혹은 큰 의미로 본다면 가게까지 가능합니다. 유..

Continuous Bag of Words- 주변 단어를 가지고 t 번째 단어를 예측하는 방법 Skip-gram- t번째 단어를 가지고 앞 뒤 단어를 예측하는 방법 Gradient를 업데이트하는 방식에서,CBOW는 t번째 단어로 주변 단어들의 확률을 업데이트하는 방식Skip-gram은 주변 단어로 t번째 단어를 업데이트하는 방식 (더 성능이 좋음) Skip-Gram 방식에서는 activation 방식이 존재하지 않고 단순하게 Input -> Hidden -> Output 레이어로 업데이트하는 방식 목적 함수는t 번째 단어가 주어졌을 때, 앞 뒤 j개의 단어들의 log 확률을 최대화하는 것 The mighty knight lancelot fought bravely. Skip-gram Model- knigh..

Word Embedding - 언어에서 사용되는 단어들을 특정한 공간의 벡터 스페이스에 매핑 - 목적은 의미론적은 유사한 단어들은 서로 가까운 공간에 위치 - BoW에서 사용되던 원핫인코딩은 단어의 수만큼 차원을 만들어야되서, 비효율적임 원 핫 벡터 - 가장 직관적이고, 간단한 방법 - 단어의 수만큼 벡터 스페이스를 생성해서 단어에 해당되는 벡터의 값을 1로 변경하고 나머지는 0으로 유지 - 단어들의 유사성은 보존할 수 없다는게 큰 단점 다시 돌아와서 워드 임베딩은, 특정한 단어들을 임의의 차원을 가진 벡터로 바꾸는 작업 - 단어들을 100차원, 300차원 등 기존에 사용되던 차원보다 훨씬 작은 차원을 사용 - 각 벡터들을 값들은 0,1 값이 아닌 연속형의 숫자값인 실수로 표현 - King, Queen와..
강필성 교수님 강의 듣고 정리한 내용입니다. https://www.youtube.com/watch?v=NLaxlUKFVw4&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=3 Classical categorization Lexical Analysis 단어로 나누는 방법 A teacher come+s Syntax Analysis 나눠진 단어에 품사를 부여 (A teacher) 명사 (comes) 동사 Semantic Analysis 각 단어가 존재하는지 여부 체크, 의미 파악 exist(x, teacher(x), comes(x)) Pragmatic Analysis - 전체 문장의 내포된 의미 분석 - A teacher comes -> 선생님은 온다 (직역) -> 선생님 떴..

토픽 모델링의 접근 방법 - 각 문서들은 토픽의 확률 분포를 가지고 있다. - 각 토픽들은 단어들의 확률 분포를 가지고 있다. pLSA는 probabilistic latent semantic analysis의 약자로, 학습을 통해 document -> topic / topic -> terms 순서로 계속해서 업데이트를 해나가는 방법론 - 밖 네모: Corpus (문서별 반복) / 안 네모: 개별적인 문서들 (문서 내 단어별 반복) - P(wIz) -> 어떤 토픽이 주어지면, 토픽 내에 단어는 모든 문서에 동일하게 적용된다 (문서가 바뀐다고 달라지지 않는다) - P(zId) -> 각 문서에 대해서 토픽의 비중은 바뀔 수 있음 Iteration이 반복되면서 토픽의 비중, 문서 내 토픽 비중, 토픽 내 단어의..

토픽 모델링 강필성 교수님 유투브를 보면서 노트를 적었습니다. 유투브 보시기를 바랍니다. 유투브 링크: www.youtube.com/watch?v=J1ri0EQnUOg&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=13 (단어 차원) 각 Corpus들을 가져와서 K 개의 토픽을 만들도록 설정하면 K 개의 토픽이 생성이 되고, 각 토픽(주제)에 해당하는 높은 빈도의 어휘들을 할당한다. (문서 차원) 각 개별적인 문서가 어떤 토픽을 가장 많이 내포하고 있는지를 파악할 수 있다. 노란색은 1번 토픽 단어들을 많이 내포하고 있고, 3번은 3번 토픽을 많이 내포하고 있지만, 회색같은 경우는 모든 토픽의 단어들을 비슷한 비중으로 가지고 있다. 각 문서들의 토픽 분포 비교 점들은 ..
요인 분석(factor analysis)은 등간척도나 비율척도로 이루어진 대상을 분석한다. 요인 분석은 여러 변수들 간의 공분산과 상관관계 등을 이용하여 변수들 간의 상호관계를 분석하고, 그 결과를 토대로 문항과 변수들 간의 상관성 및 구조를 파악하여 여러 변수들이 지닌 정보를 적은 수의 요인으로 묶어서 나타내는 분석 기법 요인 분석을 실시하면, 여러 변수들에 대한 정보가 몇 개의 핵심 내재 요인으로 간추려진다. 많은 장점에도 불구하고, 산출 된 요인이 임의성을 띠고 있을 경우에는 요인 해석이 어려울 수 있으므로, 간추려진 분석 결과에 대한 타당성과 신뢰성 검증에 주의를 기울여야 한다. 요인분석은 크게 두가지로 나뉘어진다. 1. R-type 요인분석 변인(평가항목)들을 기준으로 요인들을 구분한다. 2. ..
- Total
- Today
- Yesterday
- featureextraction
- 국어정보처리시스템경진대회2020
- 일표본 검정
- 딥러닝추천시스템
- 캐글
- kaggle competition
- 빅데이터공모전
- 대응표본 검정
- 주식종목예측시나리오
- denserepresentation
- significant level
- wordembedding
- 추천시스템논문
- 자연어처리공모전
- 데이터분석공모전
- 국립국어원대회
- 딥러닝추천모델
- instantgratification
- 분류 모델 성능 평가지표
- 표본 추출
- 독립표본 t 검정
- kaggle
- recommendationsystem
- 통계 척도
- 데이터분석
- featureselection
- 비전공자데이터분석
- 텍스트분석
- 데이터분석 척도
- 통계 분류 검증
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |