본문 바로가기 메뉴 바로가기

경영학도 Data Scientist 되자!!

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

경영학도 Data Scientist 되자!!

검색하기 폼
  • 분류 전체보기 (49)
    • 데이터분석 이론 (28)
    • 데이터분석 실습 (0)
    • 데이터분석 강의노트 (1)
    • Kaggle 분석 (9)
    • 텍스트분석 (6)
  • 방명록

텍스트분석 (3)
단어 임베딩이란 무엇일까

단어와 벡터를 연관 짓는 방법은 크게 두가지가 있다 1. 단어 임베딩 (Word Embedding) 2. 원-핫 단어 벡터 단어 임베딩이란? 단어 임베딩은 단어를 수치화하는 방법이다. 보통 인덱스 넘버를 할당하는 Bag of Words 방법을 많이 쓴다. "I" : 0 "am": 1 "a": 2 "boy": 3 "girl": 4 I am a girl 이란 문장은 다음과 같은 벡터로 생성한다. [1 1 1 0 1] 단어 임베딩은 단어를 인덱스로 표현하는게 아니라 실수 벡터로 표현한다. 2차원 임베딩을 예시로 들어보겠다. "I" : (0.3, 0.2) "am": (0.1, 0.8) "a": (0.5, 0.6) "boy": (0.2, 0.9) "girl": (0.4, 0.7) 출처: https://dreamg..

카테고리 없음 2020. 8. 21. 00:17
1. 파이썬 웹크롤링 with Selenium, Chrome

출처: https://baek2sm.blog.me/221376506043 파이썬 웹 크롤링 [1편] with Selenium, Chrome 이번에는 Selenium 라이브러리를 이용한 웹 크롤링을 다뤄보겠습니다.우리는 크롬(Chrome) 브라우저를 이... blog.naver.com 웹크롤링은 상단 홍승백님 페이지를 참고해서 작성했습니다. (개인 소장용) 웹 크롤링은 웹사이트에 있는 정보와 데이터를 가지고 오는 기술입니다. 일부 접근 불가능한 사이트가 있어 모든 데이터와 정보를 가져올 수는 없습니다. 웹 크롤링 Step 1. Chrome Web Driver 설치 (http://chromedriver.chromium.org/downloads) - chrome://settings/help 들어가셔서 크롬 버..

텍스트분석 2019. 9. 16. 23:01
Text Analysis - Bag of Words, TF-IDF

텍스트 분석의 중요한 단어들에 대해 알아보겠습니다. Bag of Words - Vector Space Model - 문서 내에 단어들을 벡터로 변환하는 작업 - 해당 단어들의 frequency (빈도)를 count해서 테이블로 변환 TF-IDF - T (Term) F (Frequency) - I (Inverse) D (Document) F (Frequency) - TF는 문서 내 단어들의 빈도 - DF는 해당 단어가 몇 개의 문서에서 나오는지 빈도 측정 - IDF는 단어가 몇 개의 문서에서 나오지 않는지 빈도를 측정한다는 뜻으로 해당 단어가 희소성이 높을수록 값이 높게 나온다. 예시) - 문서 d1는 100개의 단어를 포함하고 있으며 사과는 문서 d1 내에 10번 언급되고 오렌지는 문서 d 내에서 20번..

데이터분석 이론 2019. 6. 15. 14:00
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 데이터분석
  • recommendationsystem
  • 국어정보처리시스템경진대회2020
  • 통계 척도
  • 표본 추출
  • 딥러닝추천모델
  • 주식종목예측시나리오
  • 자연어처리공모전
  • kaggle
  • 딥러닝추천시스템
  • instantgratification
  • featureselection
  • 분류 모델 성능 평가지표
  • 대응표본 검정
  • significant level
  • 국립국어원대회
  • 데이터분석 척도
  • 독립표본 t 검정
  • 빅데이터공모전
  • 일표본 검정
  • 비전공자데이터분석
  • 추천시스템논문
  • kaggle competition
  • featureextraction
  • 캐글
  • 텍스트분석
  • 데이터분석공모전
  • wordembedding
  • 통계 분류 검증
  • denserepresentation
more
«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바