혼자 공부하는 방

  • 홈
  • 방명록

TfidfVectorizer 2

CountVectorizer, TfidfVectorizer

네이버의 영화 정보 사용하기. 5편의 영화 리뷰를 읽어 형태소 분석 > CountVectorizer, TfidfVectorizer 적용 각 영화 간의 코사인유사도 확인 import requests from bs4 import BeautifulSoup from konlpy.tag import Okt import numpy as np import pandas as pd from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer Beautiful Soup을 이용해 리뷰 읽어오기 def movie_scrap_func(url): result = [] for p in range(1,6): #5 페이지 리뷰 r = requests.get(..

데이터분석/예시코드 2022.05.26

단어의 빈도수를 이용해 문서의 특징 추출

단어의 빈도수를 숫자화 시켜준다 (counting) CountVectorizer 사용 - 단순한 counting # 단어의 빈도수를 이용해 문서의 특징 추출 # BOW(Bag of Words) : 문서가 가지는 모든 단어, 문맥, 순서를 무시하고 단어에 대해 빈도 수를 부여해 벡터를 생성 # CountVectorizer : 단순하게 텍스트에서 단위별 등장횟수를 카운팅하여 수치벡터(BOW)화 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer contents = ['How to formt my hard disk', 'Hard disk format format problems'] count_vec = CountVectori..

데이터분석/데이터분석 2022.05.26
이전
1
다음
더보기
프로필사진

혼자 공부하는 방

  • 분류 전체보기
    • 공부
      • 알고리즘
      • 컴퓨터
    • 데이터분석
      • 데이터분석
      • Tensorflow
      • 예시코드

Tag

sklearn, sqld, DBSCAN, countvectorizer, 빅데이터분석기사 실기, Keras, 배깅, 선형회귀모델, konlpy, Logistic Regression, 분류모델, SVM, 텐서플로, 프로그래머스, lstm, 앙상블, TensorFlow, Ensemble, TfidfVectorizer, rnn,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

  • github

티스토리툴바