데이터분석/예시코드9 RNN : seq2seq로 영어를 한국어로 번역 tensorflow 환경에서 진행했다. 참고사이트 http://www.manythings.org/anki https://wikidocs.net/24996 1) 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 이번 실습은 케라스 함수형 API에 대한 이해가 필요합니다. 함수형 API(functional API, https://wikidocs.net/38861 )에 대해서 우선 숙 ... wikidocs.net 필요한 import # seq2seq로 영어를 한국어로 번역하는 번역 모델 생성 from keras.models import Model from keras.layers import Input, LSTM, Dense from tensorflow.keras.optimizers i.. 2022. 6. 7. LSTM으로 주식을 예측 LSTM으로 삼성주식을 예측해보자 Colab을 이용한다. 필요한 라이브러리 다운로드해준다. !pip install finance-datareader 필요한 import 해주기 # LSTM으로 주식 예측 # 삼성전자 : 코드 005930 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') import FinanceDataReader as fdr 데이터 불러오기 STOCK_CODE = '005930' stock_data = fdr.DataReader(STOCK_CODE) print(stock_data.hea.. 2022. 6. 3. 네이버 영화 리뷰 데이터로 감성분류 참고 출처 : https://wikidocs.net/44249 6) 네이버 영화 리뷰 감성 분류하기(Naver Movie Review Sentiment Analysis) 이번에 사용할 데이터는 네이버 영화 리뷰 데이터입니다. 총 200,000개 리뷰로 구성된 데이터로 영화 리뷰에 대한 텍스트와 해당 리뷰가 긍정인 경우 1, 부정인 경우 0을 ... wikidocs.net 불용어처리, 모델적용 오래걸린다. > 결과값만 보도록한다 colab 에서 konlpy를 사용하여 실행한다. !pip install konlpy 필요한 것 import import numpy as np import matplotlib.pyplot as plt import re from konlpy.tag import Okt from ker.. 2022. 6. 2. 웹 스크래핑 : 네이버 영화 평점 import requests from bs4 import BeautifulSoup headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210101',headers=headers) soup = BeautifulSoup(data.text, 'html.parser') tr = soup.select('#old_content > table > tbody > .. 2022. 6. 1. 웹 스크래핑 : 기초 Colab을 사용하였다. >웹스크래핑을 위한 라이브러리 다운로드 !pip install requests bs4 >requests 와 Beautifulsoup 라이브러리를 이용하기 import requests from bs4 import BeautifulSoup headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = requests.get('https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=삼성전자',headers=.. 2022. 5. 29. RNN을 이용한 텍스트 생성 RNN을 이용한 텍스트 생성 : 문맥을 반영해서 다음 단어를 예측하고 텍스트를 생성하기 데이터 from keras.preprocessing.text import Tokenizer from keras.utils import pad_sequences, to_categorical import numpy as np from keras.layers import Embedding, Dense, LSTM, Flatten from keras.models import Sequential text = """경마장에 있는 말이 뛰고 있다 그의 말이 법이다 가는 말이 고와야 온는 말이 곱다""" 인덱싱 # word indexing tok = Tokenizer() tok.fit_on_texts([text]) #list type.. 2022. 5. 27. CountVectorizer, TfidfVectorizer 네이버의 영화 정보 사용하기. 5편의 영화 리뷰를 읽어 형태소 분석 > CountVectorizer, TfidfVectorizer 적용 각 영화 간의 코사인유사도 확인 import requests from bs4 import BeautifulSoup from konlpy.tag import Okt import numpy as np import pandas as pd from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer Beautiful Soup을 이용해 리뷰 읽어오기 def movie_scrap_func(url): result = [] for p in range(1,6): #5 페이지 리뷰 r = requests.get(.. 2022. 5. 26. word2vec 자료 제공 https://auto.v.daum.net/v/ENwBGfA3Ky 프리미엄 전기차, BMW i4 eDrive40 시승기 BMW의 2세대 배터리 전기차 i4를 시승했다. 세단도 아닌 그란쿠페라는 장르를 전기차화한 것이 특징이다. 이는 iX와 함께 BMW 가 배터리 전기차에 대해 어떤 생각을 하고 있는지 알 수 있게 해 주는 auto.v.daum.net # 웹 뉴스 자료 읽어 형태소 분석 후 word2vec을 이용해 단어 간 유사도 확인하기 import pandas as pd from konlpy.tag import Okt # 형태소 분석 okt = Okt() with open('news.txt', mode='r', encoding='utf-8') as f: lines = f.read().spli.. 2022. 5. 26. 회귀 분석 # kaggle.com에서 carseats.csv 파일을 다운 받아 Sales 변수에 영향을 주는 변수들을 선택하여 선형회귀분석을 실시한다. # 변수 선택은 모델.summary() 함수를 활용하여 타당한 변수만 임의적으로 선택한다. # 회귀분석모형의 적절성을 위한 조건도 체크하시오. # 완성된 모델로 Sales를 예측. import pandas as pd import matplotlib.pyplot as plt datas = pd.read_csv('../testdata/carseats.csv') df = pd.DataFrame(datas) print(df.corr()) # income, advertising, price, age import statsmodels.formula.api as smf lm =.. 2022. 5. 4. 이전 1 다음