데이터분석/데이터분석

konlpy 한국어 처리 패키지

이규승 2022. 4. 30. 13:36
728x90

konlpy(코엔엘파이) 한국어 처리 패키지

형태소 분석 : 자연어 처리를 목적으로 언어적 속성의 구조를 파악한다.

kkma : http://kkma.snu.ac.kr/

komoran : https://github.com/shin285/KOMORAN

Okt(Open Korean Text) : https://github.com/open-korean-text/open-korean-text

 

from konlpy.tag import Kkma, Okt, Komoran

kkma = Kkma()
print(kkma.sentences('한글 데이터 형태소 분석을 위한 라이브러리 설치를 합니다. 잘되길 바랍니다'))
print(kkma.nouns('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(kkma.pos('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(kkma.morphs('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
['한글 데이터 형태소 분석을 위한 라이브러리 설치를 합니다.', '잘되길 바랍니다']
['한글', '설치', '데이터', '형태소', '라이브러리', '형태소분석', '분석', '123']
[('한글', 'NNG'), ('데이터', 'NNG'), ('형태소', 'NNG'), ('분석', 'NNG'), ('을', 'JKO'), ('위하', 'VV'), ('ㄴ', 'ETD'), ('라이브러리', 'NNG'), ('설치', 'NNG'), ('를', 'JKO'), ('하', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF'), ('Good', 'OL'), ('job', 'OL'), ('123', 'NR')]
['한글', '데이터', '형태소', '분석', '을', '위하', 'ㄴ', '라이브러리', '설치', '를', '하', 'ㅂ니다', '.', 'Good', 'job', '123']

sentences : 문단

nouns : 명사

pos : 품사 부착

morphs : 모든 품사

okt = Okt()
print(okt.nouns('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(okt.pos('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(okt.pos('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123', stem = True)) #원형 어근
print(okt.morphs('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(okt.phrases('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123')) #어절 추출

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
['한글', '데이터', '형태소', '분석', '위', '라이브러리', '설치']
[('한글', 'Noun'), ('데이터', 'Noun'), ('형태소', 'Noun'), ('분석', 'Noun'), ('을', 'Josa'), ('위', 'Noun'), ('한', 'Determiner'), ('라이브러리', 'Noun'), ('설치', 'Noun'), ('를', 'Josa'), ('합니다', 'Verb'), ('.', 'Punctuation'), ('Good', 'Alpha'), ('job', 'Alpha'), ('123', 'Number')]
[('한글', 'Noun'), ('데이터', 'Noun'), ('형태소', 'Noun'), ('분석', 'Noun'), ('을', 'Josa'), ('위', 'Noun'), ('한', 'Determiner'), ('라이브러리', 'Noun'), ('설치', 'Noun'), ('를', 'Josa'), ('하다', 'Verb'), ('.', 'Punctuation'), ('Good', 'Alpha'), ('job', 'Alpha'), ('123', 'Number')]
['한글', '데이터', '형태소', '분석', '을', '위', '한', '라이브러리', '설치', '를', '합니다', '.', 'Good', 'job', '123']
['한글데이터형태소분석', '위한라이브러리설치', 'Good', 'Good job', 'Good job 123', '한글', '데이터', '형태소', '분석', '한라이브러리', '설치', 'job', '123']

phrases : 어절

ko = Komoran()
print(ko.nouns('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(ko.pos('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))
print(ko.morphs('한글데이터형태소분석을위한라이브러리설치를합니다. Good job 123'))

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
['한글', '데이터', '형태소', '분석', '라이브러리', '설치']
[('한글', 'NNG'), ('데이터', 'NNG'), ('형태소', 'NNP'), ('분석', 'NNP'), ('을', 'JKO'), ('위하', 'VV'), ('ㄴ', 'ETM'), ('라이브러리', 'NNP'), ('설치', 'NNP'), ('를', 'JKO'), ('하', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF'), ('Good', 'SL'), ('job', 'SL'), ('123', 'SN')]
['한글', '데이터', '형태소', '분석', '을', '위하', 'ㄴ', '라이브러리', '설치', '를', '하', 'ㅂ니다', '.', 'Good', 'job', '123']

 

728x90

'데이터분석 > 데이터분석' 카테고리의 다른 글

비율분석  (0) 2022.04.30
ANOVA  (0) 2022.04.30
T-test  (0) 2022.04.30
카이제곱 검정  (0) 2022.04.30
글 스크래핑 후 형태소를 분석  (0) 2022.04.30