Pattern은 Python용 웹 마이닝 모듈입니다. 다음을 위한 도구가 있습니다.
데이터 마이닝: 웹 서비스(Google, Twitter, Wikipedia), 웹 크롤러, HTML DOM 파서
자연어 처리: 품사 태거, n-gram 검색, 감정 분석, WordNet
기계 학습: 벡터 공간 모델, 클러스터링, 분류(KNN, SVM, Perceptron)
네트워크 분석: 그래프 중심성 및 시각화.
잘 문서화되어 있으며 350개 이상의 단위 테스트를 통해 철저하게 테스트되었으며 50개 이상의 예제가 번들로 제공됩니다. 소스 코드는 BSD에 따라 라이센스가 부여됩니다.
이 예제는 Python 3을 사용하여 Twitter에서 마이닝된 형용사에 대한 분류자를 훈련합니다. 먼저 해시태그 #win 또는 #fail이 포함된 트윗이 수집됩니다. 예: "오늘 사랑스러운 작은 노부인에게 20달러 팁을 드립니다. #win" . 그런 다음 단어 품사 태그가 구문 분석되어 형용사만 유지됩니다. 각 트윗은 WIN
또는 FAIL
라벨이 붙은 형용사 → 개수 항목의 사전인 벡터로 변환됩니다. 분류자는 벡터를 사용하여 WIN
또는 FAIL
과 더 유사한 다른 트윗을 학습합니다.
패턴.웹에서 Twitter 가져오기패턴.en 가져오기 태그에서 패턴.벡터 가져오기 KNN, counttwitter, knn = Twitter(), KNN()for i in range(1, 3):for tweet in twitter.search('#win OR # 실패', 시작=i, 개수=100):s = tweet.text.lower()p = '#win' in s 및 'WIN' 또는 'FAIL'v = 태그(들)v = [단어에 대한 단어, 위치 v if pos == 'JJ'] # JJ = adjectivev = count(v) # {'sweet': 1}if v:knn.train(v, type=p)print(knn.classify('고구마 버거' ))print(knn.classify('멍청한 자동 수정'))
패턴은 Python 2.7 및 Python 3.6을 지원합니다. 모든 스크립트에서 사용할 수 있도록 패턴을 설치하려면 다운로드의 압축을 풀고 명령줄에서 다음을 수행합니다.
CD 패턴-3.6 파이썬 setup.py 설치
pip가 있으면 PyPI 저장소에서 자동으로 다운로드하여 설치할 수 있습니다.
핍 설치 패턴
위의 방법 중 어느 것도 작동하지 않으면 다음 세 가지 방법으로 Python이 모듈을 인식하도록 할 수 있습니다.
패턴 폴더를 스크립트와 동일한 폴더에 넣으세요.
모든 스크립트에서 사용할 수 있도록 패턴 폴더를 모듈의 표준 위치에 배치합니다.
c:python36Libsite-packages
(Windows),
/Library/Python/3.6/site-packages/
(맥 OS X),
/usr/lib/python3.6/site-packages/
(유닉스).
모듈을 가져오기 전에 스크립트의 sys.path
에 모듈 위치를 추가하세요.
MODULE = '/users/tom/desktop/pattern'import sys; MODULE이 sys.path에 없는 경우: sys.path.append(MODULE)from Pattern.en import partree
문서와 예제는 사용자 문서를 참조하세요.
3.6
BSD , 자세한 내용은 LICENSE.txt
참조하세요.
De Smedt, T., Daelemans, W. (2012). Python의 패턴입니다. 기계 학습 연구 저널, 13 , 2031-2035.
소스 코드는 GitHub에서 호스팅되며 기여나 기부를 환영합니다.
패턴은 다음 데이터 세트, 알고리즘 및 Python 패키지와 함께 번들로 제공됩니다.
브릴 태거 , 에릭 브릴
네덜란드의 브릴 술래 , Jeroen Geertzen
독일인, Gerold Schneider 및 Martin Volk의 브릴 태거
Wikicorpus에서 훈련된 스페인어용 브릴 태거 (Samuel Reese & Gemma Boleda et al.)
Lefff 교육을 받은 프랑스어용 브릴 태거 (Benoît Sagot & Lionel Clément et al.)
위키낱말사전에서 채굴된 이탈리아어용 브릴 술래
영어 복수형 , 데미안 콘웨이
스페인어 동사 변형 , Fred Jehle
프랑스어 동사 활용 , Bob Salita
그래프 JavaScript 프레임워크 , Aslak Hellesoy 및 Dave Hoover
LIBSVM , 장치중, 린치젠
LIBLINEAR , Rong-En Fan 외.
NetworkX 중심성 , Aric Hagberg, Dan Schult 및 Pieter Swart
철자 교정자 , Peter Norvig
저자:
톰 드 스메트([email protected])
월터 댈레만스([email protected])
기여자(연대순):
프레데릭 드 블레저
제이슨 위너
다니엘 프리젠
제로엔 게르첸
토마스 크롬베즈
켄 윌리엄스
피터리스 에린스
라제쉬 나이르
F. 데 스메트
라딤 Řehůřek
톰 로레도
존 드보비스
토마스 실레오
제롤드 슈나이더
마틴 볼크
사무엘 조셉
슈반슈 미슈라
로버트 엘웰
프레드 젤레
앙투안 마지에르 + fabelier.org
Rémi de Zoeten + closealert.nl
케네스 코크
옌스 그리볼라
파비오 마피아
스티븐 로리아
콜린 몰터 + tevizz.com
피터 불
마우리치오 삼바티
단 푸
살바토레 디 디오
빈센트 반 애쉬
프레데릭 엘워트