Pattern は Python 用の Web マイニング モジュールです。以下のためのツールがあります。
データマイニング: Web サービス (Google、Twitter、Wikipedia)、Web クローラー、HTML DOM パーサー
自然言語処理: 品詞タグ付け、N グラム検索、感情分析、WordNet
機械学習: ベクトル空間モデル、クラスタリング、分類 (KNN、SVM、パーセプトロン)
ネットワーク分析: グラフの中心性と視覚化。
これは十分に文書化されており、350 以上の単体テストで徹底的にテストされており、50 以上のサンプルがバンドルされています。ソース コードは BSD に基づいてライセンスされています。
この例では、Python 3 を使用して Twitter からマイニングされた形容詞で分類器をトレーニングします。まず、ハッシュタグ #win または #fail を含むツイートが収集されます。例: 「今日、優しい小さなおばあさんに 20 ドルのチップを渡します #win」 。次に、単語の品詞タグが解析され、形容詞のみが残ります。各ツイートは、 WIN
またはFAIL
というラベルが付けられたベクトル、つまり形容詞→カウント項目の辞書に変換されます。分類器はベクトルを使用して、他のどのツイートがWIN
に近いか、 FAIL
に近いかを学習します。
from pattern.web import Twitterfrom pattern.en import tagfrom pattern.vector import KNN, counttwitter, knn = Twitter(), KNN()for i in range(1, 3):for tweet in twitter.search('#win OR # failed', start=i, count=100):s = tweet.text. lower()p = '#win' in s および 'WIN' または 'FAIL'v = tag(s)v = [単語word, pos in v if pos == 'JJ'] # JJ = adjectivev = count(v) # {'sweet': 1}if v:knn.train(v, type=p)print(knn.classify('スイートポテトバーガー'))print(knn.classify('愚かな自動修正'))
パターンは Python 2.7 と Python 3.6 をサポートします。すべてのスクリプトで使用できるようにパターンをインストールするには、ダウンロードを解凍し、コマンド ラインから次の操作を実行します。
cd パターン-3.6 Python setup.py インストール
pip がある場合は、PyPI リポジトリから自動的にダウンロードしてインストールできます。
pip インストール パターン
上記のいずれも機能しない場合は、次の 3 つの方法で Python にモジュールを認識させることができます。
パターン フォルダーをスクリプトと同じフォルダーに置きます。
すべてのスクリプトで使用できるように、パターン フォルダーをモジュールの標準の場所に置きます。
c:python36Libsite-packages
(Windows)、
/Library/Python/3.6/site-packages/
(Mac OS X)、
/usr/lib/python3.6/site-packages/
(Unix)。
モジュールをインポートする前に、スクリプトのsys.path
にモジュールの場所を追加します。
MODULE = '/users/tom/desktop/pattern'import sys; MODULE が sys.path にない場合: sys.path.append(MODULE)from pattern.en import parsetree
ドキュメントと例については、ユーザー ドキュメントを参照してください。
3.6
BSD の詳細については、 LICENSE.txt
参照してください。
De Smedt、T.、Daelemans、W. (2012)。 Python のパターン。機械学習研究ジャーナル、13、2031 ~ 2035 年。
ソース コードは GitHub でホストされており、貢献や寄付を歓迎します。
パターンには、次のデータセット、アルゴリズム、Python パッケージがバンドルされています。
ブリル・タガー、エリック・ブリル
オランダ語のブリルタガー、Jeroen Geertzen
ドイツ語のブリルタガー、ゲロルト・シュナイダー&マルティン・フォルク
ウィキコーパスでトレーニングされたスペイン語の Brill タガー(Samuel Reese & Gemma Boleda et al.)
レフで訓練を受けたフランス語のブリルタガー(Benoit Sagot & Lionel Clément et al.)
イタリア語の Brill tagger 、ウィクショナリーから採掘
英語の複数形化、ダミアン・コンウェイ
スペイン語の動詞の活用、フレッド・ジェーレ
フランス語動詞の活用、ボブ・サリタ
グラフ JavaScript フレームワーク、Aslak Hellesoy、Dave Hoover
LIBSVM 、Chih-Chung Chang、Chih-Jen Lin
LIBLINEAR 、Rong-En Fan 他
NetworkX の中心性、Aric Hagberg、Dan Schult、Pieter Swart
スペル訂正者、ピーター・ノーヴィグ
著者:
トム・デ・スメット ([email protected])
ウォルター・ダーレマンス ([email protected])
貢献者 (年代順):
フレデリック・デ・ブレザー
ジェイソン・ウィーナー
ダニエル・フリーセン
ジェロン・ゲルツェン
トーマス・クロムベス
ケン・ウィリアムズ
ペテリス・エリンズ
ラジェシュ・ネール
F.デ・スメット
ラディム・ジェシェク
トム・ロレド
ジョン・デボヴィス
トーマス・シレオ
ジェロルド・シュナイダー
マルティン・フォルク
サミュエル・ジョセフ
シュバンシュ・ミシュラ
ロバート・エルウェル
フレッド・ジェール
アントワーヌ・マジエール + fabelier.org
レミ・ド・ゾーテン + closealert.nl
ケネス・コッホ
イェンス・グリヴォッラ
ファビオ・マルフィア
スティーブン・ロリア
コリン・モルター + tevizz.com
ピーター・ブル
マウリツィオ・サンバティ
ダン・フー
サルヴァトーレ・ディ・ディオ
ヴィンセント・ヴァン・アッシュ
フレデリック・エルワート