ラベル伝播メソッドを使用したシソーラス拡張ツール。テキスト コーパスと既存のシソーラスから、既存の同義語セットを拡張するための提案が生成されます。このツールは、ミュンヘン工科大学 (TUM) の「ビジネス情報システムのためのソフトウェア エンジニアリング (sebis)」学部長の修士論文「税法シソーラス拡張のためのラベル伝播」中に開発されました。
論文の要約。デジタル化の進展に伴い、情報検索はデジタル化されたコンテンツの量の増加に対応する必要があります。法律コンテンツプロバイダーは、大幅に増加した関連文書を取得するために、シソーラスなどのドメイン固有のオントロジーの構築に多額の資金を投資しています。 2002 年以来、グラフ内の類似したノードのグループを識別するためなど、多くのラベル伝播手法が開発されてきました。ラベル伝播は、グラフベースの半教師あり機械学習アルゴリズムのファミリーです。この論文では、税法の領域からシソーラスを拡張するためのラベル伝播方法の適合性をテストします。ラベル伝播が機能するグラフは、単語の埋め込みから構築された類似度グラフです。私たちはプロセスをエンドツーエンドでカバーし、特定のハイパーパラメーターが全体的なパフォーマンスに及ぼす影響を理解するためにいくつかのパラメーター調査を実施します。次に、結果は手動研究で評価され、ベースラインのアプローチと比較されます。
このツールは、次のパイプとフィルターのアーキテクチャを使用して実装されました。
pipenv
をインストールします (インストール ガイド)。pipenv install
を使用してプロジェクトの要件をインストールします。 data/RW40jsons
に一連のテキスト コーパス ファイル、およびdata/german_relat_pretty-20180605.json
にシソーラスを必要とします。予想されるファイル形式については、phase1.py およびphase4.py を参照してください。output//
に保存されます。最も重要なのは08_propagation_evaluation
とXX_runs
です。 08_propagation_evaluation
では、評価統計は、予測、トレーニング、テスト セットを含むテーブル ( main.txt
、他のスクリプトではdf_evaluation
と呼ばれることが多い) とともにstats.json
として保存されます。 XX_runs
には、実行のログが保存されます。 multi_runs.py 経由で複数の実行がトリガーされた場合 (それぞれが異なるトレーニング/テスト セットを持つ)、すべての個別の実行の結合統計もall_stats.json
として保存されます。 purew2v_parameter_studies.py を介して、論文で導入した synset ベクター ベースラインを実行できます。これには、一連の単語埋め込みと 1 つまたは複数のシソーラス トレーニング/テスト分割が必要です。例については、sample_commands.md を参照してください。
ipynbs
では、(a) 統計、(b) 図、および (c) 手動評価用の Excel ファイルを生成するために使用されるいくつかの例示的な Jupyter ノートブックが提供されました。 pipenv shell
実行し、 jupyter notebook
で Jupyter を起動することで、それらを探索できます。
main.py
またはmulti_run.py
呼び出すときにパラメーターとして指定する必要があります。