ARIA-ランドマークの識別
このプロジェクトは、Web アプリケーションで ARIA ランドマークを自動的に識別するアプローチを評価するためのスクリプトを保存します。このアプローチは、ARIA ランドマークである可能性が最も高い要素を識別するための DOM 要素の分類とクラスタリングに基づいています。
このプロジェクトは Python で実装されており、スクリプトを実行できる Docker イメージを生成するための Dockerfile を提供します。
プロジェクトのメイン ファイル (main.py) は、ARIA ランドマークの識別を行うための複数のアクティビティを実行します。次に、アクティビティとその入出力リソースについて説明します。
- 分類子トレーニング (pipeline.cross_validation.fit_classifier) : トレーニング データセット (./data/training.classified.csv) を使用して分類子 (SVM、KNN、DT、または RF) をトレーニングし、生成された抽出子および分類子の pickle ファイルを ;/results に保存します。 /分類子フォルダー。このスクリプトは、分類器の精度レポートを生成するために 10 倍 CV も実行します。
- CV レポートのマージ (pipeline.merge_cv_reports.merge_reports) : 前のアクティビティで生成された CV 精度レポートを分析用に 1 つのスプレッドシートにマージします (./results/accuracy.xlsx)。このファイルには、各クラスの F1 スコア/精度と再現率、平均マクロ値、加重平均値を考慮した精度レポートが含まれています。スプレッドシートには、抽出器と分類器のペアを構成するために分類モデルの各特徴が使用された頻度も表示されます。
- テスト データセットの分類 (pipeline.classify_test_dataset) : テスト データセット (./data/test/) で利用可能なサンプルを分類するために、適合した RF 抽出器/分類子 (./results/classifier) を使用します。テスト データセットは、さまざまな Web アプリケーションの要素から抽出されたデータで構成されています。このアクティビティの結果は、./resutls/test フォルダーに保存されます。
- クラスタリング テスト データセット予測 (pipeline.clustering_rows.cluster_rows) : クラス名称と位置/サイズの特徴に従って、テスト データセット分類の結果をクラスタリングします。各クラスターについて、ARIA ランドマークである可能性が最も高い要素のみが報告されます。このアクティビティの結果は、./results/clusters フォルダーに保存されます。
- イメージ レポートの生成 (pipeline.image_report.generate_reports) : 前のアクティビティで特定された ARIA ランドマーク (./results/clusters フォルダー) とそれぞれの Web アプリケーションのスクリーンショット (./data/screenshots フォルダー) のイメージ レポートを生成します。画像レポートは、前のアクティビティで特定された ARIA ランドマークごとに生成され、./results/image-reports フォルダーに保存されます。