2018年ペンシニアデザインプロジェクト
CIS部門で1位
デビッド・カオ ○ ディラン・マン ○ アレックス・モーゼス ○ グラハム・モズリー
BitTorrent トラフィックは大量にありますが、分析するのは困難です。重要な分析に十分なデータを収集するには、大規模な分散ソリューションが必要です。現在、ニールセンのような調査会社は、違法なメディア消費を適切に説明できていない。 BitTorrent トラフィックを分析することで、企業はこれまでメディアの人気を測る従来の尺度では見えなかった消費者の行動を研究できるようになります。
私たちの解決策は、BitTorrent Mainline Distributed Hash Table (DHT) をリッスンするノードをデプロイすることです。各ノードは、the8472 による優れたリポジトリ mldht のフォークされたバージョンを実行します。私たちのフォークはここにあります。ノードが DHT 内のピアによって検出されると、クエリのルーティング、トレントの解決、受信したクエリに関するメタデータの収集が開始されます。このデータはパイプラインを通じて処理され、簡単にアクセスできるように処理結果が Amazon S3 に保存されます。
BoonTorrent の主な製品は、研究用の機械可読時系列データです。また、そのデータに基づいて構築された 2 つの概念実証アプリケーションも実装しました。 1 つ目は、過去 2 分間のトラフィックでリアルタイムに更新されるヒートマップ視覚化であり、2 つ目は、特定の torrent ファイルを見つけるための検索エンジンです。 1 か月間で、当社の検索エンジンは 4,600 万のファイル、合計サイズが約 4 ペタバイトに相当する 120 万の torrent のインデックスを作成しました。私たちのパイプラインと両方のアプリケーションは 1 日あたり約 10 ドルで実行され、毎日約 700 万のデータ ポイントをログに記録して分析しています。私たちの研究により、BitTorrent トラフィックをコスト効率よく監視できることがわかりました。
位置 | 説明 |
---|---|
インデクサーラムダ | AWS Lambda は、s3 オブジェクト作成イベントによってトリガーされ、解決された torrent のインデックスを作成します。 |
トレント概要-ラムダ | S3 から指定された torrent を取得し、メタデータをデコードする AWS Lambda。 |
プロトタイプ | プロトタイプの実装。 |
スパークスカラ | ローカル スパーク処理コード。 |
ユーザーデータ.sh | EC2 インスタンスのユーザーデータ スクリプト。 |
ドキュメント | スクリーンショットと参考資料。 |
アプリ | ejs で書かれた概念実証の Web アプリケーション。 |
Firehose ログ ファイルの例はここにあります。
1 か月にわたって、合計 4PB の 4,600 万個のファイルを記述する 120 万個の torrent をクロールし、インデックスを作成しました。
未加工の .torrent ファイルまたはメタデータに興味がある場合は、問題を提出してください。