boontorrent
1.0.0
2018年賓州大學高級設計項目
CIS系第一名
曹大衛 ○ 迪倫·曼 ○ 亞歷克斯·摩西 ○ 格雷厄姆·莫斯利
BitTorrent 流量豐富,但難以分析。為了捕捉足夠的數據進行重要分析,需要大型分散式解決方案。目前,尼爾森等研究公司未能正確解釋非法媒體消費。分析 BitTorrent 流量將使公司能夠研究以前傳統媒體受歡迎程度衡量方法無法看到的消費者行為。
我們的解決方案是部署監聽 BitTorrent 主線分散式雜湊表 (DHT) 的節點。每個節點都運行 the8472 的優秀 repo mldht 的分叉版本。我們的叉子可以在這裡找到。一旦我們的節點被 DHT 中的對等點發現,它就會開始路由查詢、解析 torrent 並收集有關其收到的查詢的元資料。我們透過管道處理這些數據,並將處理結果儲存在 Amazon S3 中以便於存取。
BoonTorrent 的主要產品是用於研究的機器可讀時間序列資料。我們還實作了兩個基於該資料建構的概念驗證應用程式。第一個是熱圖視覺化,根據最後 2 分鐘的流量即時更新,第二個是用於定位特定 torrent 檔案的搜尋引擎。在一個月內,我們的搜尋引擎已索引了 120 萬個種子,代表 4600 萬個文件,總大小接近 4 PB。我們的管道和兩個應用程式每天的運行費用約為 10 美元,我們每天記錄和分析大約 700 萬個數據點。我們的工作表明,可以經濟高效地監控 BitTorrent 流量。
地點 | 描述 |
---|---|
索引器-lambda | AWS Lambda,對由 s3 物件建立事件觸發的已解析 torrent 進行索引。 |
torrent-摘要-lambda | AWS Lambda 從 S3 檢索給定的 torrent 並解碼元資料。 |
原型 | 原型實現。 |
Spark-Scala | 本地火花處理程式碼。 |
用戶資料.sh | EC2 執行個體的使用者資料腳本。 |
文件 | 螢幕截圖和參考資料。 |
應用程式 | 使用 ejs 編寫的概念驗證 Web 應用程式。 |
可以在此處找到範例 Firehose 日誌檔案。
在一個月的時間裡,我們抓取並索引了 120 萬個種子,描述了 4,600 萬個文件,總計 4PB。
如果您對原始 .torrent 檔案或元資料感興趣,請提出問題。