2018 Старший дизайнерский проект Пенна
Первое место в департаменте СНГ
Дэвид Цао ○ Дилан Манн ○ Алекс Мозес ○ Грэм Мосли
BitTorrent-трафика много, но его сложно анализировать. Чтобы собрать достаточно данных для серьезного анализа, необходимо большое распределенное решение. В настоящее время исследовательские фирмы, такие как Nielsen, не могут должным образом учесть незаконное потребление средств массовой информации. Анализ трафика BitTorrent позволит компаниям изучать поведение потребителей, которое ранее было невидимо для традиционных показателей популярности СМИ.
Наше решение — развернуть узлы, которые прослушивают основную распределенную хэш-таблицу BitTorrent (DHT). На каждом узле работает раздвоенная версия превосходного репозитория mldht от the8472. Нашу вилку можно найти здесь. Как только наш узел обнаруживается узлами в DHT, он начинает маршрутизировать запросы, разрешать торренты и собирать метаданные о полученных запросах. Мы обрабатываем эти данные через наш конвейер и сохраняем обработанные результаты в Amazon S3 для быстрого доступа.
Основной продукт BoonTorrent — это машиночитаемые временные ряды данных для исследований. Мы также реализовали два приложения для проверки концепции, основанных на этих данных. Первый — это визуализация тепловой карты, которая обновляется в режиме реального времени с учетом трафика за последние 2 минуты, а второй — поисковая система для поиска конкретных торрент-файлов. За один месяц наша поисковая система проиндексировала 1,2 миллиона торрентов, представляющих 46 миллионов файлов общим размером почти 4 петабайта. Стоимость нашего конвейера и обоих приложений составляет примерно 10 долларов в день, и мы ежедневно регистрируем и анализируем примерно 7 миллионов точек данных. Наша работа показала, что можно экономически эффективно отслеживать BitTorrent-трафик.
Расположение | Описание |
---|---|
индексатор-лямбда | AWS Lambda, которая индексирует разрешенные торренты, запускаемые событиями создания объекта s3. |
торрент-сводка-лямбда | AWS Lambda, которая извлекает заданный торрент из S3 и декодирует метаданные. |
прототипы | Реализация прототипа. |
искра-скала | Локальный код обработки искры. |
userdata.sh | Скрипт пользовательских данных для экземпляров EC2. |
документы | скриншоты и справочный материал. |
приложение | Доказательство концепции веб-приложений, написанных с помощью ejs. |
Пример файла журнала пожарного шланга можно найти здесь.
За месяц мы просканировали и проиндексировали 1,2 миллиона торрентов, описывающих 46 миллионов файлов общим объемом 4 ПБ.
Если вас интересуют необработанные файлы .torrent или метаданные, сообщите о проблеме.