Telegram 關鍵字趨勢
一種分析工具,用於探索 Telegram 聊天平台上出現的仇恨言論、虛假資訊和感興趣的敘述。請謹慎使用此工具,因為它沒有內容審核或過濾功能。您對可能匯出的內容負責。
簡而言之,該工具可讓您使用關鍵字/短語清單搜尋您關注的所有頻道,並透過圖形視覺化以各種格式傳回所有符合結果。它還可以選擇下載媒體,因此可以用作媒體搜尋引擎(目前此功能存在一些錯誤 - 不要用作詳盡的媒體搜尋工具)。
正在運行的工具的螢幕截圖,探索俄羅斯全面入侵烏克蘭期間的仇恨言論
主要特點
- 該工具旨在與關注特定主題的多個頻道的馬甲傀儡一起使用。
- 您可以透過編輯api_values.txt檔案來變更 API 詳細資訊以使用不同的帳戶。
- 該工具的設計類似於谷歌趨勢,顯示關鍵術語的每日數量和隨時間變化的地圖。
- 日期過濾可讓您將搜尋範圍縮小到更短的時間段。如果留空,它將自動縮放到資料的最大範圍。
- 該工具使用 Telegram 搜索,這意味著它特別適合俄語搜索,並且通常可以很好地處理詞尾。
- 為每個關鍵術語產生單獨的圖表。
- 產生聚合圖,顯示同一圖上搜尋中的所有關鍵術語以進行比較。
- 編譯 PDF 報告,顯示圖表並列印完整程式碼,用於資料審核和證據驗證。
- 輸出 TXT 檔案摘要,包括所有主要統計數據,例如運行日期、搜尋的頻道以及每個頻道的相對音量。
- 可選的結果媒體下載(這極大地(就像真的極大地)延長了運行該工具所需的時間)
- 下載的媒體檔案名稱為channelid_postid,因此很容易找到原始媒體。
此腳本在使用者所屬的 Telegram 頻道中搜尋包含指定搜尋字詞的訊息。它以 HTML 和 CSV 格式匯出搜尋結果、產生報告並繪製每天的訊息計數。
它旨在以與 Google 趨勢大致相同的方式監控搜尋字詞的趨勢。這對於識別某些事件後出現的仇恨言論或討論/敘述非常有用。
目前版本沒有對資料進行任何重大調整,例如,圖表沒有顯示根據所有訊息的發生率調整的術語發生率。這意味著應該進行進一步的分析,以確保術語的急劇上升不會與一般活動的急劇上升相混淆。因此,圖表輸出應被視為需要進一步研究和統計分析的指示。
探索俄羅斯全面入侵烏克蘭期間仇恨言論的範例結果
此圖是一個範例結果,顯示了正在調查的管道如何看到特定術語的使用激增。
產生的報告範例
該圖像是報告的範例結果,該報告是一個 PDF 文檔,概述了程式碼並在最後列印了腳本。這意味著無論發生什麼變化或使用什麼版本的腳本,都可以仔細檢查確切的過程。
txt統計報告中產生的一些資訊的螢幕截圖
該工具已經過英語和俄語搜尋字詞的測試。
警告:此工具使用您關注的群組清單作為其搜尋來源的清單。它可能包括個人聊天/群組。為了 OPSEC,建議使用 Burner 帳戶並僅關注特定於調查的聊天。
安裝
透過在終端機或命令提示字元中執行以下命令來克隆 tg-keyword-trends 儲存庫:
git clone https://github.com/thomasjjj/tg-keyword-trends.git
導航至 tg-keyword-trends 目錄:
cd tg-keyword-trends
使用 pip 安裝所需的 Python 依賴項:
pip install -r requirements.txt
特徵
- 圖表根據最舊和最新的帖子調整比例。
- 產生 CSV 以供進一步處理。
- 產生用於開啟連結的 HTML 檔案。
- 產生報告,記錄抓取的關鍵詳細資訊(日期、存取的管道等),以便對結果進行審核。
- 媒體下載
用法:
- 將搜尋字詞(每行一個)加入 .txt 檔案中。系統很快就會提示您輸入檔案位置。
- 確保您已準備好 Telegram API 詳細資訊 [https://my.telegram.org/auth]
- 該腳本將搜尋用戶所屬的所有頻道。
- 搜尋結果將作為 HTML 和 CSV 檔案匯出到帶有時間戳記的輸出資料夾中。
- 該腳本將產生包含每個頻道的搜尋結果的報告。
- 該腳本將在圖表中繪製每個搜尋字詞每天的訊息計數並將其儲存為圖像。
功能:
- retrieve_api_details :從「api_details.txt」讀取API詳細資訊。
- check_search_terms_file :從「search_terms.txt」讀取搜尋字詞或提示使用者輸入搜尋字詞。
- create_output_directory :建立一個帶有時間戳記的目錄來儲存輸出檔案。
- print_colored :使用 colorama 模組以指定顏色列印文字。
- render_url :使用 URL 和訊息文字產生超連結的 HTML 程式碼。
- generate_report :產生包含每個通道的搜尋結果的報告。
- plot_keyword_Frequency :在圖表中繪製每個搜尋字詞每天的訊息計數。
尖端:
- 由於具有日期過濾功能,該工具還可以用作 Telegram 搜尋引擎,允許對結果進行日期過濾。只需在所需的日期視窗中運行搜索,然後打開輸出 html 文件即可獲取匹配訊息及其連結的列表。
- 此工具會自動處理時區並進行調整。編輯與時間和日期格式相關的程式碼的任何部分時要特別小心,因為這很難調試。
- 建議您為每個主題建立一個專用的 Telegram 帳戶。這將使您能夠僅定位相關頻道並消除噪音。
- 您不需要分別搜尋單數和複數名詞,因為這是由 Telegram 的搜尋處理的(一般來說,對於英語和俄語)。
*此圖顯示了「Bakmut」各種地名的用法,包括舊蘇聯名稱。該工具的用途之一是驗證 OSINT 研究中使用的搜尋術語。從這裡可以看出,如果他們只使用城市當前的官方名稱而不是過去和有爭議的名稱,那麼他們的收藏潛力可能會受到限制。 *
依賴項:
- 熊貓~=2.0.0
- matplotlib~=3.7.1
- 馬拉松~=1.28.2
- 色度~=0.4.6
- 枕頭~=9.5.0
- 報告實驗室~=3.6.12
- numpy~=1.24.2
- pytz~=2023.3
- tqdm~=4.65.0
Python版本:Python 3.11或更高版本
待辦事項