本指南的目標是描述在大多數流行文件和資料庫中搜尋和簡化文字資訊搜尋的工具。
它可以有利於新聞調查、處理大量數據,例如文件洩露和電子取證。
該指南適用於搜尋各種格式(存檔大文本文件、csv/sql)、文件(pdf、xls/x、doc/x)和專業資料庫(1C、Cronos 等)的違規行為。
英文版 |俄語版
Datashare - ICIJ 的多作業系統平台,旨在共享大型文件資料集,特別是在研究人員和記者之間。
它允許您搜尋 pdf、圖像、文字、電子表格、幻燈片等。
dnGrep - 一款適用於 Windows 的圖形使用者介面工具,可搜尋文字檔案、文件、PDF 和最受歡迎的檔案格式。支援目錄中的正規表示式和遞歸搜尋。額外功能:Windows 資源管理器整合!
儘管搜尋視覺化存在一些問題並且無法處理大檔案,但 dnGrep 看起來像是文字檔案中大規模搜尋的最具前景的工具。
AstroGrep - 一款適用於 Windows 的圖形使用者介面工具,使用戶能夠跨多個文件執行文字搜索,這對於需要管理大量文件的使用者特別有用。它支援各種文件格式並提供用戶友好的介面。
AstroGrep 的主要優點包括它能夠透過大量文件中的文字搜尋快速提供結果。此外,AstroGrep 會突出顯示文件中的搜尋術語,從而簡化了查看搜尋結果的過程。它還包括有用的功能,例如正則表達式匹配,可以進行更複雜和更精確的搜尋。
然而,AstroGrep 主要專注於文字搜索,因此其實用性僅限於文字數據,不能擴展到 Excel 文件、檔案、圖像或音訊檔案中的搜尋。
Google Pinpoint - 一款旨在幫助記者管理大量資訊的雲端工具。它支援各種文件類型,包括文件(幾乎將所有內容轉換為 PDF)、圖像和音訊文件,並與 Google Drive 整合以實現高效的資料管理。該工具可透過廣泛的數據集進行快速搜索,從而提高研究效率。
Pinpoint 的優勢包括強大的搜尋功能,可透過簡化資料審查流程來節省時間。它還支援協作工作,允許多個用戶同時處理同一個專案。
然而,作為基於雲端的工具,它需要穩定的網路連線。
Unix 工具grep
是搜尋者的標準。您應該只傳遞兩個參數:搜尋模式和文件,並且該工具將搜尋與模式匹配的行。此模式可以是一個簡單的字串(例如,電話號碼或電子郵件地址)。
grep
被其他實用程式使用(或只是其語法),所以讓我們考慮一些主要參數:
-A number
- 每次符合後列印上下文的行number
-B number
- 在每次匹配之前列印上下文的行number
-C number
- 列印每個匹配項周圍上下文的行number
-i
- 不區分大小寫的搜尋:搜尋Target
和target
字將找到TARGET
-R
- 遞歸搜尋:該工具將掃描所有嵌套目錄(可使用 * 作為檔案名稱)
-a
- 將所有文件視為文字文件,在出現錯誤時使用Binary file (standard input) matches
grep
用法範例:
grep -iR target dumps/*
- 透過目錄dumps
中的所有文字檔案搜尋單字target
(不區分大小寫)
最好將XLSX
檔案轉換為CSV
並使用grep
進行搜尋或僅使用工具xlsxgrep
。
使用範例:
xlsxgrep target -H -N -r dumps/*
最好使用zgrep
在檔案 .gz 和 .tgz 中進行搜尋。
該工具是grep
的直接類似物,但以下內容除外:
-R
zgrep
用法範例:
zgrep -ia target dumps/*
- 透過所有文字檔案和目錄dumps
中的 gz-archives 搜尋單字target
(不區分大小寫)
最好使用7zip
解包工具和grep
來搜尋 7z 檔案:
使用範例:
7z x archive.7z -so | grep ...
7zip
還可以處理其他類型的檔案。
最好是使用unrar
解包工具和grep
來搜尋 rar 檔案:
使用範例:
unrar p archive.rar | grep ...
俄羅斯有一種流行的資料庫軟體和檔案格式Cronos
。最好使用適當版本的官方用戶端(Cronos、CronosPlus、CronosPro),或者您可以使用 cronodump 工具將資料庫轉換為 CSV 檔案:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
俄羅斯有一個流行的軟體1C。 1C 使用自己的文件格式:.1CD、.efd 等。您可以使用 onec_dtools 編寫自訂腳本以從 1C 資料庫中提取所有數據,或使用 1c-database-converter 將資料庫轉換為 CSV 檔案。
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1