本指南的目标是描述在大多数流行文件和数据库中搜索和简化文本信息搜索的工具。
它可以有利于新闻调查、处理大量数据,例如文档泄露和电子取证。
该指南适用于搜索各种格式(存档大文本文件、csv/sql)、文档(pdf、xls/x、doc/x)和专业数据库(1C、Cronos 等)的违规行为。
英文版 |俄语版
Datashare - ICIJ 的多操作系统平台,旨在共享大型文档数据集,特别是在研究人员和记者之间。
它允许您搜索 pdf、图像、文本、电子表格、幻灯片等。
dnGrep - 一款适用于 Windows 的图形用户界面工具,可以搜索文本文件、文档、PDF 和最流行的档案格式。支持目录中的正则表达式和递归搜索。额外功能:Windows 资源管理器集成!
尽管搜索可视化存在一些问题并且无法处理大档案,但 dnGrep 看起来像是文本文件中大规模搜索的最具前景的工具。
AstroGrep - 一款适用于 Windows 的图形用户界面工具,使用户能够跨多个文件执行文本搜索,这对于需要管理大量文档的用户特别有用。它支持各种文件格式并提供用户友好的界面。
AstroGrep 的主要优点包括它能够通过大量文件中的文本搜索快速提供结果。此外,AstroGrep 会突出显示文件中的搜索术语,从而简化了查看搜索结果的过程。它还包括有用的功能,例如正则表达式匹配,可以进行更复杂和更精确的搜索。
然而,AstroGrep 主要专注于文本搜索,因此其实用性仅限于文本数据,不能扩展到 Excel 文档、档案、图像或音频文件中的搜索。
Google Pinpoint - 一款旨在帮助记者管理大量信息的云工具。它支持各种文件类型,包括文档(几乎将所有内容转换为 PDF)、图像和音频文件,并与 Google Drive 集成以实现高效的数据管理。该工具可通过广泛的数据集进行快速搜索,从而提高研究效率。
Pinpoint 的优势包括强大的搜索功能,可通过简化数据审查流程来节省时间。它还支持协作工作,允许多个用户同时处理同一个项目。
然而,作为基于云的工具,它需要稳定的互联网连接。
Unix 工具grep
是搜索者的标准。您应该只传递两个参数:搜索模式和文件,并且该工具将搜索与模式匹配的行。该模式可以是一个简单的字符串(例如,电话号码或电子邮件地址)。
grep
被其他实用程序使用(或只是其语法),所以让我们考虑一些主要参数:
-A number
- 每次匹配后打印上下文的行number
-B number
- 在每次匹配之前打印上下文的行number
-C number
- 打印每个匹配项周围上下文的行number
-i
- 不区分大小写的搜索:搜索Target
和target
词将找到TARGET
-R
- 递归搜索:该工具将扫描所有嵌套目录(可以使用 * 作为文件名)
-a
- 将所有文件视为文本文件,在出现错误时使用Binary file (standard input) matches
grep
用法示例:
grep -iR target dumps/*
- 通过目录dumps
中的所有文本文件搜索单词target
(不区分大小写)
最好将XLSX
文件转换为CSV
并使用grep
进行搜索或仅使用工具xlsxgrep
。
使用示例:
xlsxgrep target -H -N -r dumps/*
最好使用zgrep
在档案 .gz 和 .tgz 中进行搜索。
该工具是grep
的直接类似物,但以下内容除外:
-R
zgrep
用法示例:
zgrep -ia target dumps/*
- 通过所有文本文件和目录dumps
中的 gz-archives 搜索单词target
(不区分大小写)
最好使用7zip
解包工具和grep
来搜索 7z 档案:
使用示例:
7z x archive.7z -so | grep ...
7zip
还可以处理其他类型的档案。
最好使用unrar
解包工具和grep
来搜索 rar 档案:
使用示例:
unrar p archive.rar | grep ...
俄罗斯有一种流行的数据库软件和文件格式Cronos
。最好使用适当版本的官方客户端(Cronos、CronosPlus、CronosPro),或者您可以使用 cronodump 工具将数据库转换为 CSV 文件:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
俄罗斯有一个流行的软件1C。 1C 使用自己的文件格式:.1CD、.efd 等。您可以使用 onec_dtools 编写自定义脚本以从 1C 数据库中提取所有数据,或使用 1c-database-converter 将数据库转换为 CSV 文件。
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1