O objetivo deste guia é descrever ferramentas para busca e simplificação da busca por informações textuais nos arquivos e bancos de dados mais populares.
Poderia beneficiar investigações jornalísticas, trabalhar com grandes volumes de dados, como vazamentos de documentos e eDiscovery.
O guia é aplicável para busca em brechas de diversos formatos (arquivar arquivos grandes de texto, csv/sql), documentos (pdf, xls/x, doc/x) e em bases de dados especializadas (1C, Cronos, etc.).
Versão em inglês | Versão russa
Datashare – uma plataforma multi-OS do ICIJ projetada para compartilhar grandes conjuntos de dados de documentos, especialmente entre pesquisadores e jornalistas.
Permite pesquisar PDFs, imagens, textos, planilhas, slides e muito mais.
dnGrep - uma ferramenta com interface gráfica de usuário para Windows, que pode pesquisar arquivos de texto, documentos, PDF e nos formatos de arquivo mais populares. Expressões regulares e pesquisas recursivas nos diretórios são suportadas. Capacidades extras: Integração com o Windows Explorer!
Apesar de alguns problemas com a visualização da pesquisa e falhas com grandes arquivos, o dnGrep parece a ferramenta mais perspectiva para pesquisa em massa em arquivos de texto.
AstroGrep - uma ferramenta com interface gráfica de usuário para Windows que permite aos usuários realizar pesquisas de texto em vários arquivos, tornando-a particularmente útil para quem precisa gerenciar grandes conjuntos de documentos. Suporta vários formatos de arquivo e oferece uma interface amigável.
As principais vantagens do AstroGrep incluem a capacidade de fornecer resultados rápidos de pesquisas de texto em uma vasta gama de arquivos. Além disso, o AstroGrep destaca os termos pesquisados nos arquivos, o que simplifica o processo de revisão dos resultados da pesquisa. Também inclui funcionalidades úteis como correspondência de expressões regulares, que permite pesquisas mais complexas e precisas.
No entanto, o AstroGrep concentra-se principalmente em pesquisas de texto, portanto sua utilidade é restrita a dados textuais e não se estende a pesquisas em documentos Excel, arquivos, arquivos de imagem ou áudio.
Google Pinpoint – uma ferramenta em nuvem projetada para ajudar jornalistas a gerenciar grandes volumes de informações. Ele suporta vários tipos de arquivos, incluindo documentos (converte quase tudo em PDF), imagens e arquivos de áudio, e integra-se ao Google Drive para gerenciamento eficiente de dados. A ferramenta aumenta a eficiência da pesquisa, permitindo pesquisas rápidas em extensos conjuntos de dados.
As vantagens do Pinpoint incluem recursos robustos de pesquisa que economizam tempo ao simplificar o processo de revisão de dados. Também suporta trabalho colaborativo, permitindo que vários usuários trabalhem no mesmo projeto simultaneamente.
No entanto, como ferramenta baseada em nuvem, requer uma conexão estável com a Internet.
A ferramenta Unix grep
é o padrão dos pesquisadores. Você deve passar apenas dois parâmetros: padrão de busca e arquivo, e a ferramenta busca linhas que correspondam ao padrão. O padrão pode ser uma string simples (por exemplo, um número de telefone ou endereço de e-mail).
grep
é usado por outros utilitários (ou apenas pela sua sintaxe), então vamos considerar alguns argumentos principais:
-A number
- imprime linhas number
de contexto após cada partida
-B number
- imprime linhas number
de contexto antes de cada partida
-C number
- imprime linhas number
de contexto em torno de cada correspondência
-i
- pesquisa sem distinção entre maiúsculas e minúsculas: a pesquisa no Target
e nas palavras target
encontrará TARGET
-R
- pesquisa recursiva: a ferramenta verificará todos os diretórios aninhados (você pode usar * como nome do arquivo)
-a
- trata todos os arquivos como arquivos de texto, use em caso de erro O Binary file (standard input) matches
Exemplo de uso grep
:
grep -iR target dumps/*
- pesquisa na palavra target
(sem distinção entre maiúsculas e minúsculas) em todos os arquivos de texto no diretório dumps
Será melhor converter arquivos XLSX
para CSV
e usar grep
para a pesquisa ou apenas usar a ferramenta xlsxgrep
.
Exemplo de uso:
xlsxgrep target -H -N -r dumps/*
Será melhor usar zgrep
para pesquisar nos arquivos .gz e .tgz.
A ferramenta é um análogo direto do grep
exceto pelo seguinte:
-R
não é suportado Exemplo de uso zgrep
:
zgrep -ia target dumps/*
- pesquisa a palavra target
(sem distinção entre maiúsculas e minúsculas) em todos os arquivos de texto e através de gz-archives nos dumps
do diretório
Será melhor usar a ferramenta de descompactação 7zip
com grep
para pesquisar arquivos 7z:
Exemplo de uso:
7z x archive.7z -so | grep ...
7zip
também pode funcionar com outros tipos de arquivos.
Será melhor usar a ferramenta de descompactação unrar
com grep
para pesquisar através dos arquivos rar:
Exemplo de uso:
unrar p archive.rar | grep ...
Existe um software de banco de dados popular e formato de arquivo Cronos
na Rússia. Será melhor usar uma versão apropriada do cliente oficial (Cronos, CronosPlus, CronosPro) ou você pode simplesmente converter o banco de dados em um arquivo CSV com a ferramenta cronodump:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
Existe um software 1C popular na Rússia. 1C usa seus próprios formatos de arquivo: .1CD, .efd e outros. Você pode usar onec_dtools para escrever seu script personalizado para extrair todos os dados do banco de dados 1C ou usar 1c-database-converter para converter o banco de dados em arquivos CSV.
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1