El objetivo de esta guía es describir herramientas de búsqueda y simplificación de la búsqueda de información de texto en los archivos y bases de datos más populares.
Podría beneficiar las investigaciones periodísticas, trabajar con grandes volúmenes de datos como filtraciones de documentos y eDiscovery.
La guía es aplicable para la búsqueda en infracciones de varios formatos (archivos de texto grandes, csv/sql), documentos (pdf, xls/x, doc/x) y en bases de datos especializadas (1C, Cronos, etc.).
Versión en inglés | versión rusa
Datashare: una plataforma con múltiples sistemas operativos de ICIJ diseñada para compartir grandes conjuntos de datos de documentos, particularmente entre investigadores y periodistas.
Le permite buscar archivos PDF, imágenes, textos, hojas de cálculo, diapositivas y mucho más.
dnGrep: una herramienta con una interfaz gráfica de usuario para Windows, que puede buscar en archivos de texto, documentos, PDF y en los formatos de archivo más populares. Se admiten expresiones regulares y búsquedas recursivas en los directorios. Capacidades adicionales: ¡integración del Explorador de Windows!
A pesar de algunos problemas con la visualización de la búsqueda y falla con archivos grandes, dnGrep parece la herramienta más perspectiva para la búsqueda masiva de archivos de texto.
AstroGrep: una herramienta con una interfaz gráfica de usuario para Windows que permite a los usuarios realizar búsquedas de texto en varios archivos, lo que la hace particularmente útil para quienes necesitan administrar grandes conjuntos de documentos. Admite varios formatos de archivo y ofrece una interfaz fácil de usar.
Las principales ventajas de AstroGrep incluyen su capacidad para proporcionar resultados rápidos a partir de búsquedas de texto dentro de una amplia gama de archivos. Además, AstroGrep resalta los términos buscados dentro de los archivos, lo que simplifica el proceso de revisión de los resultados de la búsqueda. También incluye funcionalidades útiles como la coincidencia de expresiones regulares, que permite búsquedas más complejas y precisas.
Sin embargo, AstroGrep se centra principalmente en búsquedas de texto, por lo que su utilidad se limita a datos textuales y no se extiende a búsquedas en documentos, archivos, imágenes o archivos de audio de Excel.
Google Pinpoint: una herramienta en la nube diseñada para ayudar a los periodistas a gestionar grandes volúmenes de información. Admite varios tipos de archivos, incluidos documentos (convierte casi todo a PDF), imágenes y archivos de audio, y se integra con Google Drive para una gestión de datos eficiente. La herramienta mejora la eficiencia de la investigación al permitir búsquedas rápidas en conjuntos de datos extensos.
Las ventajas de Pinpoint incluyen sólidas capacidades de búsqueda que ahorran tiempo al simplificar el proceso de revisión de datos. También admite el trabajo colaborativo, lo que permite que varios usuarios trabajen en el mismo proyecto simultáneamente.
Sin embargo, al ser una herramienta basada en la nube, requiere una conexión a Internet estable.
La herramienta Unix grep
es el estándar de los buscadores. Solo debes pasar dos parámetros: patrón de búsqueda y archivo, y la herramienta busca líneas que coincidan con el patrón. El patrón puede ser una cadena simple (por ejemplo, un número de teléfono o una dirección de correo electrónico).
grep
es utilizado por otras utilidades (o simplemente por su sintaxis), así que consideremos algunos argumentos principales:
-A number
: imprime líneas number
de contexto después de cada coincidencia
-B number
: imprime líneas number
de contexto antes de cada coincidencia
-C number
: imprime líneas number
del contexto que rodea cada coincidencia
-i
- búsqueda que no distingue entre mayúsculas y minúsculas: busque en el Target
y las palabras target
encontrarán TARGET
-R
- búsqueda recursiva: la herramienta escaneará todos los directorios anidados (puede usar * como nombre del archivo)
-a
: trata todos los archivos como archivos de texto, utilícelo en caso de error Binary file (standard input) matches
Ejemplo de uso grep
:
grep -iR target dumps/*
- busca la palabra target
(no distingue entre mayúsculas y minúsculas) en todos los archivos de texto en el directorio dumps
Lo mejor será convertir archivos XLSX
a CSV
y usar grep
para la búsqueda o simplemente usar la herramienta xlsxgrep
.
Ejemplo de uso:
xlsxgrep target -H -N -r dumps/*
Lo mejor será utilizar zgrep
para buscar en archivos .gz y .tgz.
La herramienta es un análogo directo de grep
excepto por lo siguiente:
-R
no es compatible Ejemplo de uso zgrep
:
zgrep -ia target dumps/*
- busca la palabra target
(no distingue entre mayúsculas y minúsculas) en todos los archivos de texto y a través de gz-archives en dumps
del directorio
Lo mejor será utilizar la herramienta de descompresión 7zip
con grep
para buscar archivos 7z:
Ejemplo de uso:
7z x archive.7z -so | grep ...
7zip
también puede funcionar con otros tipos de archivos.
Será mejor utilizar la herramienta de descompresión unrar
con grep
para buscar en los archivos rar:
Ejemplo de uso:
unrar p archive.rar | grep ...
En Rusia existe un popular software de base de datos y formato de archivo Cronos
. Lo mejor será utilizar una versión adecuada del cliente oficial (Cronos, CronosPlus, CronosPro) o simplemente convertir la base de datos a un archivo CSV con la herramienta cronodump:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
Existe un software popular 1C en Rusia. 1C utiliza sus propios formatos de archivo: .1CD, .efd y otros. Puede usar onec_dtools para escribir su script personalizado para extraer todos los datos de la base de datos 1C o usar 1c-database-converter para convertir la base de datos a archivos CSV.
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1