Ziel dieses Leitfadens ist es, Suchwerkzeuge zu beschreiben und die Suche nach Textinformationen in den gängigsten Dateien und Datenbanken zu vereinfachen.
Dies könnte journalistischen Recherchen, der Arbeit mit großen Datenmengen wie Dokumentenlecks und eDiscovery zugute kommen.
Der Leitfaden eignet sich für die Suche in Sicherheitsverletzungen verschiedener Formate (Archive großer Textdateien, CSV/SQL), Dokumenten (PDF, XLS/X, Doc/X) und in spezialisierten Datenbanken (1C, Cronos usw.).
Englische Version | Russische Version
Datashare – eine Multi-OS-Plattform von ICIJ, die für den Austausch großer Dokumentenmengen, insbesondere zwischen Forschern und Journalisten, konzipiert ist.
Sie können damit PDFs, Bilder, Texte, Tabellenkalkulationen, Folien und vieles mehr durchsuchen.
dnGrep – ein Tool mit einer grafischen Benutzeroberfläche für Windows, das Textdateien, Dokumente, PDFs und die gängigsten Archivformate durchsuchen kann. Reguläre Ausdrücke und rekursive Suchen in den Verzeichnissen werden unterstützt. Zusätzliche Funktionen: Windows Explorer-Integration!
Trotz einiger Probleme mit der Visualisierung der Suche und Fehlern bei großen Archiven scheint dnGrep das perspektivischste Tool für die Massensuche in Textdateien zu sein.
AstroGrep – ein Tool mit einer grafischen Benutzeroberfläche für Windows, das Benutzern die Durchführung von Textsuchen in mehreren Dateien ermöglicht, was es besonders nützlich für diejenigen macht, die große Dokumentenmengen verwalten müssen. Es unterstützt verschiedene Dateiformate und bietet eine benutzerfreundliche Oberfläche.
Zu den Hauptvorteilen von AstroGrep gehört die Fähigkeit, schnelle Ergebnisse aus Textsuchen in einer Vielzahl von Dateien bereitzustellen. Darüber hinaus hebt AstroGrep die gesuchten Begriffe in den Dateien hervor, was die Überprüfung der Suchergebnisse vereinfacht. Es enthält auch nützliche Funktionen wie den Abgleich regulärer Ausdrücke, der komplexere und präzisere Suchvorgänge ermöglicht.
Allerdings konzentriert sich AstroGrep in erster Linie auf die Textsuche, sodass sein Nutzen auf Textdaten beschränkt ist und sich nicht auf die Suche in Excel-Dokumenten, Archiven, Bild- oder Audiodateien erstreckt.
Google Pinpoint – ein Cloud-Tool, das Journalisten bei der Verwaltung großer Informationsmengen unterstützen soll. Es unterstützt verschiedene Dateitypen, darunter Dokumente (konvertiert fast alles in PDF), Bilder und Audiodateien und lässt sich für eine effiziente Datenverwaltung in Google Drive integrieren. Das Tool steigert die Forschungseffizienz, indem es eine schnelle Suche in umfangreichen Datensätzen ermöglicht.
Zu den Vorteilen von Pinpoint gehören robuste Suchfunktionen, die durch die Vereinfachung des Datenüberprüfungsprozesses Zeit sparen. Es unterstützt auch kollaboratives Arbeiten, sodass mehrere Benutzer gleichzeitig an demselben Projekt arbeiten können.
Als cloudbasiertes Tool erfordert es jedoch eine stabile Internetverbindung.
Das Unix-Tool grep
ist der Standard der Suchenden. Sie sollten nur zwei Parameter übergeben: Suchmuster und Datei. Das Tool sucht dann nach Zeilen, die mit dem Muster übereinstimmen. Das Muster kann eine einfache Zeichenfolge sein (z. B. eine Telefonnummer oder E-Mail-Adresse).
grep
wird von anderen Dienstprogrammen verwendet (oder nur von seiner Syntax), also betrachten wir einige Hauptargumente:
-A number
– gibt nach jeder Übereinstimmung number
mit Kontext aus
-B number
– gibt vor jeder Übereinstimmung number
des Kontexts aus
-C number
– gibt number
des Kontexts aus, die jede Übereinstimmung umgeben
-i
– Suche ohne Berücksichtigung der Groß-/Kleinschreibung: Suche nach dem Target
und target
werden TARGET
gefunden
-R
– rekursive Suche: Das Tool durchsucht alle verschachtelten Verzeichnisse (Sie können * als Dateinamen verwenden)
-a
– alle Dateien als Textdateien behandeln, im Falle des Fehlers Binary file (standard input) matches
verwenden
Beispiel für die Verwendung grep
:
grep -iR target dumps/*
– Suche nach dem Wort „ target
(ohne Berücksichtigung der Groß-/Kleinschreibung) durch alle Textdateien im Verzeichnis „ dumps
Am besten konvertieren Sie XLSX
Dateien in CSV
und verwenden grep
für die Suche oder verwenden einfach das Tool xlsxgrep
.
Anwendungsbeispiel:
xlsxgrep target -H -N -r dumps/*
Für die Suche in den Archiven .gz und .tgz verwenden Sie am besten zgrep
.
Das Tool ist bis auf Folgendes ein direktes Analogon zu grep
:
-R
wird nicht unterstützt Beispiel für die Verwendung zgrep
:
zgrep -ia target dumps/*
– Suche nach dem Wort „ target
(ohne Berücksichtigung der Groß-/Kleinschreibung) durch alle Textdateien und durch gz-archives im Verzeichnis „ dumps
“.
Am besten verwenden Sie das 7zip
Entpacktool mit grep
um 7z-Archive zu durchsuchen:
Anwendungsbeispiel:
7z x archive.7z -so | grep ...
7zip
kann auch mit anderen Archivtypen arbeiten.
Am besten verwenden Sie unrar
Entpacktool mit grep
um die Rar-Archive zu durchsuchen:
Anwendungsbeispiel:
unrar p archive.rar | grep ...
In Russland gibt es eine beliebte Datenbanksoftware und das Dateiformat Cronos
. Am besten verwenden Sie eine entsprechende Version des offiziellen Clients (Cronos, CronosPlus, CronosPro) oder Sie konvertieren die Datenbank einfach mit dem Tool cronodump in eine CSV-Datei:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
In Russland gibt es eine beliebte Software 1C. 1C verwendet seine eigenen Dateiformate: .1CD, .efd und andere. Sie können onec_dtools verwenden, um Ihr benutzerdefiniertes Skript zu schreiben, um alle Daten aus der 1C-Datenbank zu extrahieren, oder 1c-database-converter verwenden, um die Datenbank in CSV-Dateien zu konvertieren.
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1