Tujuan dari panduan ini adalah untuk menjelaskan alat pencarian dan penyederhanaan pencarian informasi teks di sebagian besar file dan database populer.
Hal ini dapat bermanfaat bagi investigasi jurnalistik, menangani data dalam jumlah besar seperti kebocoran dokumen dan eDiscovery.
Panduan ini berlaku untuk mencari pelanggaran berbagai format (arsip file teks besar, csv/sql), dokumen (pdf, xls/x, doc/x) dan dalam database khusus (1C, Cronos, dll.).
versi bahasa Inggris | versi Rusia
Datashare - platform multi-OS dari ICIJ yang dirancang untuk berbagi kumpulan data dokumen yang besar, khususnya di kalangan peneliti dan jurnalis.
Ini memungkinkan Anda mencari pdf, gambar, teks, spreadsheet, slide, dan banyak lagi.
dnGrep - alat dengan antarmuka pengguna grafis untuk Windows, yang dapat mencari file teks, dokumen, PDF, dan format arsip paling populer. Ekspresi reguler dan pencarian rekursif di direktori didukung. Kemampuan ekstra: integrasi Windows Explorer!
Meskipun ada beberapa masalah dengan visualisasi pencarian dan kegagalan dengan arsip besar, dnGrep tampak seperti alat paling perspektif untuk pencarian massal dalam file teks.
AstroGrep - alat dengan antarmuka pengguna grafis untuk Windows yang memungkinkan pengguna melakukan pencarian teks di banyak file, membuatnya sangat berguna bagi mereka yang perlu mengelola kumpulan dokumen dalam jumlah besar. Ini mendukung berbagai format file dan menawarkan antarmuka yang ramah pengguna.
Keuntungan utama AstroGrep mencakup kemampuannya untuk memberikan hasil cepat dari pencarian teks dalam beragam file. Selain itu, AstroGrep menyoroti istilah pencarian di dalam file, yang menyederhanakan proses peninjauan hasil pencarian. Ini juga mencakup fungsi berguna seperti pencocokan ekspresi reguler, yang memungkinkan penelusuran lebih kompleks dan tepat.
Namun, AstroGrep terutama berfokus pada pencarian teks, sehingga kegunaannya terbatas pada data tekstual dan tidak mencakup pencarian dalam dokumen Excel, arsip, file gambar atau audio.
Google Pinpoint - alat Cloud yang dirancang untuk membantu jurnalis mengelola informasi dalam jumlah besar. Ini mendukung berbagai jenis file termasuk dokumen (mengonversi hampir semuanya ke PDF), gambar, dan file audio, dan terintegrasi dengan Google Drive untuk pengelolaan data yang efisien. Alat ini meningkatkan efisiensi penelitian dengan memungkinkan pencarian cepat melalui kumpulan data yang luas.
Keunggulan Pinpoint mencakup kemampuan pencarian canggih yang menghemat waktu dengan menyederhanakan proses peninjauan data. Ini juga mendukung kerja kolaboratif, memungkinkan banyak pengguna untuk mengerjakan proyek yang sama secara bersamaan.
Namun, sebagai alat berbasis cloud, diperlukan koneksi internet yang stabil.
grep
alat Unix adalah standar para pencari. Anda hanya boleh meneruskan dua parameter: pola pencarian dan file, dan alat mencari baris yang cocok dengan pola tersebut. Polanya bisa berupa string sederhana (misalnya nomor telepon atau alamat email).
grep
digunakan oleh utilitas lain (atau hanya sintaksnya), jadi mari pertimbangkan beberapa argumen utama:
-A number
- mencetak baris number
konteks setelah setiap pertandingan
-B number
- mencetak baris number
konteks sebelum setiap pertandingan
-C number
- mencetak baris number
konteks yang mengelilingi setiap kecocokan
-i
- pencarian peka huruf besar/kecil: pencarian pada Target
dan kata target
akan menemukan TARGET
-R
- pencarian rekursif: alat ini akan memindai semua direktori yang disarangkan (Anda dapat menggunakan * sebagai nama file)
-a
- perlakukan semua file sebagai file teks, gunakan jika terjadi kesalahan Binary file (standard input) matches
Contoh penggunaan grep
:
grep -iR target dumps/*
- cari kata target
(tidak peka huruf besar-kecil) melalui semua file teks di direktori dumps
Yang terbaik adalah mengonversi file XLSX
ke CSV
dan menggunakan grep
untuk pencarian atau cukup gunakan alat xlsxgrep
.
Contoh penggunaan:
xlsxgrep target -H -N -r dumps/*
Sebaiknya gunakan zgrep
untuk mencari di arsip .gz dan .tgz.
Alat ini merupakan analog langsung dari grep
kecuali yang berikut ini:
-R
tidak didukung Contoh penggunaan zgrep
:
zgrep -ia target dumps/*
- cari kata target
(tidak peka huruf besar-kecil) melalui semua file teks dan melalui gz-archives di direktori dumps
Sebaiknya gunakan alat pembongkaran 7zip
dengan grep
untuk mencari arsip 7z:
Contoh penggunaan:
7z x archive.7z -so | grep ...
7zip
juga dapat bekerja dengan jenis arsip lainnya.
Sebaiknya gunakan alat unrar
unpacking dengan grep
untuk mencari arsip rar:
Contoh penggunaan:
unrar p archive.rar | grep ...
Ada perangkat lunak database dan format file Cronos
yang populer di Rusia. Sebaiknya gunakan versi klien resmi yang sesuai (Cronos, CronosPlus, CronosPro) atau Anda cukup mengonversi database menjadi file CSV dengan alat cronodump:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
Ada perangkat lunak 1C yang populer di Rusia. 1C menggunakan format filenya sendiri: .1CD, .efd, dan lainnya. Anda dapat menggunakan onec_dtools untuk menulis skrip khusus untuk mengekstrak semua data dari database 1C atau menggunakan 1c-database-converter untuk mengonversi database ke file CSV.
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1