このガイドの目的は、一般的なファイルやデータベースのほとんどでテキスト情報を検索し、検索を簡素化するためのツールについて説明することです。
ジャーナリズムの調査、文書漏洩や電子情報開示などの大量のデータの処理に役立つ可能性があります。
このガイドは、さまざまな形式 (アーカイブの大きなテキスト ファイル、csv/sql)、ドキュメント (pdf、xls/x、doc/x)、および特殊なデータベース (1C、Cronos など) の侵害の検索に適用できます。
英語版 |ロシア語版
Datashare - 特に研究者やジャーナリスト間で大規模な文書データセットを共有するために設計された ICIJ のマルチ OS プラットフォームです。
PDF、画像、テキスト、スプレッドシート、スライドなどを検索できます。
dnGrep - Windows 用のグラフィカル ユーザー インターフェイスを備えたツールで、テキスト ファイル、ドキュメント、PDF、および最も一般的な形式のアーカイブを検索できます。ディレクトリ内の正規表現と再帰検索がサポートされています。追加機能: Windows Explorer の統合!
検索の視覚化にはいくつかの問題があり、大きなアーカイブでは失敗しますが、dnGrep はテキスト ファイルの一括検索に最も適したツールのように見えます。
AstroGrep - Windows 用のグラフィカル ユーザー インターフェイスを備えたツールで、ユーザーが複数のファイルにわたってテキスト検索を実行できるため、大規模なドキュメント セットを管理する必要があるユーザーに特に便利です。さまざまなファイル形式をサポートし、使いやすいインターフェイスを提供します。
AstroGrep の主な利点には、膨大なファイル配列内のテキスト検索から迅速な結果を提供する機能が含まれます。さらに、AstroGrep はファイル内で検索された用語を強調表示するため、検索結果を確認するプロセスが簡素化されます。また、より複雑で正確な検索を可能にする正規表現マッチングなどの便利な機能も含まれています。
ただし、AstroGrep は主にテキスト検索に焦点を当てているため、その有用性はテキスト データに限定されており、Excel ドキュメント、アーカイブ、画像、または音声ファイル内の検索には拡張されません。
Google Pinpoint - ジャーナリストが大量の情報を管理できるように設計されたクラウド ツール。ドキュメント (ほぼすべてを PDF に変換)、画像、音声ファイルなどのさまざまなファイル タイプをサポートし、Google ドライブと統合して効率的なデータ管理を実現します。このツールは、広範なデータセットを迅速に検索できるようにすることで、研究の効率を高めます。
Pinpoint の利点には、データ レビュー プロセスを簡素化して時間を節約する堅牢な検索機能が含まれます。また、共同作業もサポートしているため、複数のユーザーが同じプロジェクトに同時に取り組むことができます。
ただし、クラウドベースのツールであるため、安定したインターネット接続が必要です。
Unix ツールgrep
検索者の標準です。渡す必要があるのは 2 つのパラメーター (検索パターンとファイル) だけです。ツールはパターンに一致する行を検索します。パターンは単純な文字列 (電話番号や電子メール アドレスなど) にすることができます。
grep
は他のユーティリティ (またはその構文だけ) で使用されるため、いくつかの主な引数を考慮してみましょう。
-A number
- 一致するたびにコンテキストのnumber
を出力します。
-B number
- 各一致の前にコンテキストのnumber
を出力します。
-C number
- 各一致を囲むコンテキストのnumber
を出力します。
-i
- 大文字と小文字を区別しない検索: Target
を検索すると、 target
単語が見つかりますTARGET
-R
- 再帰的検索: ツールはすべてのネストされたディレクトリをスキャンします (ファイル名として * を使用できます)
-a
- すべてのファイルをテキスト ファイルとして扱い、 Binary file (standard input) matches
エラーの場合に使用します。
grep
の使用例:
grep -iR target dumps/*
- ディレクトリdumps
内のすべてのテキスト ファイルを対象に、単語target
(大文字と小文字を区別しない) を検索します。
XLSX
ファイルをCSV
に変換し、検索にgrep
使用するか、単にxlsxgrep
ツールを使用するのが最善です。
使用例:
xlsxgrep target -H -N -r dumps/*
アーカイブ .gz および .tgz 内での検索にはzgrep
使用するのが最善です。
このツールは、次の点を除いてgrep
に直接似ています。
-R
サポートされていません zgrep
の使用例:
zgrep -ia target dumps/*
- すべてのテキスト ファイルおよびディレクトリ ダンプ内の gz- dumps
を通じて、単語target
(大文字と小文字を区別しない) を検索します。
7z アーカイブを検索するには、 grep
を使用して7zip
解凍ツールを使用するのが最適です。
使用例:
7z x archive.7z -so | grep ...
7zip
他の種類のアーカイブも処理できます。
rar アーカイブを検索するには、 grep
を使用してunrar
解凍ツールを使用するのが最善です。
使用例:
unrar p archive.rar | grep ...
ロシアでは人気のあるデータベース ソフトウェアとファイル形式Cronos
があります。適切なバージョンの公式クライアント (Cronos、CronosPlus、CronosPro) を使用することをお勧めします。または、cronodump ツールを使用してデータベースを CSV ファイルに変換することもできます。
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
ロシアで人気のあるソフトウェア 1C があります。 1C は、.1CD、.efd などの独自のファイル形式を使用します。 onec_dtools を使用してカスタム スクリプトを作成し、1C データベースからすべてのデータを抽出することも、1c-database-converter を使用してデータベースを CSV ファイルに変換することもできます。
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1