الهدف من هذا الدليل هو وصف أدوات البحث وتبسيط البحث عن المعلومات النصية في معظم الملفات وقواعد البيانات الشائعة.
يمكن أن يفيد التحقيقات الصحفية، ويعمل مع كميات كبيرة من البيانات مثل تسرب المستندات والاكتشاف الإلكتروني.
الدليل قابل للتطبيق للبحث في انتهاكات التنسيقات المختلفة (أرشفة الملفات النصية الكبيرة، csv/sql)، والمستندات (pdf، xls/x، doc/x) وفي قواعد البيانات المتخصصة (1C، Cronos، وما إلى ذلك).
النسخة الانجليزية | النسخة الروسية
مشاركة البيانات - منصة متعددة أنظمة التشغيل من الاتحاد الدولي للصحافيين الاستقصائيين مصممة لمشاركة مجموعات كبيرة من البيانات من الوثائق، خاصة بين الباحثين والصحفيين.
يسمح لك بالبحث في ملفات pdf والصور والنصوص وجداول البيانات والشرائح وغير ذلك الكثير.
dnGrep - أداة ذات واجهة مستخدم رسومية لنظام التشغيل Windows، يمكنها البحث في الملفات النصية والمستندات وملفات PDF وفي تنسيقات الأرشيف الأكثر شيوعًا. يتم دعم التعبيرات العادية وعمليات البحث العودية في الدلائل. إمكانيات إضافية: تكامل Windows Explorer!
على الرغم من بعض المشاكل في تصور البحث والفشل في الأرشيفات الكبيرة، يبدو dnGrep وكأنه الأداة الأكثر منظورًا للبحث الشامل في الملفات النصية.
AstroGrep - أداة ذات واجهة مستخدم رسومية لنظام التشغيل Windows تمكن المستخدمين من إجراء عمليات بحث نصية عبر ملفات متعددة، مما يجعلها مفيدة بشكل خاص لأولئك الذين يحتاجون إلى إدارة مجموعات كبيرة من المستندات. وهو يدعم تنسيقات الملفات المختلفة ويوفر واجهة سهلة الاستخدام.
تشمل المزايا الرئيسية لـ AstroGrep قدرته على تقديم نتائج سريعة من عمليات البحث النصية ضمن مجموعة واسعة من الملفات. بالإضافة إلى ذلك، يسلط AstroGrep الضوء على المصطلحات التي تم البحث عنها داخل الملفات، مما يبسط عملية مراجعة نتائج البحث. ويتضمن أيضًا وظائف مفيدة مثل مطابقة التعبيرات العادية، والتي تسمح بإجراء عمليات بحث أكثر تعقيدًا ودقة.
ومع ذلك، يركز AstroGrep بشكل أساسي على عمليات البحث النصية، لذا فإن فائدته تقتصر على البيانات النصية ولا تمتد إلى عمليات البحث داخل مستندات Excel أو الأرشيفات أو الصور أو الملفات الصوتية.
Google Pinpoint - أداة سحابية مصممة لمساعدة الصحفيين على إدارة كميات كبيرة من المعلومات. وهو يدعم أنواع الملفات المختلفة بما في ذلك المستندات (يحول كل شيء تقريبًا إلى PDF) والصور والملفات الصوتية، ويتكامل مع Google Drive لإدارة البيانات بكفاءة. تعمل الأداة على تحسين كفاءة البحث من خلال تمكين عمليات البحث السريعة من خلال مجموعات البيانات الشاملة.
تتضمن مزايا Pinpoint إمكانات بحث قوية توفر الوقت من خلال تبسيط عملية مراجعة البيانات. كما أنه يدعم العمل التعاوني، مما يسمح لعدة مستخدمين بالعمل على نفس المشروع في وقت واحد.
ومع ذلك، باعتبارها أداة قائمة على السحابة، فإنها تتطلب اتصالاً مستقرًا بالإنترنت.
أداة Unix grep
هي معيار الباحثين. يجب عليك تمرير معلمتين فقط: نمط البحث والملف، وتبحث الأداة عن الأسطر التي تطابق النمط. يمكن أن يكون النمط عبارة عن سلسلة بسيطة (على سبيل المثال، رقم هاتف أو عنوان بريد إلكتروني).
يتم استخدام grep
بواسطة أدوات مساعدة أخرى (أو فقط بناء الجملة)، لذلك دعونا نفكر في بعض الحجج الرئيسية:
-A number
- طباعة number
أرقام السياق بعد كل مباراة
-B number
- طباعة number
أرقام السياق قبل كل مباراة
-C number
- طباعة number
أرقام السياق المحيطة بكل مباراة
-i
- بحث غير حساس لحالة الأحرف: البحث عن Target
والكلمات target
سيجد TARGET
-R
- البحث العودي: ستقوم الأداة بفحص جميع الدلائل المتداخلة (يمكنك استخدام * كاسم للملف)
-a
- تعامل مع كافة الملفات كملفات نصية، وتستخدم في حالة وجود خطأ Binary file (standard input) matches
مثال على استخدام grep
:
grep -iR target dumps/*
- ابحث عن الكلمة target
(غير حساسة لحالة الأحرف) من خلال جميع الملفات النصية الموجودة في الدليل dumps
سيكون من الأفضل تحويل ملفات XLSX
إلى CSV
واستخدام grep
للبحث أو استخدام الأداة xlsxgrep
فقط.
مثال الاستخدام:
xlsxgrep target -H -N -r dumps/*
سيكون من الأفضل استخدام zgrep
للبحث في الأرشيفات .gz و.tgz.
الأداة هي نظير مباشر لـ grep
باستثناء ما يلي:
-R
غير مدعوم مثال على استخدام zgrep
:
zgrep -ia target dumps/*
- ابحث عن الكلمة target
(غير حساسة لحالة الأحرف) من خلال كافة الملفات النصية ومن خلال gz-archives un the Directory dumps
سيكون من الأفضل استخدام أداة التفريغ 7zip
مع grep
للبحث في أرشيفات 7z:
مثال الاستخدام:
7z x archive.7z -so | grep ...
يمكن 7zip
أيضًا العمل مع أنواع أخرى من الأرشيفات.
سيكون من الأفضل استخدام أداة التفريغ unrar
مع grep
للبحث في أرشيفات rar:
مثال الاستخدام:
unrar p archive.rar | grep ...
يوجد برنامج قواعد بيانات وتنسيق ملفات Cronos
شائع في روسيا. سيكون من الأفضل استخدام إصدار مناسب من العميل الرسمي (Cronos، CronosPlus، CronosPro) أو يمكنك فقط تحويل قاعدة البيانات إلى ملف CSV باستخدام أداة cronodump:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
يوجد برنامج 1C شائع في روسيا. يستخدم 1C تنسيقات الملفات الخاصة به: .1CD و.efd وغيرها. يمكنك استخدام onec_dtools لكتابة البرنامج النصي المخصص الخاص بك لاستخراج جميع البيانات من قاعدة بيانات 1C أو استخدام 1c-database-converter لتحويل قاعدة البيانات إلى ملفات CSV.
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1