เป้าหมายของคู่มือนี้คือการอธิบายเครื่องมือสำหรับการค้นหาและทำให้การค้นหาข้อมูลข้อความในไฟล์และฐานข้อมูลยอดนิยมส่วนใหญ่ง่ายขึ้น
อาจเป็นประโยชน์ต่อการสืบสวนของนักข่าว ทำงานกับข้อมูลปริมาณมาก เช่น เอกสารรั่วไหลและ eDiscovery
คู่มือนี้ใช้สำหรับการค้นหาการละเมิดรูปแบบต่างๆ (ไฟล์ข้อความขนาดใหญ่, csv/sql), เอกสาร (pdf, xls/x, doc/x) และในฐานข้อมูลเฉพาะทาง (1C, Cronos ฯลฯ)
เวอร์ชันภาษาอังกฤษ | เวอร์ชั่นรัสเซีย
Datashare - แพลตฟอร์มหลายระบบปฏิบัติการจาก ICIJ ออกแบบมาเพื่อแบ่งปันชุดข้อมูลขนาดใหญ่ของเอกสาร โดยเฉพาะในหมู่นักวิจัยและนักข่าว
ช่วยให้คุณค้นหาไฟล์ PDF, รูปภาพ, ข้อความ, สเปรดชีต, สไลด์ และอื่นๆ อีกมากมาย
dnGrep - เครื่องมือที่มีอินเทอร์เฟซผู้ใช้แบบกราฟิกสำหรับ Windows ซึ่งสามารถค้นหาไฟล์ข้อความ เอกสาร PDF และในรูปแบบไฟล์เก็บถาวรยอดนิยม รองรับนิพจน์ทั่วไปและการค้นหาแบบเรียกซ้ำในไดเร็กทอรี ความสามารถพิเศษ: การรวม Windows Explorer!
แม้จะมีปัญหาบางประการกับการแสดงภาพการค้นหาและล้มเหลวด้วยไฟล์เก็บถาวรขนาดใหญ่ dnGrep ดูเหมือนจะเป็นเครื่องมือที่มีมุมมองมากที่สุดสำหรับการค้นหาจำนวนมากในไฟล์ข้อความ
AstroGrep - เครื่องมือที่มีอินเทอร์เฟซผู้ใช้แบบกราฟิกสำหรับ Windows ที่ช่วยให้ผู้ใช้สามารถค้นหาข้อความในไฟล์หลาย ๆ ไฟล์ได้ ทำให้มีประโยชน์อย่างยิ่งสำหรับผู้ที่ต้องการจัดการเอกสารชุดใหญ่ รองรับไฟล์ได้หลากหลายรูปแบบและมีส่วนต่อประสานที่ใช้งานง่าย
ข้อได้เปรียบหลักของ AstroGrep คือความสามารถในการให้ผลลัพธ์ที่รวดเร็วจากการค้นหาข้อความภายในไฟล์ที่หลากหลาย นอกจากนี้ AstroGrep ยังเน้นคำที่ค้นหาภายในไฟล์ ซึ่งทำให้กระบวนการตรวจสอบผลการค้นหาง่ายขึ้น นอกจากนี้ยังมีฟังก์ชันที่มีประโยชน์ เช่น การจับคู่นิพจน์ทั่วไป ซึ่งช่วยให้ค้นหาที่ซับซ้อนและแม่นยำยิ่งขึ้น
อย่างไรก็ตาม AstroGrep มุ่งเน้นไปที่การค้นหาข้อความเป็นหลัก ดังนั้นยูทิลิตี้นี้จึงจำกัดอยู่เพียงข้อมูลที่เป็นข้อความ และไม่ขยายไปยังการค้นหาภายในเอกสาร Excel ไฟล์เก็บถาวร รูปภาพ หรือไฟล์เสียง
Google Pinpoint - เครื่องมือระบบคลาวด์ที่ออกแบบมาเพื่อช่วยนักข่าวจัดการข้อมูลปริมาณมาก รองรับไฟล์ประเภทต่างๆ รวมถึงเอกสาร (แปลงเกือบทุกอย่างเป็น PDF) รูปภาพ และไฟล์เสียง และทำงานร่วมกับ Google Drive เพื่อการจัดการข้อมูลที่มีประสิทธิภาพ เครื่องมือนี้ช่วยเพิ่มประสิทธิภาพการวิจัยโดยช่วยให้สามารถค้นหาได้อย่างรวดเร็วผ่านชุดข้อมูลที่กว้างขวาง
ข้อดีของ Pinpoint ได้แก่ ความสามารถในการค้นหาที่มีประสิทธิภาพ ซึ่งช่วยประหยัดเวลาโดยทำให้กระบวนการตรวจสอบข้อมูลง่ายขึ้น นอกจากนี้ยังสนับสนุนการทำงานร่วมกัน ทำให้ผู้ใช้หลายคนสามารถทำงานในโครงการเดียวกันพร้อมกันได้
อย่างไรก็ตาม เนื่องจากเป็นเครื่องมือบนคลาวด์ จึงจำเป็นต้องมีการเชื่อมต่ออินเทอร์เน็ตที่เสถียร
เครื่องมือ Unix grep
เป็นมาตรฐานของผู้ค้นหา คุณควรส่งพารามิเตอร์เพียงสองตัวเท่านั้น: รูปแบบการค้นหาและไฟล์ และเครื่องมือจะค้นหาบรรทัดที่ตรงกับรูปแบบ รูปแบบอาจเป็นสตริงธรรมดา (เช่น หมายเลขโทรศัพท์หรือที่อยู่อีเมล)
grep
ถูกใช้โดยยูทิลิตี้อื่น (หรือเพียงแค่ไวยากรณ์ของมัน) ดังนั้นลองพิจารณาข้อโต้แย้งหลักบางประการ:
-A number
- พิมพ์บรรทัด number
บริบทหลังการแข่งขันแต่ละครั้ง
-B number
- พิมพ์บรรทัด number
บริบทก่อนการแข่งขันแต่ละครั้ง
-C number
- พิมพ์บรรทัด number
ของบริบทโดยรอบการแข่งขันแต่ละนัด
-i
- การค้นหาที่ไม่คำนึงถึงขนาดตัวพิมพ์: ค้นหาตาม Target
และคำ target
จะพบ TARGET
-R
- การค้นหาแบบเรียกซ้ำ: เครื่องมือจะสแกนไดเร็กทอรีที่ซ้อนกันทั้งหมด (คุณสามารถใช้ * เป็นชื่อไฟล์ได้)
-a
- ถือว่าไฟล์ทั้งหมดเป็นไฟล์ข้อความ ใช้ในกรณีที่เกิดข้อผิดพลาด Binary file (standard input) matches
ตัวอย่างการใช้งาน grep
:
grep -iR target dumps/*
- ค้นหาคำว่า target
(ไม่คำนึงถึงขนาดตัวพิมพ์) ผ่านไฟล์ข้อความทั้งหมดในไดเร็กทอรี dumps
วิธีที่ดีที่สุดคือแปลงไฟล์ XLSX
เป็น CSV
และใช้ grep
ในการค้นหาหรือใช้เครื่องมือ xlsxgrep
ตัวอย่างการใช้งาน:
xlsxgrep target -H -N -r dumps/*
เป็นการดีที่สุดที่จะใช้ zgrep
เพื่อค้นหาในไฟล์เก็บถาวร .gz และ .tgz
เครื่องมือนี้เป็นอะนาล็อกโดยตรงของ grep
ยกเว้นสิ่งต่อไปนี้:
-R
ตัวอย่างการใช้งาน zgrep
:
zgrep -ia target dumps/*
- ค้นหาคำว่า target
(ไม่คำนึงถึงตัวพิมพ์เล็กและใหญ่) ผ่านไฟล์ข้อความทั้งหมดและผ่าน gz-archives ยกเลิกไดเร็กทอรี dumps
วิธีที่ดีที่สุดคือใช้เครื่องมือคลาย 7zip
พร้อม grep
เพื่อค้นหาผ่านไฟล์เก็บถาวร 7z:
ตัวอย่างการใช้งาน:
7z x archive.7z -so | grep ...
7zip
ยังสามารถทำงานร่วมกับไฟล์เก็บถาวรประเภทอื่นได้
วิธีที่ดีที่สุดคือใช้เครื่องมือคลาย unrar
พร้อมกับ grep
เพื่อค้นหาผ่านไฟล์เก็บถาวร rar:
ตัวอย่างการใช้งาน:
unrar p archive.rar | grep ...
มีซอฟต์แวร์ฐานข้อมูลและรูปแบบไฟล์ยอดนิยม Cronos
ในรัสเซีย วิธีที่ดีที่สุดคือใช้เวอร์ชันที่เหมาะสมของไคลเอนต์อย่างเป็นทางการ (Cronos, CronosPlus, CronosPro) หรือคุณสามารถแปลงฐานข้อมูลเป็นไฟล์ CSV ด้วยเครื่องมือ cronodump:
git clone https://github.com/alephdata/cronodump && cd cronodump
python3 setup.py install
croconvert --csv cronos_db_directory/
# a new directory will be created
ls cronodump-2022-04-25-02-53-57-293000
БТК.csv Files-FL
grep ...
มีซอฟต์แวร์ 1C ยอดนิยมในรัสเซีย 1C ใช้รูปแบบไฟล์ของตัวเอง: .1CD, .efd และอื่นๆ คุณสามารถใช้ onec_dtools เพื่อเขียนสคริปต์ที่คุณกำหนดเองเพื่อแยกข้อมูลทั้งหมดจากฐานข้อมูล 1C หรือใช้ 1c-database-converter เพื่อแปลงฐานข้อมูลเป็นไฟล์ CSV
./run.py 8-2-14.1CD
Target: 8-2-14.1CD
Results found: 1
1) Out Dir: 8-2-14.1CD_csv
File Type: 1CD
Status: Exported content of 1CD file
------------------------------
Total found: 1