ดาวน์โหลด pisa - ดาวน์โหลดซอร์สโค้ด pisa

pisa

ซอร์สโค้ดอื่น ๆ

v0.9.0

ดาวน์โหลด

PISA: ดัชนีนักแสดงและการค้นหาสถาบันการศึกษา

เข้าร่วมกับเราบน Slack

ติดต่อผ่านทาง Slack:

ภาพรวม

PISA เป็นเครื่องมือค้นหาข้อความที่สามารถทำงานกับเอกสารจำนวนมาก ช่วยให้นักวิจัยสามารถทดลองใช้เทคนิคที่ล้ำสมัย ทำให้เกิดสภาพแวดล้อมที่เหมาะสำหรับการพัฒนาอย่างรวดเร็ว

คุณสมบัติบางประการของ PISA มีดังต่อไปนี้:

เขียนด้วยภาษา C++ เพื่อประสิทธิภาพ
ความสามารถในการแยกวิเคราะห์ การทำดัชนี และการแบ่งส่วน
ใช้วิธีการบีบอัดดัชนีหลายวิธี
มีการใช้อัลกอริธึมการประมวลผลแบบสอบถามจำนวนมาก
การดำเนินการเรียงลำดับเอกสารใหม่
ฟรีและโอเพ่นซอร์สพร้อมใบอนุญาตที่ได้รับอนุญาต

เกี่ยวกับ PISA

PISA คืออะไร?

PISA เป็นเครื่องมือค้นหาข้อความ แม้ว่า "โครงการ PISA" จะเป็นชุดเครื่องมือที่ช่วยทดลองเกี่ยวกับการจัดทำดัชนีและการประมวลผลข้อความค้นหา เมื่อพิจารณาจากคอลเล็กชันข้อความ PISA สามารถสร้าง ดัชนีแบบกลับ ด้านเหนือคลังข้อมูลนี้ ทำให้สามารถค้นหาคลังข้อมูลได้ กล่าวง่ายๆ ก็คือดัชนีกลับหัวคือโครงสร้างข้อมูลที่มีประสิทธิภาพซึ่งแสดงถึงคลังเอกสารโดยจัดเก็บรายการเอกสารสำหรับแต่ละคำที่ไม่ซ้ำกัน (ดูที่นี่) ในช่วงเวลาสืบค้น PISA จะจัดเก็บดัชนีไว้ในหน่วยความจำหลักเพื่อการเรียกค้นที่รวดเร็ว

ทั้งหมดนี้หมายความว่าอย่างไร?

พูดง่ายๆ ก็คือ PISA เป็นเครื่องมือค้นหาข้อความ PISA สามารถสร้าง ดัชนีกลับหัว ซึ่งช่วยให้เราค้นหาคอลเล็กชัน Wikipedia ได้อย่างรวดเร็วโดยเริ่มจากคลังเอกสาร เช่น Wikipedia ในระดับพื้นฐานที่สุด รองรับการสืบค้นแบบบูลีน AND และ OR ลองนึกภาพเราต้องการค้นหาเอกสาร Wikipedia ทั้งหมดที่ตรงกับคำค้นหา "ชาอูหลง" - เราสามารถเรียกใช้คำร่วมบูลีน ( oolong AND tea ) เราอาจสนใจที่จะค้นหาเอกสารที่มี อูหลง หรือ ชา (หรือทั้งสองอย่าง) แทน ซึ่งในกรณีนี้เราสามารถเรียกใช้การแยกส่วนบูลีน ( oolong OR tea )

นอกเหนือจากการจับคู่บูลีนแบบธรรมดา ตามที่กล่าวไว้ข้างต้นแล้ว เราสามารถ จัดอันดับ เอกสารได้จริงๆ โดยไม่ต้องลงรายละเอียด เอกสารจะถูกจัดอันดับตามฟังก์ชันที่ถือว่ายิ่งคำนั้น หายาก เท่าใด คำนั้นก็จะยิ่ง มีความสำคัญ มากขึ้นเท่านั้น การจัดอันดับเหล่านี้ยังสันนิษฐานว่ายิ่งคำใดปรากฏในเอกสารบ่อยเท่าใด เอกสารก็จะยิ่งเกี่ยวข้องกับคำนั้นมากขึ้นเท่านั้น สุดท้ายนี้ เอกสารที่ยาวกว่าจะมีคำมากกว่า และมีแนวโน้มที่จะได้รับคะแนนสูงกว่าเอกสารที่สั้นกว่า ดังนั้นจึงมีการดำเนินการปรับมาตรฐานเพื่อให้แน่ใจว่าเอกสารทั้งหมดได้รับการปฏิบัติอย่างเท่าเทียมกัน ผู้อ่านที่สนใจอาจต้องการตรวจสอบบทความ Wikipedia TF/IDF เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการจัดอันดับนี้

การค้นหาและการจับคู่รูปแบบ

นี่ไม่ใช่ grep การค้นหาประเภทเดียวกัน สิ่งนี้มีความเกี่ยวข้องอย่างใกล้ชิดกับเครื่องมือค้นหา Lucene ยอดนิยม แม้ว่าในปัจจุบันเราจะไม่สนับสนุนประเภทข้อความค้นหามากเท่ากับ Lucene ตามที่กล่าวไว้ก่อนหน้านี้ โครงสร้างข้อมูลพื้นฐานหลักใน PISA คือ ดัชนีกลับหัว ดัชนีแบบกลับจะจัดเก็บรายการเอกสารที่มีคำนั้นสำหรับแต่ละเทอม รายการเหล่านี้สามารถสำรวจได้อย่างรวดเร็วเพื่อค้นหาเอกสารที่ตรงกับเงื่อนไขการสืบค้น และเอกสารเหล่านี้ก็สามารถให้คะแนน จัดอันดับ และส่งคืนให้กับผู้ใช้ได้

ใครควรใช้ PISA?

กรณีการใช้งานหลักสำหรับ PISA คือการดำเนินการทดลองเพื่อเพิ่มความเข้าใจในสาขาการดึงข้อมูล (IR) ภายในสาขา IR มีแนวทางการวิจัยที่สำคัญหลายประการที่มุ่งเน้น ตั้งแต่การปรับปรุงคุณภาพผลลัพธ์ (ประสิทธิผล) ไปจนถึงการปรับปรุงความสามารถในการปรับขนาดและประสิทธิภาพของระบบการค้นหา PISA มุ่งเน้นไปที่ด้านความสามารถในการปรับขนาดและประสิทธิภาพของการวิจัย IR เป็นหลัก และนี่คือเหตุผลที่ PISA ย่อมาจาก "Performant Indexes and Search for Academia" กล่าวโดยย่อ PISA เป็นแพลตฟอร์มสำหรับการพัฒนานวัตกรรมใหม่ในการค้นหาที่มีประสิทธิภาพ

จะเป็นอย่างไรหากฉันต้องการเล่นกับเครื่องมือค้นหา?

แม้ว่า PISA จะมุ่งเน้นไปที่การเป็นฐานสำหรับการทดลอง แต่ก็ยังเหมาะสมอย่างยิ่งที่จะใช้เป็นระบบจัดทำดัชนีและค้นหาวัตถุประสงค์ทั่วไปแบบง่ายๆ

PISA สามารถจัดการมาตราส่วนประเภทใดได้บ้าง

PISA สามารถจัดการคอลเลกชันข้อความขนาดใหญ่ได้ ตัวอย่างเช่น PISA สามารถจัดทำดัชนี ClueWeb09B หรือ ClueWeb12B corpora ได้อย่างง่ายดาย ซึ่งแต่ละคลังมีเอกสารเว็บมากกว่า 50 ล้านเอกสารและข้อมูล ต้นฉบับที่บีบอัด เกือบ 500 GiB ส่งผลให้ดัชนีอยู่ในช่วง 10-40 GiB ขึ้นอยู่กับตัวแปลงสัญญาณการบีบอัด ใช้แล้ว. ดัชนีเหล่านี้สามารถสร้างตั้งแต่เริ่มต้นได้ภายในเวลาประมาณ 10-20 ชั่วโมง ขึ้นอยู่กับรายละเอียดบางประการ นอกจากนี้ คอลเลกชันขนาดใหญ่สามารถจัดการได้ผ่านการ แบ่งส่วนดัชนี ซึ่งจะแบ่งองค์กรขนาดใหญ่ออกเป็นส่วนย่อยที่เล็กลง (ส่วนแบ่ง) อย่างไรก็ตาม เราทราบว่า PISA เป็นระบบ ในหน่วยความจำ ซึ่งมีจุดมุ่งหมายเพื่อให้บริการการสืบค้นตามดัชนีที่อยู่ในหน่วยความจำหลักทั้งหมด ดังนั้นขนาดที่เป็นไปได้จะถูกจำกัดโดยหน่วยความจำหลัก

PISA เร็วแค่ไหนจริง ๆ ?

ผลงานล่าสุดบางส่วนมีการวัดประสิทธิภาพ PISA ตัวอย่างเช่น การศึกษาเชิงทดลองของการบีบอัดดัชนีและวิธีการประมวลผลคำค้นหา DAAT โดย Antonio Mallia, Michal Siedlaczek และ Torsten Suel ซึ่งปรากฏใน ECIR 2019 แสดงให้เห็นว่า PISA สามารถส่งคืนเอกสาร 10 อันดับแรกและ 1,000 อันดับแรกโดยมีเวลาแฝงโดยเฉลี่ยใน ช่วง 10-40 และ 20-50 มิลลิวินาที ตามลำดับ ในคอลเลกชันที่มีเอกสารเว็บ 50 ล้านฉบับ

PISA ยังรวมอยู่ในเกมเกณฑ์มาตรฐานเครื่องมือค้นหาของ Tantivy ซึ่งมี Tantivy, Lucene และ Rucene เป็นคู่แข่งด้วย

PISA เริ่มต้นอย่างไร?

PISA เป็นส่วนหนึ่งของโครงการ ds2i ที่ริเริ่มโดย Giuseppe Ottaviano โครงการ ds2i มีซอร์สโค้ดสำหรับนวัตกรรมด้านประสิทธิภาพที่สำคัญจำนวนหนึ่งใน IR รวมถึงวิธีการบีบอัด "Partitioned Elias-Fano"

เริ่มต้นใช้งาน

สำหรับผู้ที่สนใจร่วมงานกับ PISA เราขอแนะนำให้ตรวจสอบแหล่งข้อมูลต่อไปนี้:

เอกสาร Open Source Information Reflicability Replicability Challenge (OSIRRC) ที่อธิบาย PISA รวมถึงการทดลองแบบ end-to-end
รูปภาพ Docker ที่ให้มาซึ่งช่วยให้สามารถจำลองการทดลองจากด้านบนได้
เอกสารประกอบ
แวะเข้ามาที่ช่อง Slack ของเราแล้วทักทาย!

มีส่วนร่วม

หากคุณต้องการมีส่วนร่วมกับ PISA โปรดดูที่หน้าการมีส่วนร่วมของเรา

อ้างอิง

หากคุณใช้ PISA ในรายงานการวิจัย โปรดอ้างอิงข้อมูลอ้างอิงต่อไปนี้:

 @inproceedings{MSMS2019,
  author    = {Antonio Mallia and Michal Siedlaczek and Joel Mackenzie and Torsten Suel},
  title     = {{PISA:} Performant Indexes and Search for Academia},
  booktitle = {Proceedings of the Open-Source {IR} Replicability Challenge co-located
               with 42nd International {ACM} {SIGIR} Conference on Research and Development
               in Information Retrieval, OSIRRC@SIGIR 2019, Paris, France, July 25,
               2019.},
  pages     = {50--56},
  year      = {2019},
  url       = {http://ceur-ws.org/Vol-2409/docker08.pdf}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.9.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-25
ขนาด 9.01MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด