ติดต่อผ่านทาง Slack:
PISA เป็นเครื่องมือค้นหาข้อความที่สามารถทำงานกับเอกสารจำนวนมาก ช่วยให้นักวิจัยสามารถทดลองใช้เทคนิคที่ล้ำสมัย ทำให้เกิดสภาพแวดล้อมที่เหมาะสำหรับการพัฒนาอย่างรวดเร็ว
คุณสมบัติบางประการของ PISA มีดังต่อไปนี้:
PISA เป็นเครื่องมือค้นหาข้อความ แม้ว่า "โครงการ PISA" จะเป็นชุดเครื่องมือที่ช่วยทดลองเกี่ยวกับการจัดทำดัชนีและการประมวลผลข้อความค้นหา เมื่อพิจารณาจากคอลเล็กชันข้อความ PISA สามารถสร้าง ดัชนีแบบกลับ ด้านเหนือคลังข้อมูลนี้ ทำให้สามารถค้นหาคลังข้อมูลได้ กล่าวง่ายๆ ก็คือดัชนีกลับหัวคือโครงสร้างข้อมูลที่มีประสิทธิภาพซึ่งแสดงถึงคลังเอกสารโดยจัดเก็บรายการเอกสารสำหรับแต่ละคำที่ไม่ซ้ำกัน (ดูที่นี่) ในช่วงเวลาสืบค้น PISA จะจัดเก็บดัชนีไว้ในหน่วยความจำหลักเพื่อการเรียกค้นที่รวดเร็ว
พูดง่ายๆ ก็คือ PISA เป็นเครื่องมือค้นหาข้อความ PISA สามารถสร้าง ดัชนีกลับหัว ซึ่งช่วยให้เราค้นหาคอลเล็กชัน Wikipedia ได้อย่างรวดเร็วโดยเริ่มจากคลังเอกสาร เช่น Wikipedia ในระดับพื้นฐานที่สุด รองรับการสืบค้นแบบบูลีน AND
และ OR
ลองนึกภาพเราต้องการค้นหาเอกสาร Wikipedia ทั้งหมดที่ตรงกับคำค้นหา "ชาอูหลง" - เราสามารถเรียกใช้คำร่วมบูลีน ( oolong AND
tea ) เราอาจสนใจที่จะค้นหาเอกสารที่มี อูหลง หรือ ชา (หรือทั้งสองอย่าง) แทน ซึ่งในกรณีนี้เราสามารถเรียกใช้การแยกส่วนบูลีน ( oolong OR
tea )
นอกเหนือจากการจับคู่บูลีนแบบธรรมดา ตามที่กล่าวไว้ข้างต้นแล้ว เราสามารถ จัดอันดับ เอกสารได้จริงๆ โดยไม่ต้องลงรายละเอียด เอกสารจะถูกจัดอันดับตามฟังก์ชันที่ถือว่ายิ่งคำนั้น หายาก เท่าใด คำนั้นก็จะยิ่ง มีความสำคัญ มากขึ้นเท่านั้น การจัดอันดับเหล่านี้ยังสันนิษฐานว่ายิ่งคำใดปรากฏในเอกสารบ่อยเท่าใด เอกสารก็จะยิ่งเกี่ยวข้องกับคำนั้นมากขึ้นเท่านั้น สุดท้ายนี้ เอกสารที่ยาวกว่าจะมีคำมากกว่า และมีแนวโน้มที่จะได้รับคะแนนสูงกว่าเอกสารที่สั้นกว่า ดังนั้นจึงมีการดำเนินการปรับมาตรฐานเพื่อให้แน่ใจว่าเอกสารทั้งหมดได้รับการปฏิบัติอย่างเท่าเทียมกัน ผู้อ่านที่สนใจอาจต้องการตรวจสอบบทความ Wikipedia TF/IDF เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการจัดอันดับนี้
นี่ไม่ใช่ grep
การค้นหาประเภทเดียวกัน สิ่งนี้มีความเกี่ยวข้องอย่างใกล้ชิดกับเครื่องมือค้นหา Lucene ยอดนิยม แม้ว่าในปัจจุบันเราจะไม่สนับสนุนประเภทข้อความค้นหามากเท่ากับ Lucene ตามที่กล่าวไว้ก่อนหน้านี้ โครงสร้างข้อมูลพื้นฐานหลักใน PISA คือ ดัชนีกลับหัว ดัชนีแบบกลับจะจัดเก็บรายการเอกสารที่มีคำนั้นสำหรับแต่ละเทอม รายการเหล่านี้สามารถสำรวจได้อย่างรวดเร็วเพื่อค้นหาเอกสารที่ตรงกับเงื่อนไขการสืบค้น และเอกสารเหล่านี้ก็สามารถให้คะแนน จัดอันดับ และส่งคืนให้กับผู้ใช้ได้
กรณีการใช้งานหลักสำหรับ PISA คือการดำเนินการทดลองเพื่อเพิ่มความเข้าใจในสาขาการดึงข้อมูล (IR) ภายในสาขา IR มีแนวทางการวิจัยที่สำคัญหลายประการที่มุ่งเน้น ตั้งแต่การปรับปรุงคุณภาพผลลัพธ์ (ประสิทธิผล) ไปจนถึงการปรับปรุงความสามารถในการปรับขนาดและประสิทธิภาพของระบบการค้นหา PISA มุ่งเน้นไปที่ด้านความสามารถในการปรับขนาดและประสิทธิภาพของการวิจัย IR เป็นหลัก และนี่คือเหตุผลที่ PISA ย่อมาจาก "Performant Indexes and Search for Academia" กล่าวโดยย่อ PISA เป็นแพลตฟอร์มสำหรับการพัฒนานวัตกรรมใหม่ในการค้นหาที่มีประสิทธิภาพ
แม้ว่า PISA จะมุ่งเน้นไปที่การเป็นฐานสำหรับการทดลอง แต่ก็ยังเหมาะสมอย่างยิ่งที่จะใช้เป็นระบบจัดทำดัชนีและค้นหาวัตถุประสงค์ทั่วไปแบบง่ายๆ
PISA สามารถจัดการคอลเลกชันข้อความขนาดใหญ่ได้ ตัวอย่างเช่น PISA สามารถจัดทำดัชนี ClueWeb09B หรือ ClueWeb12B corpora ได้อย่างง่ายดาย ซึ่งแต่ละคลังมีเอกสารเว็บมากกว่า 50 ล้านเอกสารและข้อมูล ต้นฉบับที่บีบอัด เกือบ 500 GiB ส่งผลให้ดัชนีอยู่ในช่วง 10-40 GiB ขึ้นอยู่กับตัวแปลงสัญญาณการบีบอัด ใช้แล้ว. ดัชนีเหล่านี้สามารถสร้างตั้งแต่เริ่มต้นได้ภายในเวลาประมาณ 10-20 ชั่วโมง ขึ้นอยู่กับรายละเอียดบางประการ นอกจากนี้ คอลเลกชันขนาดใหญ่สามารถจัดการได้ผ่านการ แบ่งส่วนดัชนี ซึ่งจะแบ่งองค์กรขนาดใหญ่ออกเป็นส่วนย่อยที่เล็กลง (ส่วนแบ่ง) อย่างไรก็ตาม เราทราบว่า PISA เป็นระบบ ในหน่วยความจำ ซึ่งมีจุดมุ่งหมายเพื่อให้บริการการสืบค้นตามดัชนีที่อยู่ในหน่วยความจำหลักทั้งหมด ดังนั้นขนาดที่เป็นไปได้จะถูกจำกัดโดยหน่วยความจำหลัก
ผลงานล่าสุดบางส่วนมีการวัดประสิทธิภาพ PISA ตัวอย่างเช่น การศึกษาเชิงทดลองของการบีบอัดดัชนีและวิธีการประมวลผลคำค้นหา DAAT โดย Antonio Mallia, Michal Siedlaczek และ Torsten Suel ซึ่งปรากฏใน ECIR 2019 แสดงให้เห็นว่า PISA สามารถส่งคืนเอกสาร 10 อันดับแรกและ 1,000 อันดับแรกโดยมีเวลาแฝงโดยเฉลี่ยใน ช่วง 10-40 และ 20-50 มิลลิวินาที ตามลำดับ ในคอลเลกชันที่มีเอกสารเว็บ 50 ล้านฉบับ
PISA ยังรวมอยู่ในเกมเกณฑ์มาตรฐานเครื่องมือค้นหาของ Tantivy ซึ่งมี Tantivy, Lucene และ Rucene เป็นคู่แข่งด้วย
PISA เป็นส่วนหนึ่งของโครงการ ds2i ที่ริเริ่มโดย Giuseppe Ottaviano โครงการ ds2i มีซอร์สโค้ดสำหรับนวัตกรรมด้านประสิทธิภาพที่สำคัญจำนวนหนึ่งใน IR รวมถึงวิธีการบีบอัด "Partitioned Elias-Fano"
สำหรับผู้ที่สนใจร่วมงานกับ PISA เราขอแนะนำให้ตรวจสอบแหล่งข้อมูลต่อไปนี้:
หากคุณต้องการมีส่วนร่วมกับ PISA โปรดดูที่หน้าการมีส่วนร่วมของเรา
หากคุณใช้ PISA ในรายงานการวิจัย โปรดอ้างอิงข้อมูลอ้างอิงต่อไปนี้:
@inproceedings{MSMS2019,
author = {Antonio Mallia and Michal Siedlaczek and Joel Mackenzie and Torsten Suel},
title = {{PISA:} Performant Indexes and Search for Academia},
booktitle = {Proceedings of the Open-Source {IR} Replicability Challenge co-located
with 42nd International {ACM} {SIGIR} Conference on Research and Development
in Information Retrieval, OSIRRC@SIGIR 2019, Paris, France, July 25,
2019.},
pages = {50--56},
year = {2019},
url = {http://ceur-ws.org/Vol-2409/docker08.pdf}
}