พิเซรินี
Pyserini เป็นชุดเครื่องมือ Python สำหรับการวิจัยการดึงข้อมูลที่ทำซ้ำได้โดยมีการนำเสนอที่กระจัดกระจายและหนาแน่น การดึงข้อมูลโดยใช้การแสดงแบบกระจัดกระจายมีให้ผ่านการผสานรวมกับชุดเครื่องมือ Anserini IR ของกลุ่มของเรา ซึ่งสร้างขึ้นบน Lucene การดึงข้อมูลโดยใช้การนำเสนอแบบหนาแน่นมีให้ผ่านการผสานรวมกับไลบรารี Faiss ของ Facebook
Pyserini ได้รับการออกแบบมาเพื่อให้การดึงข้อมูลจากขั้นตอนแรกที่มีประสิทธิภาพ ทำซ้ำได้ และใช้งานง่ายในสถาปัตยกรรมการจัดอันดับแบบหลายขั้นตอน ชุดเครื่องมือของเรามีอยู่ในตัวเองเป็นแพ็คเกจ Python มาตรฐาน และมาพร้อมกับแบบสอบถาม การตัดสินความเกี่ยวข้อง ดัชนีที่สร้างไว้ล่วงหน้า และสคริปต์การประเมินผลสำหรับคอลเลกชันการทดสอบ IR ที่ใช้กันทั่วไปจำนวนมาก ด้วย Pyserini ทำให้ง่ายต่อการทำซ้ำการทดสอบ IR มาตรฐานจำนวนหนึ่ง
สำหรับรายละเอียดเพิ่มเติม บทความของเราใน SIGIR 2021 ให้ภาพรวมที่ดี
ใหม่! คำแนะนำในการทำงานกับ MS MARCO 2.1 Document Corpus สำหรับ TREC 2024 RAG Track
❗ Anserini ได้รับการอัปเกรดจาก JDK 11 เป็น JDK 21 เมื่อกระทำ 272565
(2024/04/03) ซึ่งสอดคล้องกับการเปิดตัว v0.35.0 ในทำนองเดียวกัน Pyserini ได้รับการอัปเกรดเป็น JDK 21 เมื่อกระทำ b2f677
(2024/04/04)
- การติดตั้ง
ติดตั้งผ่าน PyPI:
Pyserini สร้างขึ้นบน Python 3.10 (เวอร์ชันอื่นอาจใช้งานได้ แต่ YMMV) และ Java 21 (เนื่องจากการพึ่งพา Anserini) การติดตั้ง pip
จะดึงการอ้างอิงที่สำคัญเช่น PyTorch โดยอัตโนมัติ Transformers และรันไทม์ ONNX
ชุดเครื่องมือยังมีการขึ้นต่อกันที่เป็นทางเลือกอีกมากมาย:
pip install 'pyserini[optional]'
โดยเฉพาะอย่างยิ่ง faiss-cpu
, lightgbm
และ nmslib
จะรวมอยู่ในการอ้างอิงเพิ่มเติมเหล่านี้ การติดตั้งแพ็คเกจเหล่านี้อาจเป็นเรื่องชั่วคราว ซึ่งเป็นเหตุผลว่าทำไมจึงไม่รวมอยู่ในการขึ้นต่อกันหลัก อาจเป็นความคิดที่ดีที่จะติดตั้งสิ่งเหล่านี้แยกต่างหาก
ระบบนิเวศของซอฟต์แวร์มีการพัฒนาอย่างรวดเร็ว และแหล่งที่มาของความยุ่งยากที่อาจเกิดขึ้นคือความไม่เข้ากันระหว่างเวอร์ชันต่างๆ ของการขึ้นต่อกันพื้นฐาน เราให้คำแนะนำการติดตั้งโดยละเอียดเพิ่มเติมที่นี่
หากคุณวางแผนที่จะ ใช้ Pyserini คำสั่ง pip
(โดยไม่ต้องพึ่งพาเพิ่มเติม) ก็น่าจะใช้ได้ อย่างไรก็ตาม หากคุณวางแผนที่จะมีส่วนร่วมในโค้ดเบสหรือต้องการทำงานกับฟีเจอร์ล่าสุดที่ยังไม่เปิดตัว คุณจะต้องมีการติดตั้งเพื่อการพัฒนา คำแนะนำมีให้ที่นี่
- ฉันจะค้นหาได้อย่างไร?
Pyserini รองรับโมเดลการดึงข้อมูลประเภทต่างๆ ดูคู่มือนี้สำหรับรายละเอียดเกี่ยวกับวิธีการค้นหาองค์กรทั่วไปในการวิจัย IR และ NLP (เช่น MS MARCO, NaturalQuestions, BEIR เป็นต้น) โดยใช้ดัชนีที่เราสร้างไว้สำหรับคุณแล้ว นี่คือลิงก์โดยตรงไปยังคำแนะนำ:
- รูปแบบคำศัพท์ดั้งเดิม (เช่น BM25) โดยใช้ Lucene
- เรียนรู้แบบจำลองการดึงข้อมูลแบบกระจาย (เช่น uniCOIL, SPLADE ฯลฯ ) โดยใช้ Lucene
- เรียนรู้โมเดลการดึงข้อมูลแบบหนาแน่น (เช่น DPR, Contriever, BGE ฯลฯ) โดยใช้ Lucene หรือ Faiss
- แบบจำลองการดึงข้อมูลแบบไฮบริด (เช่น ฟิวชั่นแบบกระจายหนาแน่น)
เมื่อคุณได้รับผลลัพธ์อันดับต้น ๆ คุณจะต้องดึงข้อความในเอกสาร... ดูวิธีการในคู่มือนี้
- ฉันจะจัดทำดัชนีคลังข้อมูลของตัวเองได้อย่างไร
ขึ้นอยู่กับประเภทของโมเดลการดึงข้อมูลที่คุณต้องการค้นหาด้วย:
- การสร้างดัชนี BM25 (การใช้งาน Java โดยตรง)
- การสร้างดัชนี BM25 (การใช้งาน Python แบบฝัง)
- การสร้างดัชนีเวกเตอร์กระจัดกระจาย
- การสร้างดัชนีเวกเตอร์หนาแน่น
ขั้นตอนจะแตกต่างกันไปตามคลาสของรุ่นต่างๆ: คู่มือนี้ (เหมือนกับลิงก์ด้านบน) จะอธิบายรายละเอียด
- คำถามที่พบบ่อยเพิ่มเติม
- ฉันจะกำหนดค่าการค้นหาได้อย่างไร (คำแนะนำในการค้นหาเชิงโต้ตอบ)
- ฉันจะดาวน์โหลดดัชนีด้วยตนเองได้อย่างไร (คำแนะนำในการค้นหาเชิงโต้ตอบ)
- ฉันจะทำการดึงข้อมูลแบบหนาแน่นและแบบไฮบริดได้อย่างไร (คำแนะนำในการค้นหาเชิงโต้ตอบ)
- ฉันจะวนซ้ำเงื่อนไขดัชนีและสถิติเงื่อนไขการเข้าถึงได้อย่างไร (API ตัวอ่านดัชนี)
- ฉันจะข้ามการโพสต์ได้อย่างไร (API ตัวอ่านดัชนี)
- ฉันจะเข้าถึงและจัดการเวกเตอร์คำได้อย่างไร (API ตัวอ่านดัชนี)
- ฉันจะคำนวณคะแนน tf-idf หรือ BM25 ของเอกสารได้อย่างไร (API ตัวอ่านดัชนี)
- ฉันจะเข้าถึงสถิติดัชนีพื้นฐานได้อย่างไร (API ตัวอ่านดัชนี)
- ฉันจะเข้าถึงเครื่องวิเคราะห์ Lucene พื้นฐานได้อย่างไร (API วิเคราะห์)
- ฉันจะสร้างคำค้นหา Lucene แบบกำหนดเองได้อย่างไร (API ตัวสร้างแบบสอบถาม)
- ฉันจะวนซ้ำคอลเลกชัน Raw ได้อย่างไร (API คอลเลกชัน)
⚗️ความสามารถในการทำซ้ำ
ด้วย Pyserini ทำให้ง่ายต่อการทำซ้ำการทดสอบ IR มาตรฐานจำนวนหนึ่ง เรามีดัชนีที่สร้างไว้ล่วงหน้าจำนวนหนึ่งที่รองรับความสามารถในการทำซ้ำได้โดยตรง "นอกกรอบ"
ในรายงาน SIGIR 2022 ของเรา เราได้แนะนำ "การทำสำเนาแบบสองคลิก" ที่ช่วยให้ทุกคนสามารถทำซ้ำการทำงานทดลองได้ด้วยการคลิกเพียงสองครั้งเท่านั้น (เช่น คัดลอกและวาง) เอกสารประกอบถูกจัดเป็นเมทริกซ์การสืบพันธุ์สำหรับองค์กรต่างๆ ซึ่งให้ข้อมูลสรุปของเงื่อนไขการทดลองและชุดการสืบค้นที่แตกต่างกัน:
- ทางเดิน MS MARCO V1
- เอกสาร MS MARCO V1
- ทางเดิน MS MARCO V2
- เอกสาร MS MARCO V2
- เบียร์
- นายตีดี
- มิราเคิล
- การตอบคำถามแบบเปิดโดเมน
- ซีราล
สำหรับรายละเอียดเพิ่มเติม โปรดดูรายงานของเราเกี่ยวกับการสร้างวัฒนธรรมการทำซ้ำในการวิจัยเชิงวิชาการ
คู่มือการทำซ้ำเพิ่มเติมด้านล่างให้คำแนะนำโดยละเอียดทีละขั้นตอน
การดึงข้อมูลแบบกระจัดกระจาย
การดึงข้อมูลแบบกระจัดกระจาย
- การสร้างเส้นฐาน Robust04 ซ้ำสำหรับการดึงข้อมูลเฉพาะกิจ
- การสร้างเส้นฐาน BM25 สำหรับ MS MARCO V1 Passage Ranking
- การสร้างพื้นฐาน BM25 สำหรับการจัดอันดับเอกสาร MS MARCO V1
- การสร้างข้อมูลพื้นฐาน BM25 แบบหลายฟิลด์สำหรับการจัดอันดับเอกสาร MS MARCO V1 จาก Elasticsearch
- การสร้างเส้นฐาน BM25 บนคอลเลกชัน MS MARCO V2
- การสร้างการทดลองกรอง LTR ซ้ำ: MS MARCO V1 Passage, เอกสาร MS MARCO V1
- ทำซ้ำการทดลอง IRST บนคอลเลกชัน MS MARCO V1
- การสร้าง DeepImpact: MS MARCO V1 Passage
- การสร้าง uniCOIL ด้วย doc2query-T5: MS MARCO V1, MS MARCO V2
- การสร้าง uniCOIL ด้วย TILDE: MS MARCO V1 Passage, MS MARCO V2 Passage
- การสร้าง SPLADEv2 ซ้ำ: ทางเดิน MS MARCO V1
- ทำซ้ำการทดลอง Mr. TyDi
- การสร้างเส้นพื้นฐาน BM25 สำหรับ HC4
- การสร้างเส้นพื้นฐาน BM25 สำหรับ HC4 บน NeuCLIR22
- ทำซ้ำการทดลอง SLIM
- ข้อมูลพื้นฐานสำหรับ KILT: เกณฑ์มาตรฐานสำหรับงานภาษาที่เน้นความรู้
- ข้อมูลพื้นฐานสำหรับ TripClick: ชุดข้อมูลขนาดใหญ่ของบันทึกการคลิกในโดเมนสถานภาพ
- ข้อมูลพื้นฐาน (ใน Anserini) สำหรับชุดข้อมูล FEVER (การแยกข้อเท็จจริงและการยืนยัน)
การดึงข้อมูลหนาแน่น
การดึงข้อมูลหนาแน่น
- การสร้างการทดลอง TCT-ColBERTv1 ซ้ำ: MS MARCO V1
- การสร้างการทดลอง TCT-ColBERTv2 ซ้ำ: MS MARCO V1, MS MARCO V2
- ทำซ้ำการทดลอง DPR
- ทำซ้ำการทดลอง BPR
- ทำซ้ำการทดลอง ANCE
- การสร้างการทดลอง DistilBERT KD ขึ้นมาใหม่
- ทำซ้ำการทดลองสุ่มตัวอย่าง DistilBERT Balanced Topic Aware
- ทำซ้ำการทดลองดึงข้อมูลหนาแน่นของ SBERT
- การสร้างการทดลองดึงข้อมูลแบบหนาแน่นของ ADORE
- การสร้างการทดลอง Vector PRF ขึ้นมาใหม่
- การสร้างการทดลอง ANCE-PRF ขึ้นมาใหม่
- ทำซ้ำการทดลอง Mr. TyDi
- ทำซ้ำการทดลอง DKRR
การดึงข้อมูลแบบเบาบางแบบไฮบริด
การดึงข้อมูลแบบเบาบางแบบไฮบริด
- การสร้างการทดลอง uniCOIL + TCT-ColBERTv2 บนคอลเลกชัน MS MARCO V2
ที่มีจำหน่าย Corpora
ที่มีจำหน่าย Corpora
คอร์ปอรา | ขนาด | เช็คซัม |
---|
ข้อความ MS MARCO V1: uniCOIL (noexp) | 2.7 กิกะไบต์ | f17ddd8c7c00ff121c3c3b147d2e17d8 |
ข้อความ MS MARCO V1: uniCOIL (d2q-T5) | 3.4 กิกะไบต์ | 78eef752c78c8691f7d61600ceed306f |
เอกสาร MS MARCO V1: uniCOIL (noexp) | 11 กิกะไบต์ | 11b226e1cacd9c8ae0a660fd14cdd710 |
เอกสาร MS MARCO V1: uniCOIL (d2q-T5) | 19 กิกะไบต์ | 6a00e2c0c375cb1e52c83ae5ac377ebb |
ข้อความ MS MARCO V2: uniCOIL (noexp) | 24GB | d9cc1ed3049746e68a2c91bf90e5212d |
ข้อความ MS MARCO V2: uniCOIL (d2q-T5) | 41 กิกะไบต์ | 1949a00bfd5e1f1a230a04bbc1f01539 |
เอกสาร MS MARCO V2: uniCOIL (noexp) | 55 กิกะไบต์ | 97ba262c497164de1054f357caea0c63 |
เอกสาร MS MARCO V2: uniCOIL (d2q-T5) | 72GB | c5639748c2cbad0152e10b0ebde3b804 |
- เอกสารเพิ่มเติม
- คำแนะนำเกี่ยวกับดัชนีที่สร้างไว้ล่วงหน้า
- คู่มือการค้นหาแบบโต้ตอบ
- คำแนะนำในการจำแนกข้อความด้วยชุดข้อมูล 20Newsgroups
- คำแนะนำในการทำงานกับชุดข้อมูลการวิจัยแบบเปิดเกี่ยวกับโควิด-19 (CORD-19)
- คำแนะนำในการทำงานกับการเชื่อมโยงเอนทิตี
- คำแนะนำในการทำงานกับ spaCy
- การใช้งาน API ของตัววิเคราะห์
- การใช้ Index Reader API
- การใช้ Query Builder API
- การใช้งานคอลเลกชัน API
- การโต้ตอบโดยตรงผ่าน Pyjnius
️ ประวัติการเปิดตัว
- v0.43.0 (พร้อม Anserini v0.38.0): 11 พฤศจิกายน 2024 [บันทึกประจำรุ่น]
- v0.42.0 (พร้อม Anserini v0.38.0): 8 พฤศจิกายน 2024 [บันทึกประจำรุ่น] [ปัญหาที่ทราบ]
- v0.41.0 (พร้อม Anserini v0.38.0): 7 พฤศจิกายน 2024 [บันทึกประจำรุ่น] [ปัญหาที่ทราบ]
- v0.40.0 (พร้อม Anserini v0.38.0): 28 ตุลาคม 2024 [บันทึกประจำรุ่น]
- v0.39.0 (พร้อม Anserini v0.38.0): 27 กันยายน 2024 [บันทึกประจำรุ่น]
- v0.38.0 (พร้อม Anserini v0.38.0): 11 กันยายน 2024 [บันทึกประจำรุ่น]
- v0.37.0 (พร้อม Anserini v0.37.0): 26 สิงหาคม 2024 [บันทึกประจำรุ่น]
- v0.36.0 (พร้อม Anserini v0.36.1): 17 มิถุนายน 2024 [บันทึกประจำรุ่น]
- v0.35.0 (พร้อม Anserini v0.35.0): 4 เมษายน 2024 [บันทึกประจำรุ่น]
เก่ากว่า... (และบันทึกประวัติศาสตร์)
- v0.25.0 (พร้อม Anserini v0.25.0): 31 มีนาคม 2024 [บันทึกประจำรุ่น]
- v0.24.0 (พร้อม Anserini v0.24.0): 28 ธันวาคม 2023 [บันทึกประจำรุ่น]
- v0.23.0 (พร้อม Anserini v0.23.0): 17 พฤศจิกายน 2023 [บันทึกประจำรุ่น]
- v0.22.1 (พร้อม Anserini v0.22.1): 19 ตุลาคม 2023 [บันทึกประจำรุ่น]
- v0.22.0 (พร้อม Anserini v0.22.0): 31 สิงหาคม 2023 [บันทึกประจำรุ่น]
- v0.21.0 (พร้อม Anserini v0.21.0): 6 เมษายน 2023 [บันทึกประจำรุ่น]
- v0.20.0 (พร้อม Anserini v0.20.0): 1 กุมภาพันธ์ 2023 [บันทึกประจำรุ่น]
- v0.19.2 (พร้อม Anserini v0.16.2): 16 ธันวาคม 2022 [บันทึกประจำรุ่น]
- v0.19.1 (พร้อม Anserini v0.16.1): 12 พฤศจิกายน 2022 [บันทึกประจำรุ่น]
- v0.19.0 (พร้อม Anserini v0.16.1): 2 พฤศจิกายน 2022 [บันทึกประจำรุ่น] [ปัญหาที่ทราบ]
- v0.18.0 (พร้อม Anserini v0.15.0): 26 กันยายน 2022 [บันทึกประจำรุ่น] (เปิดตัวครั้งแรกอิงจาก Lucene 9)
- v0.17.1 (พร้อม Anserini v0.14.4): 13 สิงหาคม 2022 [บันทึกประจำรุ่น] (รุ่นสุดท้ายอิงจาก Lucene 8)
- v0.17.0 (พร้อม Anserini v0.14.3): 28 พฤษภาคม 2022 [บันทึกประจำรุ่น]
- v0.16.1 (พร้อม Anserini v0.14.3): 12 พฤษภาคม 2022 [บันทึกประจำรุ่น]
- v0.16.0 (พร้อม Anserini v0.14.1): 1 มีนาคม 2022 [บันทึกประจำรุ่น]
- v0.15.0 (พร้อม Anserini v0.14.0): 21 มกราคม 2022 [บันทึกประจำรุ่น]
- v0.14.0 (พร้อม Anserini v0.13.5): 8 พฤศจิกายน 2021 [บันทึกประจำรุ่น]
- v0.13.0 (พร้อม Anserini v0.13.1): 3 กรกฎาคม 2021 [บันทึกประจำรุ่น]
- v0.12.0 (พร้อม Anserini v0.12.0): 5 พฤษภาคม 2021 [บันทึกประจำรุ่น]
- v0.11.0.0: 18 กุมภาพันธ์ 2021 [บันทึกประจำรุ่น]
- v0.10.1.0: 8 มกราคม 2021 [บันทึกประจำรุ่น]
- v0.10.0.1: 2 ธันวาคม 2020 [บันทึกประจำรุ่น]
- v0.10.0.0: 26 พฤศจิกายน 2020 [บันทึกประจำรุ่น]
- v0.9.4.0: 26 มิถุนายน 2020 [บันทึกประจำรุ่น]
- v0.9.3.1: 11 มิถุนายน 2020 [บันทึกประจำรุ่น]
- v0.9.3.0: 27 พฤษภาคม 2020 [บันทึกประจำรุ่น]
- v0.9.2.0: 15 พฤษภาคม 2020 [บันทึกประจำรุ่น]
- v0.9.1.0: 6 พฤษภาคม 2020 [บันทึกประจำรุ่น]
- v0.9.0.0: 18 เมษายน 2020 [บันทึกประจำรุ่น]
- v0.8.1.0: 22 มีนาคม 2020 [บันทึกประจำรุ่น]
- v0.8.0.0: 12 มีนาคม 2020 [บันทึกประจำรุ่น]
- v0.7.2.0: 25 มกราคม 2020 [บันทึกประจำรุ่น]
- v0.7.1.0: 9 มกราคม 2020 [บันทึกประจำรุ่น]
- v0.7.0.0: 13 ธันวาคม 2019 [บันทึกประจำรุ่น]
- v0.6.0.0: 2 พฤศจิกายน 2019
️ บันทึกประวัติศาสตร์
⁉ การเปลี่ยนลูซีน 8 เป็นลูซีน 9 ในปี 2022 Pyserini ได้เปลี่ยนจาก Lucene 8 เป็น Lucene 9 ดัชนีที่สร้างไว้ล่วงหน้าส่วนใหญ่ถูกสร้างขึ้นใหม่โดยใช้ Lucene 9 แต่ยังมีบางส่วนที่ยังคงใช้ Lucene 8
รายละเอียดเพิ่มเติม:
- PyPI v0.17.1 (commit
33c87c
เปิดตัว 2022/08/56) เป็น Pyserini รุ่นสุดท้ายที่สร้างขึ้นบน Lucene 8 โดยอิงจาก Anserini v0.14.4 หลังจากนั้น ลำตัว Anserini ได้รับการอัพเกรดเป็น Lucene 9 - PyPI v0.18.0 (คอมมิต
5fab14
เปิดตัว 26/09/2565) สร้างขึ้นบน Anserini v0.15.0 โดยใช้ Lucene 9 หลังจากนั้น Pyserini trunk ก้าวไปสู่ Lucene 9
คำอธิบาย:
ผลกระทบคืออะไร? ดัชนีที่สร้างด้วย Lucene 8 ไม่สามารถทำงานร่วมกับโค้ด Lucene 9 ได้อย่างสมบูรณ์ (ดู Anserini #1952) วิธีแก้ปัญหาคือการปิดการใช้งานไทเบรกที่สอดคล้องกัน ซึ่งจะเกิดขึ้นโดยอัตโนมัติหาก Pyserini ตรวจพบดัชนี Lucene 8 อย่างไรก็ตาม โค้ด Lucene 9 ที่ทำงานบนดัชนี Lucene 8 จะให้ผลลัพธ์ที่แตกต่างจากโค้ด Lucene 8 ที่ทำงานบนดัชนี Lucene 8 เล็กน้อย โปรดทราบว่าโค้ด Lucene 8 ไม่ สามารถอ่านดัชนีที่สร้างด้วย Lucene 9 ได้
เหตุใดจึงจำเป็น? แม้ว่าจะหยุดชะงัก แต่การอัพเกรดเป็น Lucene 9 ก็เป็นสิ่งจำเป็นเพื่อใช้ประโยชน์จากดัชนี HNSW ของ Lucene ซึ่งจะเพิ่มขีดความสามารถของ Pyserini และเปิดพื้นที่การออกแบบของลูกผสมที่มีความหนาแน่นสูง/เบาบาง
ในเวอร์ชัน v0.11.0.0 และก่อนหน้านั้น เวอร์ชัน Pyserini ได้นำหลักการของ XYZW มาใช้ โดยที่ XYZ ติดตามเวอร์ชันของ Anserini และใช้ W เพื่อแยกแยะความแตกต่างระหว่างรุ่นต่างๆ ที่ส่วนท้ายของ Python ตั้งแต่ Anserini เวอร์ชัน 0.12.0 เป็นต้นไป เวอร์ชัน Anserini และ Pyserini จะถูกแยกออกจากกัน
Anserini ได้รับการออกแบบมาเพื่อทำงานร่วมกับ JDK 11 มีการเปลี่ยนแปลงเส้นทาง JRE เหนือ JDK 9 ที่ทำให้ pyjnius 1.2.0 พัง ตามที่บันทึกไว้ในฉบับนี้ ซึ่งรายงานใน Anserini ที่นี่ และ ที่นี่ ด้วย ปัญหานี้ได้รับการแก้ไขแล้วด้วย pyjnius 1.2.1 (เผยแพร่เมื่อเดือนธันวาคม 2019) ข้อผิดพลาดก่อนหน้านี้ได้รับการบันทึกไว้ในสมุดบันทึกนี้ และสมุดบันทึกนี้จัดทำเอกสารการแก้ไข
อ้างอิง
หากคุณใช้ Pyserini โปรดอ้างอิงเอกสารต่อไปนี้:
@INPROCEEDINGS{Lin_etal_SIGIR2021_Pyserini,
author = "Jimmy Lin and Xueguang Ma and Sheng-Chieh Lin and Jheng-Hong Yang and Ronak Pradeep and Rodrigo Nogueira",
title = "{Pyserini}: A {Python} Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations",
booktitle = "Proceedings of the 44th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2021)",
year = 2021,
pages = "2356--2362",
}
รับทราบ
งานวิจัยนี้ได้รับการสนับสนุนบางส่วนโดยสภาวิจัยวิทยาศาสตร์ธรรมชาติและวิศวกรรม (NSERC) ของแคนาดา