pyserini -Download - pyserini -Quellcode herunterladen

pyserini

Anderer Quellcode

pyserini-0.43.0

Herunterladen

Pyserini

Pyserini ist ein Python-Toolkit für reproduzierbare Informationsabrufforschung mit spärlichen und dichten Darstellungen. Der Abruf mithilfe spärlicher Darstellungen erfolgt über die Integration mit dem Anserini IR-Toolkit unserer Gruppe, das auf Lucene basiert. Der Abruf mithilfe dichter Darstellungen erfolgt über die Integration mit der Faiss-Bibliothek von Facebook.

Pyserini ist in erster Linie darauf ausgelegt, eine effektive, reproduzierbare und benutzerfreundliche Erststufenabfrage in einer mehrstufigen Ranking-Architektur zu ermöglichen. Unser Toolkit ist als Standard-Python-Paket eigenständig und enthält Abfragen, Relevanzbeurteilungen, vorgefertigte Indizes und Auswertungsskripte für viele häufig verwendete IR-Testsammlungen. Mit Pyserini ist es einfach, Läufe einer Reihe von Standard-IR-Testsammlungen zu reproduzieren!

Für weitere Details bietet unser Artikel in SIGIR 2021 einen schönen Überblick.

Neu! Leitfaden zur Arbeit mit dem MS MARCO 2.1 Document Corpus für TREC 2024 RAG Track.

❗ Anserini wurde beim Commit 272565 (03.04.2024) von JDK 11 auf JDK 21 aktualisiert, was der Veröffentlichung von v0.35.0 entspricht. Dementsprechend wurde Pyserini beim Commit b2f677 (04.04.2024) auf JDK 21 aktualisiert.

? Installation

Installation über PyPI:

 pip install pyserini

Pyserini basiert auf Python 3.10 (andere Versionen funktionieren möglicherweise, aber YMMV) und Java 21 (aufgrund der Abhängigkeit von Anserini). Eine pip -Installation zieht automatisch wichtige Abhängigkeiten wie PyTorch usw. ein. Transformers und die ONNX Runtime.

Das Toolkit verfügt außerdem über eine Reihe optionaler Abhängigkeiten:

 pip install 'pyserini[optional]'

Insbesondere sind faiss-cpu , lightgbm und nmslib in diesen optionalen Abhängigkeiten enthalten. Die Installation dieser Pakete kann problematisch sein, weshalb sie nicht in den Kernabhängigkeiten enthalten sind. Es könnte eine gute Idee sein, diese separat selbst zu installieren.

Das Software-Ökosystem entwickelt sich schnell weiter und eine potenzielle Quelle der Frustration ist die Inkompatibilität zwischen verschiedenen Versionen der zugrunde liegenden Abhängigkeiten. Zusätzliche detaillierte Installationsanleitungen stellen wir Ihnen hier zur Verfügung.

Wenn Sie vorhaben, nur Pyserini zu verwenden , sollte die pip Anweisung (ohne die optionalen Abhängigkeiten) in Ordnung sein. Wenn Sie jedoch vorhaben, zur Codebasis beizutragen oder mit den neuesten, noch nicht veröffentlichten Funktionen arbeiten möchten, benötigen Sie eine Entwicklungsinstallation. Anweisungen finden Sie hier.

? Wie suche ich?

Pyserini unterstützt verschiedene Arten von Abrufmodellen. In diesem Leitfaden finden Sie Einzelheiten zur Suche nach gängigen Korpora in der IR- und NLP-Forschung (z. B. MS MARCO, NaturalQuestions, BEIR usw.) mithilfe von Indizes, die wir bereits für Sie erstellt haben. Hier sind direkte Links zum Leitfaden:

Traditionelle lexikalische Modelle (z. B. BM25) mit Lucene.
Erlernte Sparse-Retrieval-Modelle (z. B. uniCOIL, SPLADE usw.) mit Lucene.
Erlernte dichte Retrieval-Modelle (z. B. DPR, Contriever, BGE usw.) mit Lucene oder Faiss.
Hybride Retrieval-Modelle (z. B. Dense-Spärliche-Fusion).

Sobald Sie die Top -K -Ergebnisse erhalten, möchten Sie tatsächlich den Dokumenttext abrufen ... In dieser Anleitung erfahren Sie, wie das geht.

? Wie indiziere ich mein eigenes Korpus?

Nun, es hängt davon ab, mit welcher Art von Abrufmodell Sie suchen möchten:

Erstellen eines BM25-Index (direkte Java-Implementierung)
Erstellen eines BM25-Index (einbettbare Python-Implementierung)
Erstellen eines Sparse-Vektor-Index
Erstellen eines dichten Vektorindex

Die Schritte sind je nach Modellklasse unterschiedlich: Diese Anleitung (identisch mit den Links oben) beschreibt die Details.

? Zusätzliche FAQs

Wie konfiguriere ich die Suche? (Leitfaden zur interaktiven Suche)
Wie lade ich Indizes manuell herunter? (Leitfaden zur interaktiven Suche)
Wie führe ich einen dichten und hybriden Abruf durch? (Leitfaden zur interaktiven Suche)
Wie iteriere ich über Indexbegriffe und greife auf Begriffsstatistiken zu? (Index-Reader-API)
Wie durchlaufe ich Beiträge? (Index-Reader-API)
Wie kann ich auf Termvektoren zugreifen und diese bearbeiten? (Index-Reader-API)
Wie berechne ich den TF-IDF- oder BM25-Score eines Dokuments? (Index-Reader-API)
Wie greife ich auf grundlegende Indexstatistiken zu? (Index-Reader-API)
Wie greife ich auf zugrunde liegende Lucene-Analysatoren zu? (Analysator-API)
Wie erstelle ich benutzerdefinierte Lucene-Abfragen? (Query Builder-API)
Wie iteriere ich über Rohsammlungen? (Sammlungs-API)

⚗️ Reproduzierbarkeit

Mit Pyserini ist es einfach, Läufe einer Reihe von Standard-IR-Testsammlungen zu reproduzieren! Wir stellen eine Reihe vorgefertigter Indizes zur Verfügung, die die Reproduzierbarkeit direkt „out of the box“ unterstützen.

In unserem SIGIR 2022-Papier haben wir „Zwei-Klick-Reproduktionen“ eingeführt, die es jedem ermöglichen, experimentelle Läufe mit nur zwei Klicks (d. h. Kopieren und Einfügen) zu reproduzieren. Die Dokumentation ist in Reproduktionsmatrizen für verschiedene Korpora organisiert, die eine Zusammenfassung verschiedener experimenteller Bedingungen und Abfragesätze bieten:

MS MARCO V1 Passage
MS MARCO V1-Dokument
MS MARCO V2 Passage
MS MARCO V2-Dokument
BEIR
Herr TyDi
WUNDER
Beantwortung von Open-Domain-Fragen
CIRAL

Weitere Einzelheiten finden Sie in unserem Artikel zum Aufbau einer Kultur der Reproduzierbarkeit in der akademischen Forschung.

Weitere Reproduktionsanleitungen unten bieten detaillierte Schritt-für-Schritt-Anleitungen.

Sparse Retrieval

Reproduzieren von Robust04-Baselines für den Ad-hoc-Abruf
Reproduktion der BM25-Basislinie für das MS MARCO V1 Passage Ranking
Reproduktion der BM25-Basislinie für das MS MARCO V1-Dokumentranking
Reproduktion der BM25-Basislinie mit mehreren Feldern für das MS MARCO V1-Dokumentranking von Elasticsearch
Reproduktion der BM25-Grundlinien auf den MS MARCO V2-Sammlungen
Reproduktion von LTR-Filterexperimenten: MS MARCO V1 Passage, MS MARCO V1 Document
Reproduktion von IRST-Experimenten auf den MS MARCO V1 Collections
Reproduzieren von DeepImpact: MS MARCO V1 Passage
Reproduktion von uniCOIL mit doc2query-T5: MS MARCO V1, MS MARCO V2
Reproduktion von uniCOIL mit TILDE: MS MARCO V1 Passage, MS MARCO V2 Passage
Reproduktion von SPLADEv2: MS MARCO V1 Passage
Reproduktion von Mr. TyDi-Experimenten
Reproduktion der BM25-Basislinien für HC4
Reproduktion der BM25-Basislinien für HC4 auf NeuCLIR22
Reproduktion von SLIM-Experimenten
Grundlagen für KILT: ein Maßstab für wissensintensive Sprachaufgaben
Baselines für TripClick: ein umfangreicher Datensatz von Klickprotokollen im Gesundheitsbereich
Basislinien (in Anserini) für den FEVER-Datensatz (Fact Extraction and VERification).

Dichtes Abrufen

Reproduktion von TCT-ColBERTv1-Experimenten: MS MARCO V1
Reproduktion von TCT-ColBERTv2-Experimenten: MS MARCO V1, MS MARCO V2
Reproduktion von DPR-Experimenten
Reproduktion von BPR-Experimenten
Reproduktion von ANCE-Experimenten
Reproduktion von DistilBERT KD-Experimenten
Reproduktion von DistilBERT Balanced Topic Aware Sampling-Experimenten
Reproduktion von SBERT-Dense-Retrieval-Experimenten
Reproduktion von ADORE-Dense-Retrieval-Experimenten
Reproduktion von Vektor-PRF-Experimenten
Reproduktion von ANCE-PRF-Experimenten
Reproduktion von Mr. TyDi-Experimenten
Reproduktion von DKRR-Experimenten

Hybrider Sparse-Dense-Retrieval

Reproduktion von uniCOIL + TCT-ColBERTv2-Experimenten auf den MS MARCO V2-Sammlungen

Verfügbare Korpora

Korpora	Größe	Prüfsumme
MS MARCO V1-Passage: uniCOIL (noexp)	2,7 GB	`f17ddd8c7c00ff121c3c3b147d2e17d8`
MS MARCO V1-Passage: uniCOIL (d2q-T5)	3,4 GB	`78eef752c78c8691f7d61600ceed306f`
MS MARCO V1-Dokument: uniCOIL (noexp)	11 GB	`11b226e1cacd9c8ae0a660fd14cdd710`
MS MARCO V1 Dokument: uniCOIL (d2q-T5)	19 GB	`6a00e2c0c375cb1e52c83ae5ac377ebb`
MS MARCO V2-Passage: uniCOIL (noexp)	24 GB	`d9cc1ed3049746e68a2c91bf90e5212d`
MS MARCO V2-Passage: uniCOIL (d2q-T5)	41 GB	`1949a00bfd5e1f1a230a04bbc1f01539`
MS MARCO V2-Dokument: uniCOIL (noexp)	55 GB	`97ba262c497164de1054f357caea0c63`
MS MARCO V2 Dokument: uniCOIL (d2q-T5)	72 GB	`c5639748c2cbad0152e10b0ebde3b804`

? Zusätzliche Dokumentation

Leitfaden zu vorgefertigten Indizes
Leitfaden zur interaktiven Suche
Leitfaden zur Textklassifizierung mit dem 20Newsgroups-Datensatz
Leitfaden zur Arbeit mit dem COVID-19 Open Research Dataset (CORD-19)
Leitfaden zum Arbeiten mit Entitätsverknüpfungen
Leitfaden zur Arbeit mit spaCy
Verwendung der Analyser-API
Nutzung der Index Reader API
Verwendung der Query Builder API
Nutzung der Collection API
Direkte Interaktion über Pyjnius

️ Veröffentlichungsverlauf

v0.43.0 (mit Anserini v0.38.0): 11. November 2024 [Versionshinweise]
v0.42.0 (mit Anserini v0.38.0): 8. November 2024 [Versionshinweise] [Bekannte Probleme]
v0.41.0 (mit Anserini v0.38.0): 7. November 2024 [Versionshinweise] [Bekannte Probleme]
v0.40.0 (mit Anserini v0.38.0): 28. Oktober 2024 [Versionshinweise]
v0.39.0 (mit Anserini v0.38.0): 27. September 2024 [Versionshinweise]
v0.38.0 (mit Anserini v0.38.0): 11. September 2024 [Versionshinweise]
v0.37.0 (mit Anserini v0.37.0): 26. August 2024 [Versionshinweise]
v0.36.0 (mit Anserini v0.36.1): 17. Juni 2024 [Versionshinweise]
v0.35.0 (mit Anserini v0.35.0): 4. April 2024 [Versionshinweise]

älter... (und historische Notizen)

v0.25.0 (mit Anserini v0.25.0): 31. März 2024 [Versionshinweise]
v0.24.0 (mit Anserini v0.24.0): 28. Dezember 2023 [Versionshinweise]
v0.23.0 (mit Anserini v0.23.0): 17. November 2023 [Versionshinweise]
v0.22.1 (mit Anserini v0.22.1): 19. Oktober 2023 [Versionshinweise]
v0.22.0 (mit Anserini v0.22.0): 31. August 2023 [Versionshinweise]
v0.21.0 (mit Anserini v0.21.0): 6. April 2023 [Versionshinweise]
v0.20.0 (mit Anserini v0.20.0): 1. Februar 2023 [Versionshinweise]
v0.19.2 (mit Anserini v0.16.2): 16. Dezember 2022 [Versionshinweise]
v0.19.1 (mit Anserini v0.16.1): 12. November 2022 [Versionshinweise]
v0.19.0 (mit Anserini v0.16.1): 2. November 2022 [Versionshinweise] [Bekannte Probleme]
v0.18.0 (mit Anserini v0.15.0): 26. September 2022 [Versionshinweise] (Erste Veröffentlichung basierend auf Lucene 9)
v0.17.1 (mit Anserini v0.14.4): 13. August 2022 [Versionshinweise] (Endgültige Version basierend auf Lucene 8)
v0.17.0 (mit Anserini v0.14.3): 28. Mai 2022 [Versionshinweise]
v0.16.1 (mit Anserini v0.14.3): 12. Mai 2022 [Versionshinweise]
v0.16.0 (mit Anserini v0.14.1): 1. März 2022 [Versionshinweise]
v0.15.0 (mit Anserini v0.14.0): 21. Januar 2022 [Versionshinweise]
v0.14.0 (mit Anserini v0.13.5): 8. November 2021 [Versionshinweise]
v0.13.0 (mit Anserini v0.13.1): 3. Juli 2021 [Versionshinweise]
v0.12.0 (mit Anserini v0.12.0): 5. Mai 2021 [Versionshinweise]
v0.11.0.0: 18. Februar 2021 [Versionshinweise]
v0.10.1.0: 8. Januar 2021 [Versionshinweise]
v0.10.0.1: 2. Dezember 2020 [Versionshinweise]
v0.10.0.0: 26. November 2020 [Versionshinweise]
v0.9.4.0: 26. Juni 2020 [Versionshinweise]
v0.9.3.1: 11. Juni 2020 [Versionshinweise]
v0.9.3.0: 27. Mai 2020 [Versionshinweise]
v0.9.2.0: 15. Mai 2020 [Versionshinweise]
v0.9.1.0: 6. Mai 2020 [Versionshinweise]
v0.9.0.0: 18. April 2020 [Versionshinweise]
v0.8.1.0: 22. März 2020 [Versionshinweise]
v0.8.0.0: 12. März 2020 [Versionshinweise]
v0.7.2.0: 25. Januar 2020 [Versionshinweise]
v0.7.1.0: 9. Januar 2020 [Versionshinweise]
v0.7.0.0: 13. Dezember 2019 [Versionshinweise]
v0.6.0.0: 2. November 2019

️ Historische Notizen

⁉️ Übergang von Lucene 8 zu Lucene 9. Im Jahr 2022 wurde Pyserini von Lucene 8 auf Lucene 9 umgestellt. Die meisten vorgefertigten Indizes wurden mit Lucene 9 neu erstellt, einige basieren jedoch immer noch auf Lucene 8.

Weitere Details:

PyPI v0.17.1 (Commit 33c87c , veröffentlicht am 13.08.2022) ist die letzte Pyserini-Version, die auf Lucene 8 basiert und auf Anserini v0.14.4 basiert. Danach wurde der Anserini-Kofferraum auf Lucene 9 aufgerüstet.
PyPI v0.18.0 (Commit 5fab14 , veröffentlicht am 26.09.2022) basiert auf Anserini v0.15.0 und verwendet Lucene 9. Danach wurde der Pyserini-Trunk auf Lucene 9 erweitert.

Erläuterungen:

Was sind die Auswirkungen? Mit Lucene 8 erstellte Indizes sind nicht vollständig mit Lucene 9-Code kompatibel (siehe Anserini #1952). Die Problemumgehung besteht darin, das konsistente Tie-Breaking zu deaktivieren. Dies erfolgt automatisch, wenn Pyserini einen Lucene 8-Index erkennt. Allerdings liefert Lucene 9-Code, der auf Lucene 8-Indizes ausgeführt wird, etwas andere Ergebnisse als Lucene 8-Code, der auf Lucene 8-Indizes ausgeführt wird. Beachten Sie, dass Lucene 8-Code keine mit Lucene 9 erstellten Indizes lesen kann.
Warum ist das notwendig? Obwohl störend, ist ein Upgrade auf Lucene 9 erforderlich, um die HNSW-Indizes von Lucene nutzen zu können, was die Fähigkeiten von Pyserini erhöht und den Designraum für dichte/spärliche Hybride öffnet.

Mit v0.11.0.0 und früheren Versionen haben Pyserini-Versionen die Konvention XYZW übernommen, wobei XYZ die Version von Anserini verfolgt und W zur Unterscheidung verschiedener Versionen auf der Python-Seite verwendet wird. Ab Anserini v0.12.0 wurden die Versionen Anserini und Pyserini entkoppelt.

Anserini ist für die Zusammenarbeit mit JDK 11 konzipiert. Über JDK 9 gab es eine JRE-Pfadänderung, die Pyjnius 1.2.0 beschädigt, wie in dieser Ausgabe dokumentiert, über die auch in Anserini hier und hier berichtet wird. Dieses Problem wurde mit Pyjnius 1.2.1 (veröffentlicht im Dezember 2019) behoben. Der vorherige Fehler wurde in diesem Notizbuch dokumentiert und dieses Notizbuch dokumentiert die Fehlerbehebung.

Referenzen

Wenn Sie Pyserini verwenden, zitieren Sie bitte das folgende Dokument:

 @INPROCEEDINGS{Lin_etal_SIGIR2021_Pyserini,
   author = "Jimmy Lin and Xueguang Ma and Sheng-Chieh Lin and Jheng-Hong Yang and Ronak Pradeep and Rodrigo Nogueira",
   title = "{Pyserini}: A {Python} Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations",
   booktitle = "Proceedings of the 44th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2021)",
   year = 2021,
   pages = "2356--2362",
}