Download anserini - download do código-fonte anserini

anserini

Outro código-fonte

Baixar

Anserini

Anserini é um kit de ferramentas para pesquisa reproduzível de recuperação de informação. Ao desenvolver o Lucene, pretendemos preencher a lacuna entre a pesquisa acadêmica de recuperação de informação e a prática de construção de aplicações de pesquisa do mundo real. Entre outros objetivos, nosso esforço visa ser o oposto disso.* Anserini surgiu de um estudo de reprodutibilidade de vários mecanismos de recuperação de código aberto em 2016 (Lin et al., ECIR 2016). Veja Yang et al. (SIGIR 2017) e Yang et al. (JDIQ 2018) para visões gerais.

❗ Anserini foi atualizado do JDK 11 para JDK 21 no commit 272565 (2024/04/03), que corresponde ao lançamento da v0.35.0.

? Experimente!

O Anserini é embalado em um fatjar independente, que também fornece a maneira mais simples de começar. Supondo que você já tenha o Java instalado, busque o fatjar:

wget https://repo1.maven.org/maven2/io/anserini/anserini/0.38.0/anserini-0.38.0-fatjar.jar

Os comandos a seguir irão gerar uma execução SPLADE++ ED com as consultas dev (codificadas usando ONNX) no corpus de passagem MS MARCO:

java -cp anserini-0.38.0-fatjar.jar io.anserini.search.SearchCollection 
  -index msmarco-v1-passage.splade-pp-ed 
  -topics msmarco-v1-passage.dev 
  -encoder SpladePlusPlusEnsembleDistil 
  -output run.msmarco-v1-passage-dev.splade-pp-ed-onnx.txt 
  -impact -pretokenized

Para avaliar:

java -cp anserini-0.38.0-fatjar.jar trec_eval -c -M 10 -m recip_rank msmarco-passage.dev-subset run.msmarco-v1-passage-dev.splade-pp-ed-onnx.txt

Veja instruções detalhadas para a versão atual do fatjar do Anserini (v0.38.0) para reproduzir experimentos de regressão nos corpora MS MARCO V2.1 para TREC 2024 RAG, no MS MARCO V1 Passage e no BEIR, tudo diretamente do fatjar!

Além disso, o Anserini vem com um webapp integrado para consultas interativas junto com uma API REST que pode ser usada por outros aplicativos. Confira nossa documentação aqui.

Instruções mais antigas

Anserini v0.37.0
Anserini v0.36.1
Anserini v0.36.0
Anserini v0.35.1
Anserini v0.35.0

? Instalação

A maioria dos recursos do Anserini são expostos na interface Pyserini Python. Se você se sentir mais confortável com Python, comece por aí, embora o Anserini seja um importante alicerce do Pyserini, por isso vale a pena aprender sobre o Anserini.

Você precisará do Java 21 e do Maven 3.9+ para construir o Anserini. Clone nosso repositório com a opção --recurse-submodules para garantir que o eval/ submódulo também seja clonado (como alternativa, use git submodule update --init ). Em seguida, construa usando Maven:

 mvn clean package

O diretório tools/ , que contém ferramentas de avaliação e outros scripts, é na verdade este repositório, integrado como um submódulo Git (para que possa ser compartilhado entre projetos relacionados). Construa da seguinte maneira (você pode receber avisos, mas pode ignorar):

 cd tools/eval && tar xvfz trec_eval.9.0.4.tar.gz && cd trec_eval.9.0.4 && make && cd ../../..
cd tools/eval/ndeval && make && cd ../../..

Com isso, você deve estar pronto para ir. O caminho de integração do Anserini começa aqui!

Dicas do Windows

Se você estiver usando Windows, use WSL2 para construir o Anserini. Consulte o documento de instalação do WSL2 para instalar o WSL2, caso ainda não o tenha feito.

Observe que no Windows sem WSL2, os testes podem falhar devido a problemas de codificação, consulte #1466. Uma solução simples é pular os testes adicionando -Dmaven.test.skip=true ao comando mvn acima. Consulte #1121 para discussões adicionais sobre depuração de erros de compilação do Windows.

⚗️ Experimentos de regressão ponta a ponta

O Anserini foi projetado para oferecer suporte a experimentos completos em várias coleções de testes IR padrão prontos para uso. Cada uma dessas regressões ponta a ponta começa no corpus bruto, constrói o índice necessário, executa execuções de recuperação e gera resultados de avaliação. Consulte as páginas individuais para obter detalhes.

Regressões de passagem MS MARCO V1

	desenvolvedor	DL19	DL20
Esparso não supervisionado
Linhas de base Lucene BoW	?	?	?
BM25 quantizado	?	?	?
Linhas de base do WordPiece (pré-tokenizadas)	?	?	?
Linhas de base do WordPiece (Huggingface)	?	?	?
Linhas de base WordPiece + Lucene BoW	?	?	?
doc2query	?
doc2query-T5	?	?	?
Aprendeu esparso (família uniCOIL)
uniCOIL noexp	?	?	?
uniCOIL com doc2query-T5	?	?	?
uniCOIL com TILDE	?
Aprendi escasso (outro)
Impacto Profundo	?
SPLADEv2	?
SPLADE++ CoCondenser-EnsembleDistil	? ?️	? ?️	? ?️
SPLADE++ CoCondenser-SelfDistil	? ?️	? ?️	? ?️
Densa aprendida (índices HNSW)
cosDPR-destilar	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
BGE-base-pt-v1.5	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
OpenAI Ada2	completo:? int8:?	completo:? int8:?	completo:? int8:?
Cohere Inglês v3.0	completo:? int8:?	completo:? int8:?	completo:? int8:?
Densa aprendida (índices planos)
cosDPR-destilar	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
BGE-base-pt-v1.5	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
OpenAI Ada2	completo:? int8:?️	completo:? int8:?	completo:? int8:?
Cohere Inglês v3.0	completo:? int8:?	completo:? int8:?	completo:? int8:?
Densa aprendida (invertida; experimental)
cosDPR-distil com "palavras falsas"	?	?	?
cosDPR-distil com "LexLSH"	?	?	?

Chave:

? = consultas de palavras-chave
"full" = precisão flutuante completa de 32 bits
"int8" = precisão quantizada de 8 bits
? = consultas em cache, ?️ = codificação de consulta com ONNX

Corpora disponíveis para download

Corpos	Tamanho	Soma de verificação
BM25 quantizado	1,2GB	`0a623e2c97ac6b7e814bf1323a97b435`
uniCOIL (noexp)	2,7GB	`f17ddd8c7c00ff121c3c3b147d2e17d8`
uniCOIL (d2q-T5)	3,4GB	`78eef752c78c8691f7d61600ceed306f`
uniCOIL (TILDE)	3,9GB	`12a9c289d94e32fd63a7d39c9677d75c`
Impacto Profundo	3,6GB	`73843885b503af3c8b3ee62e5f5a9900`
SPLADEv2	9,9GB	`b5d126f5d9a8e1b3ef3f5cb0ba651725`
SPLADE++ CoCondenser-EnsembleDistil	4,2GB	`e489133bdc54ee1e7c62a32aa582bc77`
SPLADE++ CoCondenser-SelfDistil	4,8GB	`cb7e264222f2bf2221dd2c9d28190be1`
cosDPR-destilar	57 GB	`e20ffbc8b5e7f760af31298aefeaebbd`
BGE-base-pt-v1.5	59GB	`353d2c9e72e858897ad479cca4ea0db1`
OpenAI-ada2	109GB	`a4d843d522ff3a3af7edbee789a63402`
Cohere incorporar-english-v3.0	38 GB	`06a6e38a0522850c6aa504db7b2617f5`

Regressões de documentos MS MARCO V1

	desenvolvedor	DL19	DL20
Lexical não supervisionado, documento completo *
Linhas de base Lucene BoW	+	+	+
Linhas de base do WordPiece (pré-tokenizadas)	+	+	+
Linhas de base do WordPiece (tokenizer Huggingface)	+	+	+
Linhas de base WordPiece + Lucene BoW	+	+	+
doc2query-T5	+	+	+
Documento lexical não supervisionado e segmentado *
Linhas de base Lucene BoW	+	+	+
Linhas de base do WordPiece (pré-tokenizadas)	+	+	+
Linhas de base WordPiece + Lucene BoW	+	+	+
doc2query-T5	+	+	+
Lexical esparso aprendido
uniCOIL noexp	✓	✓	✓
uniCOIL com doc2query-T5	✓	✓	✓

Corpora disponíveis para download

Corpos	Tamanho	Soma de verificação
Documento MS MARCO V1: uniCOIL (noexp)	11GB	`11b226e1cacd9c8ae0a660fd14cdd710`
Documento MS MARCO V1: uniCOIL (d2q-T5)	19GB	`6a00e2c0c375cb1e52c83ae5ac377ebb`

Regressões de passagem MS MARCO V2

	desenvolvedor	DL21	DL22	DL23
Lexical não supervisionado, Corpus Original
linhas de base	+	+	+	+
doc2query-T5	+	+	+	+
Corpus Lexical Não Supervisionado e Aumentado
linhas de base	+	+	+	+
doc2query-T5	+	+	+	+
Lexical esparso aprendido
uniCOIL noexp tiro zero	✓	✓	✓	✓
uniCOIL com doc2query-T5 tiro zero	✓	✓	✓	✓
SPLADE++ CoCondenser-EnsembleDistil (consultas em cache)	✓	✓	✓	✓
SPLADE++ CoCondenser-EnsembleDistil (ONNX)	✓	✓	✓	✓
SPLADE++ CoCondenser-SelfDistil (consultas em cache)	✓	✓	✓	✓
SPLADE++ CoCondenser-SelfDistil (ONNX)	✓	✓	✓	✓

Corpora disponíveis para download

Corpos	Tamanho	Soma de verificação
uniCOIL (noexp)	24GB	`d9cc1ed3049746e68a2c91bf90e5212d`
uniCOIL (d2q-T5)	41GB	`1949a00bfd5e1f1a230a04bbc1f01539`
SPLADE++ CoCondenser-EnsembleDistil	66 GB	`2cdb2adc259b8fa6caf666b20ebdc0e8`
SPLADE++ CoCondenser-SelfDistil	76 GB	`061930dd615c7c807323ea7fc7957877`

Regressões de documentos MS MARCO V2

	desenvolvedor	DL21	DL22	DL23
Lexical não supervisionado, documento completo
linhas de base	+	+	+	+
doc2query-T5	+	+	+	+
Documento lexical não supervisionado e segmentado
linhas de base	+	+	+	+
doc2query-T5	+	+	+	+
Lexical esparso aprendido
uniCOIL noexp tiro zero	✓	✓	✓	✓
uniCOIL com doc2query-T5 tiro zero	✓	✓	✓	✓

Corpora disponíveis para download

Corpos	Tamanho	Soma de verificação
Documento MS MARCO V2: uniCOIL (noexp)	55 GB	`97ba262c497164de1054f357caea0c63`
Documento MS MARCO V2: uniCOIL (d2q-T5)	72GB	`c5639748c2cbad0152e10b0ebde3b804`

Regressões de documentos MS MARCO V2.1

Os corpora MS MARCO V2.1 foram derivados dos corpora V2 para o TREC 2024 RAG Track. Os experimentos abaixo capturam tópicos e qrels originalmente direcionados aos corpora V2, mas foram "projetados" para os corpora V2.1.

	desenvolvedor	DL21	DL22	DL23	Desenvolvedor RAGgy
Lexical não supervisionado, documento completo
linhas de base	+	+	+	+	+
Documento lexical não supervisionado e segmentado
linhas de base	+	+	+	+	+

Regressões BEIR (v1.0.0)

Chave:

F1 = linha de base "plana" (analisador Lucene), consultas de palavras-chave (?)
F2 = linha de base "plana" (pré-tokenizada com tokenizer bert-base-uncased ), consultas de palavras-chave (?)
MF = linha de base "multifield" (analisador Lucene), consultas de palavras-chave (?)
U1 = uniCOIL (noexp), consultas em cache (?)
S1 = SPLADE++ CoCondenser-EnsembleDistil: consultas em cache (?), ONNX ( ?️ )
BGE (plano) = BGE-base-en-v1.5 (índices planos)
- índices originais (float32): consultas em cache (?), ONNX ( ?️ )
- índices quantizados (int8): consultas em cache (?), ONNX ( ?️ )
BGE (HNSW) = BGE-base-en-v1.5 (índices HNSW)
- índices originais (float32): consultas em cache (?), ONNX ( ?️ )
- índices quantizados (int8): consultas em cache (?), ONNX ( ?️ )

Veja as instruções abaixo da tabela sobre como reproduzir os resultados de um modelo em todos os corpora BEIR "de uma só vez".

Corpus	F1	F2	MF	U1	S1	BGE (plano)	BGE (HNSW)
TREC-COVID	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
BioASQ	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
NFC Corpus	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
QN	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
HotpotQA	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
FiQA-2018	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Sinal-1M(RT)	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
TREC-NOTÍCIAS	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Robusto04	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
ArguAna	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Toque2020	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Android	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Inglês	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Gaming	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Gis	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Mathematica	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Física	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Programadores CQADupStack	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Estatísticas CQADupStack	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Tex	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Unix	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Webmasters	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
CQADupStack-Wordpress	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Quora	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
DBPedia	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
SCIDOCS	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
FEBRE	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Clima-FEBRE	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️
Fato científico	?	?	?	?	? ?️	completo:? ?️ int8:? ?️	completo:? ?️ int8:? ?️

Para reproduzir os resultados do SPLADE++ CoCondenser-EnsembleDistil, comece baixando a coleção:

wget https://rgw.cs.uwaterloo.ca/pyserini/data/beir-v1.0.0-splade-pp-ed.tar -P collections/
tar xvf collections/beir-v1.0.0-splade-pp-ed.tar -C collections/

O tarball tem 42 GB e possui soma de verificação MD5 9c7de5b444a788c9e74c340bf833173b . Depois de descompactar os dados, os comandos a seguir farão um loop em todos os corpora BEIR e executarão as regressões:

MODEL= " splade-pp-ed " ; CORPORA=(trec-covid bioasq nfcorpus nq hotpotqa fiqa signal1m trec-news robust04 arguana webis-touche2020 cqadupstack-android cqadupstack-english cqadupstack-gaming cqadupstack-gis cqadupstack-mathematica cqadupstack-physics cqadupstack-programmers cqadupstack-stats cqadupstack-tex cqadupstack-unix cqadupstack-webmasters cqadupstack-wordpress quora dbpedia-entity scidocs fever climate-fever scifact) ; for c in " ${CORPORA[@]} "
do
    echo " Running $c ... "
    python src/main/python/run_regression.py --index --verify --search --regression beir-v1.0.0- ${c} . ${MODEL} .onnx > logs/log.beir-v1.0.0- ${c} - ${MODEL} .onnx 2>&1
done

Você pode verificar os resultados examinando os arquivos de log em logs/ .

Para os outros modelos, modifique os comandos acima da seguinte forma:

Chave	Corpus	Soma de verificação	`MODEL`
F1	`corpus`	`faefd5281b662c72ce03d22021e4ff6b`	`flat`
F2	`corpus-wp`	`3cf8f3dcdcadd49362965dd4466e6ff2`	`flat-wp`
MF	`corpus`	`faefd5281b662c72ce03d22021e4ff6b`	`multifield`
U1	`unicoil-noexp`	`4fd04d2af816a6637fc12922cccc8a83`	`unicoil-noexp`
S1	`splade-pp-ed`	`9c7de5b444a788c9e74c340bf833173b`	`splade-pp-ed`
BGE	`bge-base-en-v1.5`	`e4e8324ba3da3b46e715297407a24f00`	`bge-base-en-v1.5-hnsw`

O "Corpus" acima deve ser substituído pelo nome completo do arquivo beir-v1.0.0-${corpus}.tar , por exemplo, beir-v1.0.0-bge-base-en-v1.5.tar . Os comandos acima devem funcionar com algumas pequenas modificações: você precisará ajustar o parâmetro --regression para corresponder ao esquema dos arquivos de configuração YAML em src/main/resources/regression/ .

Regressões multilíngues e multilíngues

Regressões para linhas de base do Sr. TyDi (v1.1): ar, bn, en, fi, id, ja, ko, ru, sw, te, th
Regressões para linhas de base MIRACL (v1.0): ar, bn, en, es, fa, fi, fr, hi, id, ja, ko, ru, sw, te, th, zh
Regressões para TREC 2022 NeuCLIR Track BM25 (tradução de consulta): persa, russo, chinês
Regressões para TREC 2022 NeuCLIR Track BM25 (tradução de documentos): persa, russo, chinês
Regressões para TREC 2022 NeuCLIR Track SPLADE (tradução de consulta): persa, russo, chinês
Regressões para TREC 2022 NeuCLIR Track SPLADE (tradução de documentos): persa, russo, chinês
Regressões para linhas de base HC4 (v1.0) em corpora HC4: persa, russo, chinês
Regressões para linhas de base HC4 (v1.0) em corpora NeuCLIR22 originais: persa, russo, chinês
Regressões para linhas de base HC4 (v1.0) em corpora NeuCLIR22 traduzidos: persa, russo, chinês
Regressões para NTCIR-8 ACLIA (subtarefa IR4QA, chinês monolíngue)
Regressões para CLEF 2006 Francês Monolíngue
Regressões para TREC 2002 Árabe Monolíngue
Regressões para linhas de base monolíngues do FIRE 2012: bengali, hindi, inglês
Regressões para CIRAL (v1.0) BM25 (tradução de consulta): Hausa, Somali, Swahili, Yoruba
Regressões para CIRAL (v1.0) BM25 (tradução de documentos): Hausa, Somali, Swahili, Yoruba

Outras regressões

Regressões para Discos 1 e 2 (TREC 1-3), Discos 4 e 5 (TREC 7-8, Robust04), AQUAINT (Robust05)
Regressões para o New York Times Corpus (Core17), o Washington Post Corpus (Core18)
Regressões para Wt10g, Gov2
Regressões para ClueWeb09 (Categoria B), ClueWeb12-B13, ClueWeb12
Regressões para Tweets2011 (MB11 e MB12), Tweets2013 (MB13 e MB14)
Regressões para recuperação de respostas complexas (CAR17): v1.5, v2.0, v2.0 com doc2query
Regressões para trilhas de notícias TREC (tarefa de vinculação em segundo plano): 2018, 2019, 2020
Regressões para verificação de fatos FEVER
Regressões para linhas de base de controle de qualidade da Wikipedia DPR: divisões de 100 palavras, sentenças de janela deslizante de 6/3

? Documentação Adicional

Os experimentos descritos abaixo não estão associados a testes de regressão rigorosos de ponta a ponta e, portanto, fornecem um padrão mais baixo de reprodutibilidade. Na maioria das vezes, é necessário copiar e colar manualmente comandos em um shell para reproduzir nossos resultados.

MS MARCO V1

Reproduzindo linhas de base BM25 para MS MARCO Passage Ranking
Reproduzindo linhas de base BM25 para classificação de documentos MS MARCO
Reproduzindo linhas de base para o MS MARCO Document Ranking Leaderboard
Reproduzindo resultados doc2query (MS MARCO Passage Ranking e TREC-CAR)
Reproduzindo resultados docTTTTTquery (passagem MS MARCO e classificação de documentos)
Notas sobre problemas de reprodução com classificação de documentos MS MARCO com docTTTTTquery

MS MARCO V2

Reproduzindo linhas de base BM25 nas coleções MS MARCO V2

TREC-COVID e CORD-19

Indexando o conjunto de dados de pesquisa aberta COVID-19 da AI2
Linhas de base para o Desafio TREC-COVID
Linhas de base para o Desafio TREC-COVID usando doc2query

Outras experiências e recursos

Trabalhando com o conjunto de dados de 20 grupos de notícias
Guia para linhas de base BM25 para a tarefa de verificação de fatos FEVER
Guia para reproduzir experimentos "Neural Hype"
Guia para realizar experimentos no AI2 Open Research Corpus
Experimentos de Yang et al. (JDIQ 2018)
Runbooks para TREC 2018: [grupo Anserini] [grupo h2oloo]
Runbook para artigo do ECIR 2019 sobre correspondência semântica axiomática de termos
Runbook para documento do ECIR 2019 sobre feedback de relevância entre coleções
Suporte para pesquisa aproximada do vizinho mais próximo em vetores densos com índices invertidos

? Como posso contribuir?

Se você achou que Anserini foi útil, temos um simples pedido para que você contribua de volta. Durante a reprodução dos resultados da linha de base em coleções de testes padrão, informe-nos se tiver êxito, enviando-nos uma solicitação pull com uma nota simples, como a que aparece na parte inferior da página para os Discos 4 e 5. A reprodutibilidade é importante para nós, e gostaríamos de saber sobre sucessos e fracassos. Como a documentação de regressão é gerada automaticamente, as solicitações pull devem ser enviadas contra os modelos brutos. Em seguida, a documentação de regressão pode ser gerada usando o script bin/build.sh . Por sua vez, você será reconhecido como um contribuidor.

Além disso, sempre há questões em aberto para as quais gostaríamos de receber ajuda!

️ Histórico de lançamento

v0.38.0: 6 de setembro de 2024 [Notas de versão]
v0.37.0: 22 de agosto de 2024 [Notas de versão]
v0.36.1: 23 de maio de 2024 [Notas de versão]
v0.36.0: 28 de abril de 2024 [Notas de versão]
v0.35.1: 24 de abril de 2024 [Notas de versão]
v0.35.0: 3 de abril de 2024 [Notas de versão]
v0.25.0: 27 de março de 2024 [Notas de versão]
v0.24.2: 27 de fevereiro de 2024 [Notas de versão]
v0.24.1: 27 de janeiro de 2024 [Notas de versão]
v0.24.0: 28 de dezembro de 2023 [Notas de versão]
v0.23.0: 16 de novembro de 2023 [Notas de versão]
v0.22.1: 18 de outubro de 2023 [Notas de versão]
v0.22.0: 28 de agosto de 2023 [Notas de versão]
v0.21.0: 31 de março de 2023 [Notas de versão]
v0.20.0: 20 de janeiro de 2023 [Notas de versão]

mais antigo... (e notas históricas)

v0.16.2: 12 de dezembro de 2022 [Notas de versão]
v0.16.1: 2 de novembro de 2022 [Notas de versão]
v0.16.0: 23 de outubro de 2022 [Notas de versão]
v0.15.0: 22 de setembro de 2022 [Notas de versão]
v0.14.4: 31 de julho de 2022 [Notas de versão]
v0.14.3: 9 de maio de 2022 [Notas de versão]
v0.14.2: 24 de março de 2022 [Notas de versão]
v0.14.1: 27 de fevereiro de 2022 [Notas de versão]
v0.14.0: 10 de janeiro de 2022 [Notas de versão]
v0.13.5: 2 de novembro de 2021 [Notas de versão]
v0.13.4: 22 de outubro de 2021 [Notas de versão]
v0.13.3: 22 de agosto de 2021 [Notas de versão]
v0.13.2: 20 de julho de 2021 [Notas de versão]
v0.13.1: 29 de junho de 2021 [Notas de versão]
v0.13.0: 22 de junho de 2021 [Notas de versão]
v0.12.0: 29 de abril de 2021 [Notas de versão]
v0.11.0: 13 de fevereiro de 2021 [Notas de versão]
v0.10.1: 8 de janeiro de 2021 [Notas de versão]
v0.10.0: 25 de novembro de 2020 [Notas de versão]
v0.9.4: 25 de junho de 2020 [Notas de versão]
v0.9.3: 26 de maio de 2020 [Notas de versão]
v0.9.2: 14 de maio de 2020 [Notas de versão]
v0.9.1: 6 de maio de 2020 [Notas de versão]
v0.9.0: 18 de abril de 2020 [Notas de versão]
v0.8.1: 22 de março de 2020 [Notas de versão]
v0.8.0: 11 de março de 2020 [Notas de versão]
v0.7.2: 25 de janeiro de 2020 [Notas de versão]
v0.7.1: 9 de janeiro de 2020 [Notas de versão]
v0.7.0: 13 de dezembro de 2019 [Notas de versão]
v0.6.0: 6 de setembro de 2019 [Notas de versão] [Problemas conhecidos]
v0.5.1: 11 de junho de 2019 [Notas de versão]
v0.5.0: 5 de junho de 2019 [Notas de versão]
v0.4.0: 4 de março de 2019 [Notas de versão]
v0.3.0: 16 de dezembro de 2018 [Notas de versão]
v0.2.0: 10 de setembro de 2018 [Notas de versão]
v0.1.0: 4 de julho de 2018 [Notas de versão]

️ Notas Históricas

Anserini foi atualizado para Lucene 9.3 no commit 272565 (02/08/2022): esta atualização criou problemas de compatibilidade com versões anteriores, consulte #1952. Anserini detectará automaticamente os índices Lucene 8 e desabilitará o desempate consistente para evitar erros de tempo de execução. No entanto, o código Lucene 9 executado em índices Lucene 8 pode fornecer resultados ligeiramente diferentes do código Lucene 8 executado em índices Lucene 8. O código Lucene 8 não será executado em índices Lucene 9. O Pyserini também foi atualizado e problemas semelhantes se aplicam: o código Lucene 9 executado em índices Lucene 8 pode fornecer resultados ligeiramente diferentes do código Lucene 8 executado em índices Lucene 8.
Anserini foi atualizado para Java 11 no commit 17b702d (11/07/2019) do Java 8. Maven 3.3+ também é necessário.
Anserini foi atualizado para Lucene 8.0 a partir do commit 75e36f9 (12/06/2019); antes disso, o kit de ferramentas usa Lucene 7.6. Com base em experimentos preliminares, a latência de avaliação de consulta melhorou muito no Lucene 8. Como resultado dessa atualização, os resultados de todas as regressões mudaram ligeiramente. Para reproduzir resultados antigos do Lucene 7.6, use v0.5.1.

Referências

Jimmy Lin, Matt Crane, Andrew Trotman, Jamie Callan, Ishan Chattopadhyaya, John Foley, Grant Ingersoll, Craig Macdonald, Sebastiano Vigna. Rumo a linhas de base reproduzíveis: o desafio da reprodutibilidade de IR de código aberto. ECIR 2016 .
Peilin Yang, Hui Fang e Jimmy Lin. Anserini: Habilitando o Uso de Lucene para Pesquisa de Recuperação de Informação. SIGIR 2017 .
Peilin Yang, Hui Fang e Jimmy Lin. Anserini: linhas de base de classificação reproduzíveis usando Lucene. Revista de Qualidade de Dados e Informação , 10(4), Artigo 16, 2018.

Agradecimentos

Esta pesquisa é apoiada em parte pelo Conselho de Pesquisa em Ciências Naturais e Engenharia (NSERC) do Canadá. O apoio anterior veio da National Science Foundation dos EUA sob IIS-1423002 e CNS-1405688. Quaisquer opiniões, conclusões e conclusões ou recomendações expressas não refletem necessariamente as opiniões dos patrocinadores.

Expandir

Informações adicionais

Versão
Tipo Outro código-fonte
Data da Última Atualização 2024-12-27
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos