anserini 다운로드 - anserini 소스 코드 다운로드

anserini

기타 소스코드

다운로드

안세리니

Anserini는 재현 가능한 정보 검색 연구를 위한 툴킷입니다. Lucene을 기반으로 우리는 학문적 정보 검색 연구와 실제 검색 애플리케이션 구축 실무 간의 격차를 해소하는 것을 목표로 합니다. 다른 목표 중에서도 우리의 노력은 이와 반대되는 것을 목표로 합니다.* Anserini는 2016년 다양한 오픈 소스 검색 엔진에 대한 재현성 연구를 통해 성장했습니다(Lin et al., ECIR 2016). Yang et al. (SIGIR 2017) 및 Yang et al. (JDIQ 2018) 개요를 참조하세요.

❗ Anserini는 v0.35.0 릴리스에 해당하는 커밋 272565 (2024/04/03)에서 JDK 11에서 JDK 21로 업그레이드되었습니다.

? 시도해 보세요!

Anserini는 시작하는 가장 간단한 방법을 제공하는 독립형 fatjar에 패키지되어 있습니다. 이미 Java가 설치되어 있다고 가정하고 fatjar를 가져옵니다.

wget https://repo1.maven.org/maven2/io/anserini/anserini/0.38.0/anserini-0.38.0-fatjar.jar

다음 명령은 MS MARCO 구절 말뭉치에서 개발 쿼리(ONNX를 사용하여 인코딩됨)를 사용하여 SPLADE++ ED 실행을 생성합니다.

java -cp anserini-0.38.0-fatjar.jar io.anserini.search.SearchCollection 
  -index msmarco-v1-passage.splade-pp-ed 
  -topics msmarco-v1-passage.dev 
  -encoder SpladePlusPlusEnsembleDistil 
  -output run.msmarco-v1-passage-dev.splade-pp-ed-onnx.txt 
  -impact -pretokenized

평가하려면:

java -cp anserini-0.38.0-fatjar.jar trec_eval -c -M 10 -m recip_rank msmarco-passage.dev-subset run.msmarco-v1-passage-dev.splade-pp-ed-onnx.txt

Anserini(v0.38.0)의 현재 fatjar 릴리스에 대한 자세한 지침을 참조하여 TREC 2024 RAG용 MS MARCO V2.1 말뭉치, MS MARCO V1 Passage 및 BEIR에 대한 회귀 실험을 모두 fatjar에서 직접 재현하세요!

또한 Anserini에는 다른 애플리케이션에서 사용할 수 있는 REST API와 함께 대화형 쿼리를 위한 내장 웹앱이 함께 제공됩니다. 여기에서 설명서를 확인하세요.

이전 지침

안세리니 v0.37.0
안세리니 v0.36.1
안세리니 v0.36.0
안세리니 v0.35.1
안세리니 v0.35.0

? 설치

대부분의 Anserini 기능은 Pyserini Python 인터페이스에 표시됩니다. Anserini가 Pyserini의 중요한 구성 요소를 형성하지만 Python에 더 익숙하다면 거기서부터 시작하십시오. 따라서 Anserini에 대해 배우는 것이 여전히 가치가 있습니다.

Anserini를 빌드하려면 Java 21 및 Maven 3.9 이상이 필요합니다. --recurse-submodules 옵션을 사용하여 저장소를 복제하여 eval/ 하위 모듈도 복제되는지 확인하세요(또는 git submodule update --init 사용). 그런 다음 Maven을 사용하여 빌드합니다.

 mvn clean package

평가 도구와 기타 스크립트가 포함된 tools/ 디렉토리는 실제로 Git 하위 모듈로 통합된 이 저장소입니다(관련 프로젝트 간에 공유할 수 있음). 다음과 같이 빌드하세요(경고가 표시될 수 있지만 무시해도 됩니다).

 cd tools/eval && tar xvfz trec_eval.9.0.4.tar.gz && cd trec_eval.9.0.4 && make && cd ../../..
cd tools/eval/ndeval && make && cd ../../..

이제 준비가 완료되었습니다. Anserini의 온보딩 경로는 여기에서 시작됩니다!

윈도우 팁

Windows를 사용하는 경우 WSL2를 사용하여 Anserini를 빌드하세요. 아직 설치하지 않은 경우 WSL2 설치 문서를 참조하여 WSL2를 설치하세요.

WSL2가 없는 Windows에서는 인코딩 문제로 인해 테스트가 실패할 수 있습니다. #1466을 참조하세요. 간단한 해결 방법은 위의 mvn 명령에 -Dmaven.test.skip=true 추가하여 테스트를 건너뛰는 것입니다. Windows 빌드 오류 디버깅에 대한 추가 논의는 #1121을 참조하세요.

⚗️ 엔드투엔드 회귀 실험

Anserini는 다양한 표준 IR 테스트 컬렉션에 대한 엔드투엔드 실험을 즉시 지원하도록 설계되었습니다. 이러한 각 엔드투엔드 회귀는 원시 자료에서 시작하여 필요한 인덱스를 구축하고 검색 실행을 수행하고 평가 결과를 생성합니다. 자세한 내용은 개별 페이지를 참조하세요.

MS MARCO V1 통로 회귀

	개발자	DL19	DL20
비지도 스파스
Lucene BoW 기준선	?	?	?
양자화된 BM25	?	?	?
WordPiece 기준선(사전 토큰화됨)	?	?	?
WordPiece 기준선(Huggingface)	?	?	?
WordPiece + Lucene BoW 기준선	?	?	?
doc2query	?
doc2query-T5	?	?	?
학습된 스파스(uniCOIL 제품군)
유니코일 noexp	?	?	?
doc2query-T5를 사용한 uniCOIL	?	?	?
TILDE를 사용한 유니코일	?
학습된 스파스(기타)
딥임팩트	?
SPLADv2	?
SPLADE++ CoCondenser-EnsembleDistil	? ?️	? ?️	? ?️
SPLADE++ CoCondenser-SelfDistil	? ?️	? ?️	? ?️
학습된 밀도 (HNSW 인덱스)
cosDPR-distil	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
BGE-base-en-v1.5	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
오픈AI 에이다2	가득한:? int8:?	가득한:? int8:?	가득한:? int8:?
코히어 영어 v3.0	가득한:? int8:?	가득한:? int8:?	가득한:? int8:?
학습된 밀도 (플랫 인덱스)
cosDPR-distil	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
BGE-base-en-v1.5	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
오픈AI 에이다2	가득한:? int8:?️	가득한:? int8:?	가득한:? int8:?
코히어 영어 v3.0	가득한:? int8:?	가득한:? int8:?	가득한:? int8:?
학습된 밀도 (거꾸로, 실험적)
cosDPR-distil("가짜 단어" 포함)	?	?	?
cosDPR-distil("LexLSH" 포함)	?	?	?

열쇠:

? = 키워드 쿼리
"full" = 전체 32비트 부동 정밀도
"int8" = 양자화된 8비트 정밀도
? = 캐시된 쿼리, ?️ = ONNX를 사용한 쿼리 인코딩

다운로드 가능한 자료

말뭉치	크기	체크섬
양자화된 BM25	1.2GB	`0a623e2c97ac6b7e814bf1323a97b435`
유니코일(noexp)	2.7GB	`f17ddd8c7c00ff121c3c3b147d2e17d8`
유니코일(d2q-T5)	3.4GB	`78eef752c78c8691f7d61600ceed306f`
유니코일(틸드)	3.9GB	`12a9c289d94e32fd63a7d39c9677d75c`
딥임팩트	3.6GB	`73843885b503af3c8b3ee62e5f5a9900`
SPLADv2	9.9GB	`b5d126f5d9a8e1b3ef3f5cb0ba651725`
SPLADE++ CoCondenser-EnsembleDistil	4.2GB	`e489133bdc54ee1e7c62a32aa582bc77`
SPLADE++ CoCondenser-SelfDistil	4.8GB	`cb7e264222f2bf2221dd2c9d28190be1`
cosDPR-distil	57GB	`e20ffbc8b5e7f760af31298aefeaebbd`
BGE-base-en-v1.5	59GB	`353d2c9e72e858897ad479cca4ea0db1`
OpenAI-ada2	109GB	`a4d843d522ff3a3af7edbee789a63402`
Cohere embed-english-v3.0	38GB	`06a6e38a0522850c6aa504db7b2617f5`

MS MARCO V1 문서 회귀

	개발자	DL19	DL20
감독되지 않은 어휘, 완전한 문서 *
Lucene BoW 기준선	+	+	+
WordPiece 기준선(사전 토큰화됨)	+	+	+
WordPiece 기준선(Huggingface 토크나이저)	+	+	+
WordPiece + Lucene BoW 기준선	+	+	+
doc2query-T5	+	+	+
비지도 어휘, 분할 문서 *
Lucene BoW 기준선	+	+	+
WordPiece 기준선(사전 토큰화됨)	+	+	+
WordPiece + Lucene BoW 기준선	+	+	+
doc2query-T5	+	+	+
학습된 희소 어휘
유니코일 noexp	✓	✓	✓
doc2query-T5를 사용한 uniCOIL	✓	✓	✓

다운로드 가능한 자료

말뭉치	크기	체크섬
MS MARCO V1 문서: uniCOIL(noexp)	11GB	`11b226e1cacd9c8ae0a660fd14cdd710`
MS MARCO V1 문서: uniCOIL(d2q-T5)	19GB	`6a00e2c0c375cb1e52c83ae5ac377ebb`

MS MARCO V2 통로 회귀

	개발자	DL21	DL22	DL23
비지도 어휘, 원본 코퍼스
기준선	+	+	+	+
doc2query-T5	+	+	+	+
비지도 어휘, 증강 코퍼스
기준선	+	+	+	+
doc2query-T5	+	+	+	+
학습된 희소 어휘
uniCOIL noexp 제로샷	✓	✓	✓	✓
doc2query-T5 제로샷을 사용한 uniCOIL	✓	✓	✓	✓
SPLADE++ CoCondenser-EnsembleDistil(캐시된 쿼리)	✓	✓	✓	✓
SPLADE++ CoCondenser-EnsembleDistil(ONNX)	✓	✓	✓	✓
SPLADE++ CoCondenser-SelfDistil(캐시된 쿼리)	✓	✓	✓	✓
SPLADE++ CoCondenser-SelfDistil(ONNX)	✓	✓	✓	✓

다운로드 가능한 자료

말뭉치	크기	체크섬
유니코일(noexp)	24GB	`d9cc1ed3049746e68a2c91bf90e5212d`
유니코일(d2q-T5)	41GB	`1949a00bfd5e1f1a230a04bbc1f01539`
SPLADE++ CoCondenser-EnsembleDistil	66GB	`2cdb2adc259b8fa6caf666b20ebdc0e8`
SPLADE++ CoCondenser-SelfDistil	76GB	`061930dd615c7c807323ea7fc7957877`

MS MARCO V2 문서 회귀

	개발자	DL21	DL22	DL23
감독되지 않은 어휘, 완전한 문서
기준선	+	+	+	+
doc2query-T5	+	+	+	+
비지도 어휘, 세그먼트 문서
기준선	+	+	+	+
doc2query-T5	+	+	+	+
학습된 희소 어휘
uniCOIL noexp 제로샷	✓	✓	✓	✓
doc2query-T5 제로샷을 사용한 uniCOIL	✓	✓	✓	✓

다운로드 가능한 자료

말뭉치	크기	체크섬
MS MARCO V2 문서: uniCOIL(noexp)	55GB	`97ba262c497164de1054f357caea0c63`
MS MARCO V2 문서: uniCOIL(d2q-T5)	72GB	`c5639748c2cbad0152e10b0ebde3b804`

MS MARCO V2.1 문서 회귀

MS MARCO V2.1 말뭉치는 TREC 2024 RAG 트랙용 V2 말뭉치에서 파생되었습니다. 아래 실험은 원래 V2 말뭉치를 대상으로 했지만 V2.1 말뭉치로 "예측"된 주제와 qrel을 캡처합니다.

	개발자	DL21	DL22	DL23	RAGgy 개발
감독되지 않은 어휘, 완전한 문서
기준선	+	+	+	+	+
비지도 어휘, 세그먼트 문서
기준선	+	+	+	+	+

BEIR(v1.0.0) 회귀

열쇠:

F1 = "평탄한" 기준선(Lucene 분석기), 키워드 쿼리(?)
F2 = "플랫" 기준( bert-base-uncased 토크나이저로 사전 토큰화됨), 키워드 쿼리(?)
MF = "다중 필드" 기준(Lucene 분석기), 키워드 쿼리(?)
U1 = uniCOIL(noexp), 캐시된 쿼리(?)
S1 = SPLADE++ CoCondenser-EnsembleDistil: 캐시된 쿼리(?), ONNX( ?️ )
BGE(플랫) = BGE-base-en-v1.5(플랫 인덱스)
- 원본(float32) 인덱스: 캐시된 쿼리(?), ONNX( ?️ )
- 양자화(int8) 인덱스: 캐시된 쿼리(?), ONNX( ?️ )
BGE(HNSW) = BGE-base-en-v1.5(HNSW 인덱스)
- 원본(float32) 인덱스: 캐시된 쿼리(?), ONNX( ?️ )
- 양자화(int8) 인덱스: 캐시된 쿼리(?), ONNX( ?️ )

모든 BEIR 말뭉치에서 모델에 대한 결과를 "한 번에" 재현하는 방법은 표 아래 지침을 참조하세요.

신체	F1	F2	MF	U1	S1	BGE(플랫)	BGE (HNSW)
TREC-COVID	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
바이오ASQ	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
NFCorpus	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
NQ	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
핫팟QA	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
FiQA-2018	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
시그널-1M(RT)	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
TREC-뉴스	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
견고함04	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
아르구아나	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
터치2020	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-안드로이드	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-영어	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack 게임	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-Gis	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-Mathematica	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-물리학	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack 프로그래머	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-통계	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-Tex	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-유닉스	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-웹마스터	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
CQADupStack-워드프레스	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
쿼라	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
DB피디아	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
SCIDOCS	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
발열	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
기후 열병	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️
사이팩트	?	?	?	?	? ?️	가득한:? ?️ int8:? ?️	가득한:? ?️ int8:? ?️

SPLADE++ CoCondenser-EnsembleDistil 결과를 재현하려면 먼저 컬렉션을 다운로드하세요.

wget https://rgw.cs.uwaterloo.ca/pyserini/data/beir-v1.0.0-splade-pp-ed.tar -P collections/
tar xvf collections/beir-v1.0.0-splade-pp-ed.tar -C collections/

tarball은 42GB이고 MD5 체크섬은 9c7de5b444a788c9e74c340bf833173b 입니다. 데이터의 압축을 풀고 나면 다음 명령이 모든 BEIR 말뭉치를 반복하여 회귀를 실행합니다.

MODEL= " splade-pp-ed " ; CORPORA=(trec-covid bioasq nfcorpus nq hotpotqa fiqa signal1m trec-news robust04 arguana webis-touche2020 cqadupstack-android cqadupstack-english cqadupstack-gaming cqadupstack-gis cqadupstack-mathematica cqadupstack-physics cqadupstack-programmers cqadupstack-stats cqadupstack-tex cqadupstack-unix cqadupstack-webmasters cqadupstack-wordpress quora dbpedia-entity scidocs fever climate-fever scifact) ; for c in " ${CORPORA[@]} "
do
    echo " Running $c ... "
    python src/main/python/run_regression.py --index --verify --search --regression beir-v1.0.0- ${c} . ${MODEL} .onnx > logs/log.beir-v1.0.0- ${c} - ${MODEL} .onnx 2>&1
done

logs/ 의 로그 파일을 검사하여 결과를 확인할 수 있습니다.

다른 모델의 경우 위 명령을 다음과 같이 수정합니다.

열쇠	신체	체크섬	`MODEL`
F1	`corpus`	`faefd5281b662c72ce03d22021e4ff6b`	`flat`
F2	`corpus-wp`	`3cf8f3dcdcadd49362965dd4466e6ff2`	`flat-wp`
MF	`corpus`	`faefd5281b662c72ce03d22021e4ff6b`	`multifield`
U1	`unicoil-noexp`	`4fd04d2af816a6637fc12922cccc8a83`	`unicoil-noexp`
S1	`splade-pp-ed`	`9c7de5b444a788c9e74c340bf833173b`	`splade-pp-ed`
BGE	`bge-base-en-v1.5`	`e4e8324ba3da3b46e715297407a24f00`	`bge-base-en-v1.5-hnsw`

위의 "말뭉치"는 전체 파일 이름 beir-v1.0.0-${corpus}.tar 로 대체되어야 합니다(예: beir-v1.0.0-bge-base-en-v1.5.tar ). 위 명령은 약간의 수정을 거쳐도 작동합니다. src/main/resources/regression/ 에 있는 YAML 구성 파일의 스키마와 일치하도록 --regression 매개변수를 조정해야 합니다.

교차 언어 및 다국어 회귀

Mr. TyDi(v1.1) 기준에 대한 회귀: ar, bn, en, fi, id, ja, ko, ru, sw, te, th
MIRACL(v1.0) 기준에 대한 회귀: ar, bn, en, es, fa, fi, fr, hi, id, ja, ko, ru, sw, te, th, zh
TREC 2022 NeuCLIR Track BM25에 대한 회귀(쿼리 번역): 페르시아어, 러시아어, 중국어
TREC 2022 NeuCLIR Track BM25에 대한 회귀(문서 번역): 페르시아어, 러시아어, 중국어
TREC 2022 NeuCLIR Track SPLADE(쿼리 번역)에 대한 회귀: 페르시아어, 러시아어, 중국어
TREC 2022 NeuCLIR Track SPLADE(문서 번역)에 대한 회귀: 페르시아어, 러시아어, 중국어
HC4 말뭉치의 HC4(v1.0) 기준에 대한 회귀: 페르시아어, 러시아어, 중국어
원본 NeuCLIR22 말뭉치에 대한 HC4(v1.0) 기준선에 대한 회귀: 페르시아어, 러시아어, 중국어
번역된 NeuCLIR22 말뭉치에 대한 HC4(v1.0) 기준선에 대한 회귀: 페르시아어, 러시아어, 중국어
NTCIR-8 ACLIA에 대한 회귀(IR4QA 하위 작업, 단일 언어 중국어)
CLEF 2006 단일어 프랑스어에 대한 회귀
TREC 2002 단일 언어 아랍어에 대한 회귀
FIRE 2012 단일 언어 기준에 대한 회귀: 벵골어, 힌디어, 영어
CIRAL(v1.0) BM25(쿼리 번역)에 대한 회귀: 하우사어, 소말리아어, 스와힐리어, 요루바어
CIRAL(v1.0) BM25(문서 번역)에 대한 회귀: 하우사어, 소말리아어, 스와힐리어, 요루바어

기타 회귀

디스크 1 및 2(TREC 1-3), 디스크 4 및 5(TREC 7-8, Robust04), AQUAINT(Robust05)에 대한 회귀
New York Times 코퍼스(Core17), Washington Post 코퍼스(Core18)에 대한 회귀
Wt10g, Gov2에 대한 회귀
ClueWeb09(범주 B), ClueWeb12-B13, ClueWeb12에 대한 회귀
트윗 2011(MB11 및 MB12), 트윗 2013(MB13 및 MB14)에 대한 회귀
복잡한 답변 검색에 대한 회귀(CAR17): doc2query를 사용한 v1.5, v2.0, v2.0
TREC 뉴스 트랙에 대한 회귀(백그라운드 연결 작업): 2018, 2019, 2020
FEVER 사실 검증을 위한 회귀
DPR Wikipedia QA 기준에 대한 회귀: 100단어 분할, 6/3 슬라이딩 창 문장

? 추가 문서

아래에 설명된 실험은 엄격한 엔드투엔드 회귀 테스트와 관련이 없으므로 재현성에 대한 낮은 표준을 제공합니다. 대부분의 경우 결과를 재현하려면 명령을 수동으로 복사하여 셸에 붙여넣어야 합니다.

MS 마르코 V1

MS MARCO Passage Ranking을 위한 BM25 기준 재현
MS MARCO 문서 순위를 위한 BM25 기준 재현
MS MARCO 문서 순위 리더보드의 기준선 재현
doc2query 결과 재현(MS MARCO Passage Ranking 및 TREC-CAR)
docTTTTTquery 결과 재현(MS MARCO Passage 및 Document Ranking)
docTTTTTquery를 사용한 MS MARCO 문서 순위의 재현 문제에 대한 참고 사항

MS 마르코 V2

MS MARCO V2 컬렉션에서 BM25 기준 재현

TREC-COVID 및 CORD-19

AI2의 코로나19 공개 연구 데이터 세트 인덱싱
TREC-COVID 챌린지 기준선
doc2query를 사용한 TREC-COVID 챌린지 기준선

기타 실험 및 기능

20개 뉴스그룹 데이터세트 작업
FEVER 사실 확인 작업을 위한 BM25 기준 가이드
"신경과민" 실험 재현 가이드
AI2 Open Research Corpus 실험 진행 안내
Yang 등의 실험. (JDIQ 2018)
TREC 2018용 런북: [Anserini 그룹] [h2oloo 그룹]
공리적 의미론적 용어 일치에 관한 ECIR 2019 논문 런북
컬렉션 간 관련성 피드백에 관한 ECIR 2019 논문 런북
반전된 인덱스가 있는 조밀한 벡터에 대한 근사 최근접 검색 지원

? 어떻게 기여할 수 있나요?

Anserini가 도움이 되었다면, 다시 기여해 주시기를 간단한 요청을 드립니다. 표준 테스트 컬렉션에 대한 기본 결과를 재현하는 과정에서 성공 여부를 디스크 4 및 5의 페이지 하단에 표시되는 것과 같은 간단한 메모와 함께 끌어오기 요청을 보내 알려 주시기 바랍니다. 재현성은 중요합니다. 성공과 실패에 대해 알고 싶습니다. 회귀 문서가 자동 생성되므로 풀 요청은 원시 템플릿에 대해 전송되어야 합니다. 그런 다음 bin/build.sh 스크립트를 사용하여 회귀 문서를 생성할 수 있습니다. 그러면 귀하는 기여자로 인정받게 됩니다.

그 외에도 항상 해결되지 않은 문제가 있으므로 도움을 주시면 감사하겠습니다!

️ 출시 내역

v0.38.0: 2024년 9월 6일 [출시 노트]
v0.37.0: 2024년 8월 22일 [출시 노트]
v0.36.1: 2024년 5월 23일 [출시 노트]
v0.36.0: 2024년 4월 28일 [출시 노트]
v0.35.1: 2024년 4월 24일 [출시 노트]
v0.35.0: 2024년 4월 3일 [출시 노트]
v0.25.0: 2024년 3월 27일 [출시 노트]
v0.24.2: 2024년 2월 27일 [출시 노트]
v0.24.1: 2024년 1월 27일 [출시 노트]
v0.24.0: 2023년 12월 28일 [출시 노트]
v0.23.0: 2023년 11월 16일 [출시 노트]
v0.22.1: 2023년 10월 18일 [출시 노트]
v0.22.0: 2023년 8월 28일 [출시 노트]
v0.21.0: 2023년 3월 31일 [출시 노트]
v0.20.0: 2023년 1월 20일 [출시 노트]

더 오래된... (그리고 역사적 기록)

v0.16.2: 2022년 12월 12일 [출시 노트]
v0.16.1: 2022년 11월 2일 [출시 노트]
v0.16.0: 2022년 10월 23일 [출시 노트]
v0.15.0: 2022년 9월 22일 [출시 노트]
v0.14.4: 2022년 7월 31일 [출시 노트]
v0.14.3: 2022년 5월 9일 [출시 노트]
v0.14.2: 2022년 3월 24일 [출시 노트]
v0.14.1: 2022년 2월 27일 [출시 노트]
v0.14.0: 2022년 1월 10일 [출시 노트]
v0.13.5: 2021년 11월 2일 [출시 노트]
v0.13.4: 2021년 10월 22일 [출시 노트]
v0.13.3: 2021년 8월 22일 [출시 노트]
v0.13.2: 2021년 7월 20일 [출시 노트]
v0.13.1: 2021년 6월 29일 [출시 노트]
v0.13.0: 2021년 6월 22일 [출시 노트]
v0.12.0: 2021년 4월 29일 [출시 노트]
v0.11.0: 2021년 2월 13일 [출시 노트]
v0.10.1: 2021년 1월 8일 [출시 노트]
v0.10.0: 2020년 11월 25일 [출시 노트]
v0.9.4: 2020년 6월 25일 [출시 노트]
v0.9.3: 2020년 5월 26일 [출시 노트]
v0.9.2: 2020년 5월 14일 [출시 노트]
v0.9.1: 2020년 5월 6일 [출시 노트]
v0.9.0: 2020년 4월 18일 [출시 노트]
v0.8.1: 2020년 3월 22일 [출시 노트]
v0.8.0: 2020년 3월 11일 [출시 노트]
v0.7.2: 2020년 1월 25일 [출시 노트]
v0.7.1: 2020년 1월 9일 [출시 노트]
v0.7.0: 2019년 12월 13일 [출시 노트]
v0.6.0: 2019년 9월 6일 [출시 노트] [알려진 문제]
v0.5.1: 2019년 6월 11일 [출시 노트]
v0.5.0: 2019년 6월 5일 [출시 노트]
v0.4.0: 2019년 3월 4일 [출시 노트]
v0.3.0: 2018년 12월 16일 [출시 노트]
v0.2.0: 2018년 9월 10일 [출시 노트]
v0.1.0: 2018년 7월 4일 [출시 노트]

️ 역사적 기록

Anserini는 커밋 272565 (2022년 8월 2일)에서 Lucene 9.3으로 업그레이드되었습니다. 이 업그레이드로 인해 이전 버전과의 호환성 문제가 발생했습니다. #1952를 참조하세요. Anserini는 Lucene 8 인덱스를 자동으로 감지하고 일관된 타이 브레이킹을 비활성화하여 런타임 오류를 방지합니다. 그러나 Lucene 8 인덱스에서 실행되는 Lucene 9 코드는 Lucene 8 인덱스에서 실행되는 Lucene 8 코드와 약간 다른 결과를 제공할 수 있습니다. Lucene 8 코드는 Lucene 9 인덱스에서 실행되지 않습니다 . Pyserini도 업그레이드되었으며 유사한 문제가 적용됩니다. Lucene 8 인덱스에서 실행되는 Lucene 9 코드는 Lucene 8 인덱스에서 실행되는 Lucene 8 코드와 약간 다른 결과를 제공할 수 있습니다.
Anserini는 커밋 17b702d (2019년 7월 11일)에서 Java 8에서 Java 11로 업그레이드되었습니다. Maven 3.3+도 필요합니다.
Anserini는 커밋 75e36f9 (2019년 6월 12일)부터 Lucene 8.0으로 업그레이드되었습니다. 그 전에는 툴킷이 Lucene 7.6을 사용합니다. 예비 실험에 따르면 Lucene 8에서는 쿼리 평가 대기 시간이 크게 개선되었습니다. 이번 업그레이드 결과 모든 회귀 결과가 약간 변경되었습니다. Lucene 7.6의 이전 결과를 재현하려면 v0.5.1을 사용하세요.

참고자료

지미 린, 맷 크레인, 앤드류 트로트먼, 제이미 캘런, 이샨 채토파디아야, 존 폴리, 그랜트 잉거솔, 크레이그 맥도널드, 세바스티아노 비냐. 재현 가능한 기준선을 향하여: 오픈 소스 IR 재현성 문제. ECIR 2016 .
양페린(Peilin Yang), 후이팡(Hui Fang), 지미 린(Jimmy Lin). Anserini: 정보 검색 연구를 위한 Lucene 사용 활성화. 시지르 2017 .
양페린(Peilin Yang), 후이팡(Hui Fang), 지미 린(Jimmy Lin). Anserini: Lucene을 사용한 재현 가능한 순위 기준선. 데이터 및 정보 품질 저널 , 10(4), 16조, 2018.

감사의 말

이 연구는 캐나다 자연과학 및 공학 연구 위원회(NSERC)의 일부 지원을 받았습니다. 이전 지원은 IIS-1423002 및 CNS-1405688에 따라 미국 국립 과학 재단에서 제공되었습니다. 표현된 모든 의견, 조사 결과, 결론 또는 권장 사항이 반드시 후원자의 견해를 반영하는 것은 아닙니다.

확장하다

추가 정보

버전
유형 기타 소스코드
업데이트 시간 2024-12-27
크기 50MB
출처 Github