모델/데이터 링크 | 설치 | 사용법 | 리더보드 | 인용 |
FollowIR 논문의 공식 저장소: 지침을 따르기 위한 정보 검색 모델 평가 및 교육. 공식적인 평가는 mteb
라이브러리를 설치하고 코드 변경 없이(또는 단 몇 줄만) MTEB 호환 모델을 평가하여 수행할 수 있습니다!
바이너리 | 설명 |
---|---|
IR-7B 따르기 | 쿼리 및 지침에 따라 문서 순위를 다시 지정하는 7B 매개변수 모델입니다. 아래 데이터 세트의 Mistral-7B에서 미세 조정되었습니다. |
IR-열차 따르기 | FollowIR-7B를 훈련하는 데 사용되는 데이터 세트입니다. 이는 TREC 지침 및 쿼리와 필터링된 GPT 생성 합성 문서로 구성됩니다. |
FollowIR-열차-원시 | 위에 설정된 기차의 사전 필터링된 버전입니다. 일부 GPT 생성 데이터가 잘못되었으므로 모델 학습에는 사용되지 않았습니다. |
MTEB의 평가 코드에 가장 적합한 형식이지만 주석이 달린 개별 테스트 데이터(Robust04, Core17 및 News21)도 찾을 수 있습니다.
논문에서 실험을 재현하려면 다음 코드를 사용할 수 있습니다.
git clone https://github.com/orionw/FollowIR.git
cd FollowIR/
conda create -n followir python=3.9 -y
conda activate followir
pip install -r requirements.txt
bash launch_all_jobs.sh
모델이 SentenceTransformer
와 호환되고 쿼리와 지침을 연결하는 데 특별한 토큰이 필요하지 않은 경우 다음 한 줄 명령을 사용하면 됩니다.
mteb -m $MODEL_NAME -t $DATASET
{Robust04InstructionRetrieval, Core17InstructionRetrieval, News21InstructionRetrieval}
의 각 데이터 세트에 대해
이중 인코더 모델이 있지만 단순히 공백을 사용하여 쿼리에 명령을 추가하는 것보다 다른 작업을 수행하려는 경우 DenseRetrievalExactSearch
확장하고 kwargs에서 instructions
확인할 수 있습니다. (작은 수정을 위한 시작 위치는 models/base_sentence_transformers/를 참조하고, 대규모 수정의 예는 models/e5/를 참조하세요).
이제 MTEB에 리랭커가 추가되었습니다! reranker 모델을 사용하는 경우 DenseRetrievalExactSearch
클래스를 확장하고 __init__
및 predict
함수를 정의해야 합니다(다양한 reranker 예제는 모델/rerankers 섹션 참조). 예측 함수는 다음 형식의 튜플인 input_to_rerank
가져와야 합니다.
# if there are no instructions, instructions will be a list of Nones
# Instructions will be present for all of the FollowIR datasets
queries , passages , instructions = list ( zip ( * input_to_rerank ))
predict
함수는 이를 사용하고 각 튜플 항목에 대한 점수가 포함된 목록을 반환해야 합니다.
코드, 데이터 또는 모델이 유용하다고 생각되면 자유롭게 인용하세요.
@misc { weller2024followir ,
title = { FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions } ,
author = { Orion Weller and Benjamin Chang and Sean MacAvaney and Kyle Lo and Arman Cohan and Benjamin Van Durme and Dawn Lawrie and Luca Soldaini } ,
year = { 2024 } ,
eprint = { 2403.15246 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.IR }
}