beir 다운로드 - beir 소스 코드 다운로드

beir

기타 소스코드

v2.0.0: We are back with bugfixes and improving BEIR after a long break

다운로드

종이 | 설치 | 빠른 예 | 데이터 세트 | 위키 | 포옹 얼굴

? 무엇입니까?

Beir는 다양한 IR 작업을 포함하는 이기종 벤치 마크 입니다. 또한 벤치 마크 내에서 NLP 기반 검색 모델을 평가하기위한 일반적이고 쉬운 프레임 워크를 제공합니다.

개요를 보려면 새로운 Wiki 페이지를 확인하십시오 : https://github.com/beir-cellar/beir/wiki.

모델 및 데이터 세트 의 경우 HF (Hugging Face) 페이지를 확인하십시오. https://huggingface.co/beir.

리더 보드 의 경우 eval ai 페이지를 확인하십시오 : https://eval.ai/web/challenges/challenge-page/1897.

자세한 내용은 출판물을 확인하십시오.

BEIR : 정보 검색 모델의 제로 샷 평가를위한 이종 벤치 마크 (Neurips 2021, 데이터 세트 및 벤치 마크 트랙)
Brewing Beir를위한 리소스 : 재현 가능한 참조 모델 및 공식 리더 보드 (ARXIV 2023)

? 설치

PIB를 통해 설치 :

 pip install beir

소스에서 구축하려면 다음을 사용하십시오.

$ git clone https : // github . com / beir - cellar / beir . git
$ cd beir
$ pip install - e .

파이썬 버전 3.6 및 3.7로 테스트

? 특징

자신의 IR 데이터 세트를 전처리하거나 이미 처리 된 17 벤치 마크 데이터 세트 중 하나를 사용하십시오.
광범위한 설정 포함, 학계와 산업 모두에 유용한 다양한 벤치 마크를 다룹니다.
잘 알려진 검색 아키텍처 (어휘, 조밀 한, 희소 및 재고 기반)가 포함되어 있습니다.
다른 최첨단 평가 메트릭을 사용하여 쉬운 프레임 워크로 자신의 모델을 추가하고 평가하십시오.

? 빠른 예

다른 예제 코드는 예제 및 튜토리얼 위키 페이지를 참조하십시오.

 from beir import util , LoggingHandler
from beir . retrieval import models
from beir . datasets . data_loader import GenericDataLoader
from beir . retrieval . evaluation import EvaluateRetrieval
from beir . retrieval . search . dense import DenseRetrievalExactSearch as DRES

import logging
import pathlib , os

#### Just some code to print debug information to stdout
logging . basicConfig ( format = '%(asctime)s - %(message)s' ,
                    datefmt = '%Y-%m-%d %H:%M:%S' ,
                    level = logging . INFO ,
                    handlers = [ LoggingHandler ()])
#### /print debug information to stdout

#### Download scifact.zip dataset and unzip the dataset
dataset = "scifact"
url = "https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/{}.zip" . format ( dataset )
out_dir = os . path . join ( pathlib . Path ( __file__ ). parent . absolute (), "datasets" )
data_path = util . download_and_unzip ( url , out_dir )

#### Provide the data_path where scifact has been downloaded and unzipped
corpus , queries , qrels = GenericDataLoader ( data_folder = data_path ). load ( split = "test" )

#### Load the SBERT model and retrieve using cosine-similarity
model = DRES ( models . SentenceBERT ( "msmarco-distilbert-base-tas-b" ), batch_size = 16 )
retriever = EvaluateRetrieval ( model , score_function = "dot" ) # or "cos_sim" for cosine similarity
results = retriever . retrieve ( corpus , queries )

#### Evaluate your model with NDCG@k, MAP@K, Recall@K and Precision@K  where k = [1,3,5,10,100,1000] 
ndcg , _map , recall , precision = retriever . evaluate ( qrels , results , retriever . k_values )

? 사용 가능한 데이터 세트

터미널을 사용하여 MD5HASH를 생성하도록 명령 : md5sum filename.zip .

여기 또는 포옹 얼굴 에서 사용 가능한 모든 데이터 세트를 볼 수 있습니다.

데이터 세트	웹 사이트	비어 이름	공공의?	유형	쿼리	신체	rel d/q	다운로드	MD5
msmarco	홈페이지	`msmarco`	✅	`train` `dev` `test`	6,980	8.84m	1.1	링크	`444067daf65d982533ea17ebd59501e4`
Trec-covid	홈페이지	`trec-covid`	✅	`test`	50	171K	493.5	링크	`ce62140cb23feb9becf6270d0d1fe6d1`
nfcorpus	홈페이지	`nfcorpus`	✅	`train` `dev` `test`	323	3.6k	38.2	링크	`a89dba18a62ef92f7d323ec890a0d38d`
바이오 Q	홈페이지	`bioasq`		`train` `test`	500	14.91m	4.7	아니요	재생산하는 방법?
NQ	홈페이지	`nq`	✅	`train` `test`	3,452	2.68m	1.2	링크	`d4d3d2e48787a744b6f6e691ff534307`
Hotpotqa	홈페이지	`hotpotqa`	✅	`train` `dev` `test`	7,405	5.23m	2.0	링크	`f412724f78b0d91183a0e86805e16114`
FIQA-2018	홈페이지	`fiqa`	✅	`train` `dev` `test`	648	57k	2.6	링크	`17918ed23cd04fb15047f73e6c3bd9d9`
신호 -1m (RT)	홈페이지	`signal1m`		`test`	97	2.86m	19.6	아니요	재생산하는 방법?
Trec-News	홈페이지	`trec-news`		`test`	57	595K	19.6	아니요	재생산하는 방법?
Robust04	홈페이지	`robust04`		`test`	249	528K	69.9	아니요	재생산하는 방법?
Arguana	홈페이지	`arguana`	✅	`test`	1,406	8.67K	1.0	링크	`8ad3e3c2a5867cdced806d6503f29b99`
Touche-2020	홈페이지	`webis-touche2020`	✅	`test`	49	382K	19.0	링크	`46f650ba5a527fc69e0a6521c5a23563`
CQADUPSTACK	홈페이지	`cqadupstack`	✅	`test`	13,145	457K	1.4	링크	`4e41456d7df8ee7760a7f866133bda78`
Quora	홈페이지	`quora`	✅	`dev` `test`	10,000	523K	1.6	링크	`18fb154900ba42a600f84b839c173167`
dbpedia	홈페이지	`dbpedia-entity`	✅	`dev` `test`	400	4.63m	38.2	링크	`c2a39eb420a3164af735795df012ac2c`
Scidocs	홈페이지	`scidocs`	✅	`test`	1,000	25K	4.9	링크	`38121350fc3a4d2f48850f6aff52e4a9`
발열	홈페이지	`fever`	✅	`train` `dev` `test`	6,666	5.42m	1.2	링크	`5a818580227bfb4b35bb6fa46d9b6c03`
기후로	홈페이지	`climate-fever`	✅	`test`	1,535	5.42m	3.0	링크	`8b66f0a9126c521bae2bde127b4dc99d`
공상 과학	홈페이지	`scifact`	✅	`train` `test`	300	5K	1.1	링크	`5f7d1de60b170fc8027bb7898e2efca1`

? 추가 정보

또한 Wiki 페이지에 다양한 추가 정보를 제공합니다. 다음은이 페이지를 참조하십시오.

빠른 시작

베이어 설치
예와 튜토리얼

데이터 세트

사용 가능한 데이터 세트
다국어 데이터 세트
사용자 정의 데이터 세트를로드하십시오

모델

사용 가능한 모델
사용자 정의 모델을 평가하십시오

메트릭

사용 가능한 메트릭

여러 가지 잡다한

베어 리더 보드
IR의 Couse 자료

? 부인 성명

Tensorflow 데이터 세트 또는 Hugging Face의 데이터 세트 라이브러리와 유사하게 공개 데이터 세트를 다운로드하여 준비했습니다. 우리는 이러한 데이터 세트를 특정 형식으로 배포하지만 품질이나 공정성을 보증하지 않거나 데이터 세트를 사용할 수있는 라이센스가 있다고 주장합니다. 사용자가 데이터 세트 라이센스에 따라 데이터 세트를 사용할 수있는 권한이 있는지 여부를 결정하고 데이터 세트의 올바른 소유자를 인용하는 것은 사용자의 책임입니다.

데이터 세트 소유자이고 일부 부분을 업데이트하려면이 라이브러리에 데이터 세트가 포함되기를 원하지 않으면 여기에 문제를 게시하거나 풀 요청을 수행하십시오!

데이터 세트 소유자 이고이 라이브러리에 데이터 세트 또는 모델을 포함시키려면 여기에 문제를 게시하거나 풀어 요청하십시오!

? 인용 및 저자

이 저장소가 도움이된다면 정보 검색 모델의 제로 샷 평가를위한 이종 벤치 마크 : 출판물을 자유롭게 인용하십시오.

 @inproceedings{
    thakur2021beir,
    title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
    author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
    booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
    year={2021},
    url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}

Beir Leaderboard의 기준 점수를 사용하는 경우 Brewing Beir : 재현 가능한 참조 모델 및 공식 리더 보드를위한 출판 자원을 자유롭게 인용하십시오.

 @misc{kamalloo2023resources,
      title={Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard}, 
      author={Ehsan Kamalloo and Nandan Thakur and Carlos Lassance and Xueguang Ma and Jheng-Hong Yang and Jimmy Lin},
      year={2023},
      eprint={2306.07471},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

이 저장소의 주요 기여자는 다음과 같습니다.

Nandan Thakur, 개인 웹 사이트 : Nandan-thakur.com

담당자 : Nandan Thakur, [email protected]

주저하지 말고 이메일을 보내거나 문제가 발생하거나 추가 질문이있는 경우 문제를보고하십시오.

이 저장소에는 실험 소프트웨어가 포함되어 있으며 각 간행물에 대한 추가 배경 세부 정보를 제공 할 목적으로만 게시됩니다.

? 협동

BEIR 벤치 마크는 다음 대학과 조직의 협력 노력으로 인해 가능해졌습니다.

Darmstadt 기술 대학교 UKP 실험실
워털루 대학교
포옹 얼굴

? 기고자

BEIR 벤치 마크에 대한 그들의 기여에 대해이 모든 훌륭한 협력에 감사드립니다.

_{Nandan Thakur}

_{Nils Reimers}

_{Iryna Gurevych}

_{지미 린}

_{Andreas Rücklé}

_{Abhishek Srivastava}

확장하다

추가 정보

버전 v2.0.0: We are back with bugfixes and improving BEIR after a long break
유형 기타 소스코드
업데이트 시간 2025-01-30
크기 455.62KB
출처 Github

beir

? 무엇입니까?

? 설치

? 특징

? 빠른 예

? 사용 가능한 데이터 세트

? 추가 정보

빠른 시작

데이터 세트

모델

메트릭

여러 가지 잡다한

? 부인 성명

? 인용 및 저자

? 협동

? 기고자

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions