新聞 |安裝|快速入門 |社區 |項目 |型號列表 |貢獻者 |引文|執照
英語 | 中文
BGE(BAAI General Embedding)專注於檢索增強法學碩士,目前包括以下課程:
2024 年 10 月 29 日:?我們為BGE創建了微信群。掃描二維碼加入群組聊天!要獲取有關我們的更新和新版本的第一手訊息,或有任何問題或想法,請立即加入我們!
2024年10月22日:我們發布了另一個有趣的模型:OmniGen,這是一個支援各種任務的統一影像生成模型。 OmniGen 可以完成複雜的影像產生任務,無需 ControlNet、IP-Adapter 等額外外掛程式或姿勢偵測和臉部偵測等輔助模型。
2024 年 9 月 10 日:引入MemoRAG ,這是在記憶啟發的知識發現之上向RAG 2.0 邁出的一步(存儲庫:https://github.com/qhjqhj00/MemoRAG,論文:https://arxiv .org/pdf/ 2409.05591v1)
2024年9月2日:開始維修教學。裡面的內容將會積極更新和豐富,敬請期待!
7/26/2024:發布新的嵌入模型bge-en-icl,這是一種融合了上下文學習功能的嵌入模型,透過提供與任務相關的查詢回應範例,可以對語義更豐富的查詢進行編碼,進一步增強語意嵌入的表示能力。
7/26/2024:發布新的嵌入模型bge-multilingual-gemma2,這是一個基於gemma-2-9b的多語言嵌入模型,支援多種語言和多樣化的下游任務,在多語言基準(MIRACL、 MTEB-fr)上實現新的SOTA和 MTEB-pl)。
7/26/2024:發布新的輕量級重排序器bge-reranker-v2.5-gemma2-lightweight,基於gemma-2-9b的輕量級重排序器,支援token壓縮和分層輕量級操作,在節省資源的同時仍能確保良好的性能大量的資源。
BAAI/bge-reranker-base
和BAAI/bge-reranker-large
,它們比嵌入模型更強大。我們建議使用/微調它們來重新排名嵌入模型返回的前 k 個文件。bge-*-v1.5
嵌入模型,緩解相似度分佈問題,增強無指令檢索能力。bge-large-*
(BAAI General Embedding的縮寫)模型,在MTEB和C-MTEB基準測試中排名第一! ? ?如果您不想微調模型,可以安裝不含finetune依賴項的套件:
pip install -U FlagEmbedding
如果你想微調模型,可以安裝有finetune依賴項的套件:
pip install -U FlagEmbedding[finetune]
克隆儲存庫並安裝
git clone https://github.com/FlagOpen/FlagEmbedding.git
cd FlagEmbedding
# If you do not want to finetune the models, you can install the package without the finetune dependency:
pip install .
# If you want to finetune the models, you can install the package with the finetune dependency:
# pip install .[finetune]
對於可編輯模式下的開發:
# If you do not want to finetune the models, you can install the package without the finetune dependency:
pip install -e .
# If you want to finetune the models, you can install the package with the finetune dependency:
# pip install -e .[finetune]
首先,載入 BGE 嵌入模型之一:
from FlagEmbedding import FlagAutoModel
model = FlagAutoModel.from_finetuned('BAAI/bge-base-en-v1.5',
query_instruction_for_retrieval="Represent this sentence for searching relevant passages:",
use_fp16=True)
然後,向模型輸入一些句子並獲得它們的嵌入:
sentences_1 = ["I love NLP", "I love machine learning"]
sentences_2 = ["I love BGE", "I love text retrieval"]
embeddings_1 = model.encode(sentences_1)
embeddings_2 = model.encode(sentences_2)
一旦我們獲得嵌入,我們就可以透過內積計算相似度:
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
更多詳細信息,您可以參考 embedder inference、reranker inference、embedderfinetune、rerankerfintune、evaluation。
如果您不熟悉任何相關概念,請查看教學。如果不存在,請告訴我們。
有關 BGE 的更多有趣主題,請查看研究。
我們正在積極維護 BGE 和 FlagEmbedding 的社區。如果您有任何建議或想法,請告訴我們!
目前我們正在更新教程,我們的目標是為文字檢索和 RAG 的初學者創建一個全面而詳細的教程。敬請關注!
以下內容將在未來幾週內發布:
bge
是BAAI general embedding
的縮寫。
模型 | 語言 | 描述 | 檢索查詢指令 |
---|---|---|---|
BAAI/bge-en-icl | 英語 | 基於LLM的嵌入模型,具有上下文學習功能,可以根據幾個鏡頭範例充分發揮模型的潛力 | 根據給定的任務免費提供說明和少量範例。 |
BAAI/bge-多語言-gemma2 | 多種語言 | 基於法學碩士的多語言嵌入模型,經過多種語言和任務的訓練。 | 根據給定的任務提供說明。 |
BAAI/bge-m3 | 多種語言 | 多功能(密集檢索、稀疏檢索、多向量(colbert))、多語言和多粒度(8192 個標記) | |
LM-雞尾酒 | 英語 | 微調模型(Llama 和 BGE),可用於重現 LM-Cocktail 的結果 | |
BAAI/llm-包埋機 | 英語 | 統一的嵌入模型,支援法學碩士的不同檢索增強需求 | 請參閱自述文件 |
BAAI/bge-reranker-v2-m3 | 多種語言 | 輕量級的交叉編碼器模型,具有強大的多語言能力,易於部署,推理速度快。 | |
BAAI/bge-reranker-v2-gemma | 多種語言 | 適合多語言環境的交叉編碼器模型,在英語程度和多語言能力方面都表現良好。 | |
BAAI/bge-reranker-v2-minicpm-layerwise | 多種語言 | 適合多語言環境的交叉編碼器模型,在中英文層級表現良好,允許自由選擇輸出層,有利於加速推理。 | |
BAAI/bge-reranker-v2.5-gemma2-lightweight | 多種語言 | 適合多語言環境的交叉編碼器模型,中英文皆表現良好,可自由選擇層數、壓縮比和輸出壓縮層數,有利於加速推理。 | |
BAAI/bge-reranker-large | 中文和英文 | 更準確但效率較低的交叉編碼器模型 | |
BAAI/bge-reranker-base | 中文和英文 | 更準確但效率較低的交叉編碼器模型 | |
BAAI/bge-large-en-v1.5 | 英語 | 1.5版本,相似度分佈較合理 | Represent this sentence for searching relevant passages: |
BAAI/bge-base-en-v1.5 | 英語 | 1.5版本,相似度分佈較合理 | Represent this sentence for searching relevant passages: |
BAAI/bge-small-en-v1.5 | 英語 | 1.5版本,相似度分佈較合理 | Represent this sentence for searching relevant passages: |
BAAI/bge-large-zh-v1.5 | 中國人 | 1.5版本,相似度分佈較合理 | 为这个句子生成表示以用于检索相关文章: |
BAAI/bge-base-zh-v1.5 | 中國人 | 1.5版本,相似度分佈較合理 | 为这个句子生成表示以用于检索相关文章: |
BAAI/bge-small-zh-v1.5 | 中國人 | 1.5版本,相似度分佈較合理 | 为这个句子生成表示以用于检索相关文章: |
BAAI/bge-large-en | 英語 | 將文字映射到向量的嵌入模型 | Represent this sentence for searching relevant passages: |
BAAI/bge-base-en | 英語 | 基本比例模型,但具有與bge-large-en 類似的能力 | Represent this sentence for searching relevant passages: |
BAAI/bge-small-en | 英語 | 模型規模雖小,但性能具有競爭力 | Represent this sentence for searching relevant passages: |
BAAI/bge-large-zh | 中國人 | 將文字映射到向量的嵌入模型 | 为这个句子生成表示以用于检索相关文章: |
BAAI/bge-base-zh | 中國人 | 基本比例模型,但具有與bge-large-zh 類似的能力 | 为这个句子生成表示以用于检索相关文章: |
BAAI/bge-小-zh | 中國人 | 模型規模雖小,但性能具有競爭力 | 为这个句子生成表示以用于检索相关文章: |
感謝所有貢獻者的努力,並熱烈歡迎新成員的加入!
如果您發現此儲存庫有用,請考慮給予星號和引用
@misc{bge_m3,
title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
author={Chen, Jianlv and Xiao, Shitao and Zhang, Peitian and Luo, Kun and Lian, Defu and Liu, Zheng},
year={2023},
eprint={2309.07597},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{cocktail,
title={LM-Cocktail: Resilient Tuning of Language Models via Model Merging},
author={Shitao Xiao and Zheng Liu and Peitian Zhang and Xingrun Xing},
year={2023},
eprint={2311.13534},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{llm_embedder,
title={Retrieve Anything To Augment Large Language Models},
author={Peitian Zhang and Shitao Xiao and Zheng Liu and Zhicheng Dou and Jian-Yun Nie},
year={2023},
eprint={2310.07554},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{bge_embedding,
title={C-Pack: Packaged Resources To Advance General Chinese Embedding},
author={Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff},
year={2023},
eprint={2309.07597},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
FlagEmbedding 根據 MIT 許可證獲得許可。