불일치 • 네트워크 • 연구
빠른 시작 가이드에서 유효성 검사기 설정을 참조하세요.
빠른 시작 가이드에서 채굴기 설정을 참조하세요.
다양한 데이터 소스의 분산형 인덱싱에 초점을 맞춘 레거시 버전의 프로젝트가 있습니다. 자세한 내용은 여기를 참조하세요.
Bittensor Subnet 5의 주요 초점은 세계 최고의 성능을 발휘하고 가장 일반화 가능한 텍스트 임베딩 모델을 개발하는 것입니다.
평가를 위해 광범위한 LLM(Large Language Model)으로 강화된 코퍼스를 활용하여 채굴자는 현재의 최첨단(SOTA) 성능을 능가하는 텍스트 임베딩 모델을 개발하고 배포할 수 있습니다.
Subnet 5의 주요 목표는 가장 우수하고 일반화 가능한 텍스트 포함 모델을 교육하고 제공하는 것입니다. 이러한 텍스트 임베딩 모델은 의미 검색, 자연어 이해 등과 같은 다양한 다운스트림 애플리케이션을 강화할 수 있습니다.
광부는 광범위한 텍스트 데이터 모음을 사용하여 모델을 훈련하고 짧은 대기 시간과 높은 처리량 방식으로 모델을 제공하는 일을 담당합니다. 이러한 모델은 다양한 텍스트 입력을 위한 고품질 임베딩을 생성하는 데 활용됩니다.
검증자는 여러 벤치마크를 사용하여 모델을 엄격하게 평가합니다. 지속적인 개선과 경쟁력을 보장하기 위해 기존 SOTA 텍스트 임베딩 모델과 성능을 비교합니다.
서브넷 사용자는 가장 일반적이고 SOTA 성능을 능가하는 최첨단 텍스트 포함 모델에 액세스할 수 있습니다. 이러한 모델은 Bittensor Subnet 5의 유효성 검사기 API를 통해 공개적으로 제공되어 다양한 애플리케이션에 대한 광범위한 채택과 통합을 촉진합니다.
광부들은 일련의 텍스트를 수신하고 이를 삽입합니다.
텍스트 임베딩의 경우 유효성 검사기는 대조 학습 손실을 통해 평가할 수 있는 쌍별 관련성 정보를 갖습니다.
어디
이는 양성 쌍 사이의 상호 정보를 최대화하는 것입니다.
음수 쌍 사이의 상호 정보를 최소화합니다.
점차적으로 더 빠른 임베딩과 낮은 대기 시간을 장려하기 위해 처리 시간을 고려할 수 있습니다.
짧은 대기 시간과 높은 처리량 방식으로 텍스트 삽입 모델을 제공할 수 있는 한 채굴자 장비에 대한 엄격한 요구 사항은 없습니다.
이를 달성하려면 채굴자에게는 일반적으로 다음과 같은 인프라가 필요합니다.
모델 훈련:
모델 제공:
결국 서브넷 5는 서브넷 유효성 검사기 API를 통해 텍스트 포함 모델을 제공하게 됩니다.
Subnet 5 Embedding API를 사용하는 개발 경험은 OpenAI 텍스트 임베딩 API https://platform.openai.com/docs/guides/embeddings/embedding-models와 유사합니다.
V1:
V2 이상:
텍스트 임베딩 모델은 단어, 구문 또는 문서를 연속 공간의 밀집된 벡터로 표현하는 현대 자연어 처리(NLP)의 기본입니다. 이러한 모델은 시간이 지남에 따라 크게 발전했습니다.
고전적인 접근 방식:
단어 임베딩:
문장 및 문서 임베딩:
응용 프로그램은 의미 유사성, 기계 번역, 감정 분석을 포함한 다양한 NLP 작업에 걸쳐 있습니다. 지속적인 과제에는 편견 해결과 효율성 개선이 포함됩니다.
단순한 표현에서 정교한 상황별 모델로의 진화는 NLP 기능을 극적으로 향상시켜 기계가 언어에 대한 보다 미묘한 이해를 가능하게 했습니다.
벡터 기반 의미론적 검색은 맥락과 의미 이해의 한계를 해결하기 위해 전통적인 키워드 기반 방법에서 발전했습니다. 자연어 처리 및 기계 학습의 발전을 활용하여 텍스트를 고차원 공간에서 밀도가 높은 벡터로 표현합니다.
벡터 기반 의미 검색의 주요 구성 요소는 다음과 같습니다.
포함된 문서를 색인화하면 다음이 가능합니다.
벡터 기반 의미론적 검색은 다양한 애플리케이션 전반에 걸쳐 정보 검색을 크게 향상시켜 정확한 키워드 일치에만 의존하기보다는 쿼리 이면의 의도를 이해함으로써 보다 관련성 높은 결과를 제공합니다.