Unduh openkaito - pengunduhan kode sumber openkaito

openkaito

Kode sumber lainnya

1.0.0

Unduh

OpenKaito - Kaito AI Terdesentralisasi

Perselisihan • Jaringan • Penelitian

Instalasi

Instalasi Validator

Silakan lihat Pengaturan Validator di panduan memulai cepat.

Instalasi Penambang

Silakan lihat Penyiapan Penambang di panduan memulai cepat.

Ada versi lama dari proyek yang berfokus pada pengindeksan terdesentralisasi dari berbagai sumber data, lihat di sini untuk detail selengkapnya.

Abstrak

Fokus utama Bittensor Subnet 5 adalah pengembangan model penyematan teks dengan kinerja terbaik dan paling dapat digeneralisasikan.

Dengan memanfaatkan korpus yang diperbesar Model Bahasa Besar (LLM) untuk evaluasi, para penambang diberdayakan untuk mengembangkan dan menerapkan model penyematan teks yang melampaui kinerja tercanggih (SOTA) saat ini.

Tujuan & Kontribusi

Tujuan utama Subnet 5 adalah untuk melatih dan menyajikan model penyematan teks terbaik dan paling dapat digeneralisasikan. Model penyematan teks seperti itu dapat memberdayakan banyak aplikasi hilir seperti penelusuran semantik, pemahaman bahasa alami, dan sebagainya.

Penambang akan bertanggung jawab untuk melatih model menggunakan kumpulan data tekstual yang luas dan menyajikan model dengan latensi rendah dan throughput tinggi. Model ini akan digunakan untuk menghasilkan penyematan berkualitas tinggi untuk beragam masukan teks.

Validator akan melakukan evaluasi ketat terhadap model menggunakan berbagai tolok ukur. Perbandingan kinerja akan dilakukan terhadap model penyematan teks SOTA yang ada untuk memastikan peningkatan berkelanjutan dan daya saing.

Pengguna subnet akan mendapatkan akses ke model penyematan teks mutakhir yang paling umum dan melebihi kinerja SOTA. Model-model ini akan tersedia untuk umum melalui API validator Bittensor Subnet 5, memfasilitasi adopsi dan integrasi secara luas ke dalam berbagai aplikasi.

Mekanisme Insentif

Penambang akan menerima sekumpulan teks dan menyematkannya.

Untuk penyematan teks, validator memiliki informasi relevansi berpasangan untuk mengevaluasinya melalui kerugian pembelajaran kontrastif:

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' dalam X} f(mathbf{x}', mathbf{c})} kanan]$$

Di mana $f(x,c) = exp{(x cdot c)}$ adalah perkiraan $frac{p(x | c)}{p(x)}$ , Dan $c$ adalah target penyematan, dan $x$ adalah sampel positif, dan $x'$ adalah sampel negatif.

Hal ini untuk memaksimalkan saling informasi antar pasangan positif $x$ Dan $c$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ p(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{ p(mathbf{x})}$

dan meminimalkan informasi timbal balik antara pasangan negatif $x'$ Dan $c$ : $I(mathbf{x'}; mathbf{c})$ .

Secara bertahap, kami berpotensi menambahkan waktu pemrosesan untuk mendorong penyematan lebih cepat dan latensi lebih rendah.

Persyaratan Komputasi

Tidak ada persyaratan ketat untuk peralatan penambang, selama peralatan tersebut dapat melayani model penyematan teks dengan latensi rendah dan throughput tinggi.

Untuk mencapai hal ini, penambang biasanya memerlukan infrastruktur berikut:

Pelatihan Model:

Mesin dengan GPU untuk model pelatihan cepat pada kumpulan data besar

Penyajian Model:

Server inferensi model khusus

Antarmuka Pengguna Subnet

Pada akhirnya, Subnet 5 akan melayani model penyematan teks melalui API validator subnet.

Pengalaman pengembang menggunakan Subnet 5 Embedding API akan serupa dengan OpenAI text-embedding API https://platform.openai.com/docs/guides/embeddings/embedding-models.

Peta Jalan Pembangunan

V1:

Evaluasi model penyematan teks dan mekanisme insentif
Dasbor subnet dengan kurva pertumbuhan kinerja model, dan perbandingan dengan model OpenAI text-embedding-3-small dan text-embedding-3-large sebagai dasar
Subnet API untuk menyajikan model yang dilatih penambang kepada pengguna subnet.

V2 dan selanjutnya:

Memperluas kumpulan data
Memperluas model insentif evaluasi ke tugas-tugas seperti pemeringkatan ulang dokumen
Memasukkan jarak berpasangan dokumen dalam evaluasi
…

Lampiran - Latar Belakang

Model Penyematan Teks

Model penyematan teks sangat penting bagi Pemrosesan Bahasa Alami (NLP) modern, yang merepresentasikan kata, frasa, atau dokumen sebagai vektor padat dalam ruang berkelanjutan. Model-model ini telah berkembang secara signifikan dari waktu ke waktu:

Pendekatan Klasik:

Enkode one-hot dan metode berbasis hitungan (misalnya, TF-IDF)
Terbatas dalam menangkap hubungan semantik

Penyematan Kata:

Berdasarkan semantik distribusi
Model utama: Word2Vec, GloVe, FastText
Menangkap persamaan dan hubungan kata

Penyematan Kalimat dan Dokumen:

Perluas teknik tingkat kata ke unit teks yang lebih besar, representasi dinamis berdasarkan konteks
Contoh: ELMo, BERT, GPT
Lebih baik dalam menangani polisemi dan makna yang bergantung pada konteks

Aplikasi mencakup berbagai tugas NLP, termasuk kesamaan semantik, terjemahan mesin, dan analisis sentimen. Tantangan yang saat ini dihadapi termasuk mengatasi bias dan meningkatkan efisiensi.

Evolusi dari representasi sederhana menjadi model kontekstual yang canggih telah meningkatkan kemampuan NLP secara dramatis, memungkinkan pemahaman bahasa yang lebih beragam oleh mesin.

Pencarian Semantik Berbasis Vektor

Pencarian semantik berbasis vektor berevolusi dari metode tradisional berbasis kata kunci untuk mengatasi keterbatasan dalam memahami konteks dan makna. Ini memanfaatkan kemajuan dalam pemrosesan bahasa alami dan pembelajaran mesin untuk merepresentasikan teks sebagai vektor padat dalam ruang berdimensi tinggi.

Komponen utama pencarian semantik berbasis vektor meliputi:

Penyematan teks (misalnya, Word2Vec, GloVe, BERT, GPT)
Algoritme pencarian tetangga terdekat yang efisien (misalnya, mengindeks vektor menggunakan HNSW)

Dengan mengindeks dokumen beserta penyematannya, Anda dapat:

Menangkap hubungan semantik antara kata dan konsep
Meningkatkan penanganan sinonim dan istilah terkait
Pengalaman penelusuran yang lebih intuitif dan sadar konteks

Pencarian semantik berbasis vektor telah meningkatkan pengambilan informasi secara signifikan di berbagai aplikasi, menawarkan hasil yang lebih relevan dengan memahami maksud di balik kueri daripada hanya mengandalkan pencocokan kata kunci yang tepat.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-26
ukuran 11.27MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua