Perselisihan • Jaringan • Penelitian
Silakan lihat Pengaturan Validator di panduan memulai cepat.
Silakan lihat Penyiapan Penambang di panduan memulai cepat.
Ada versi lama dari proyek yang berfokus pada pengindeksan terdesentralisasi dari berbagai sumber data, lihat di sini untuk detail selengkapnya.
Fokus utama Bittensor Subnet 5 adalah pengembangan model penyematan teks dengan kinerja terbaik dan paling dapat digeneralisasikan.
Dengan memanfaatkan korpus yang diperbesar Model Bahasa Besar (LLM) untuk evaluasi, para penambang diberdayakan untuk mengembangkan dan menerapkan model penyematan teks yang melampaui kinerja tercanggih (SOTA) saat ini.
Tujuan utama Subnet 5 adalah untuk melatih dan menyajikan model penyematan teks terbaik dan paling dapat digeneralisasikan. Model penyematan teks seperti itu dapat memberdayakan banyak aplikasi hilir seperti penelusuran semantik, pemahaman bahasa alami, dan sebagainya.
Penambang akan bertanggung jawab untuk melatih model menggunakan kumpulan data tekstual yang luas dan menyajikan model dengan latensi rendah dan throughput tinggi. Model ini akan digunakan untuk menghasilkan penyematan berkualitas tinggi untuk beragam masukan teks.
Validator akan melakukan evaluasi ketat terhadap model menggunakan berbagai tolok ukur. Perbandingan kinerja akan dilakukan terhadap model penyematan teks SOTA yang ada untuk memastikan peningkatan berkelanjutan dan daya saing.
Pengguna subnet akan mendapatkan akses ke model penyematan teks mutakhir yang paling umum dan melebihi kinerja SOTA. Model-model ini akan tersedia untuk umum melalui API validator Bittensor Subnet 5, memfasilitasi adopsi dan integrasi secara luas ke dalam berbagai aplikasi.
Penambang akan menerima sekumpulan teks dan menyematkannya.
Untuk penyematan teks, validator memiliki informasi relevansi berpasangan untuk mengevaluasinya melalui kerugian pembelajaran kontrastif:
Di mana
Hal ini untuk memaksimalkan saling informasi antar pasangan positif
dan meminimalkan informasi timbal balik antara pasangan negatif
Secara bertahap, kami berpotensi menambahkan waktu pemrosesan untuk mendorong penyematan lebih cepat dan latensi lebih rendah.
Tidak ada persyaratan ketat untuk peralatan penambang, selama peralatan tersebut dapat melayani model penyematan teks dengan latensi rendah dan throughput tinggi.
Untuk mencapai hal ini, penambang biasanya memerlukan infrastruktur berikut:
Pelatihan Model:
Penyajian Model:
Pada akhirnya, Subnet 5 akan melayani model penyematan teks melalui API validator subnet.
Pengalaman pengembang menggunakan Subnet 5 Embedding API akan serupa dengan OpenAI text-embedding API https://platform.openai.com/docs/guides/embeddings/embedding-models.
V1:
V2 dan selanjutnya:
Model penyematan teks sangat penting bagi Pemrosesan Bahasa Alami (NLP) modern, yang merepresentasikan kata, frasa, atau dokumen sebagai vektor padat dalam ruang berkelanjutan. Model-model ini telah berkembang secara signifikan dari waktu ke waktu:
Pendekatan Klasik:
Penyematan Kata:
Penyematan Kalimat dan Dokumen:
Aplikasi mencakup berbagai tugas NLP, termasuk kesamaan semantik, terjemahan mesin, dan analisis sentimen. Tantangan yang saat ini dihadapi termasuk mengatasi bias dan meningkatkan efisiensi.
Evolusi dari representasi sederhana menjadi model kontekstual yang canggih telah meningkatkan kemampuan NLP secara dramatis, memungkinkan pemahaman bahasa yang lebih beragam oleh mesin.
Pencarian semantik berbasis vektor berevolusi dari metode tradisional berbasis kata kunci untuk mengatasi keterbatasan dalam memahami konteks dan makna. Ini memanfaatkan kemajuan dalam pemrosesan bahasa alami dan pembelajaran mesin untuk merepresentasikan teks sebagai vektor padat dalam ruang berdimensi tinggi.
Komponen utama pencarian semantik berbasis vektor meliputi:
Dengan mengindeks dokumen beserta penyematannya, Anda dapat:
Pencarian semantik berbasis vektor telah meningkatkan pengambilan informasi secara signifikan di berbagai aplikasi, menawarkan hasil yang lebih relevan dengan memahami maksud di balik kueri daripada hanya mengandalkan pencocokan kata kunci yang tepat.