Situs Web Proyek • Fitur Utama • Cara Menggunakan • Kumpulan Data Tolok Ukur • Dukungan Komunitas • Berkontribusi • Misi • Lisensi
Lihatlah halaman resmi kami untuk dokumentasi pengguna dan contohnya: langtest.org
LangTest hadir dengan kumpulan data berbeda untuk menguji model Anda, yang mencakup berbagai kasus penggunaan dan skenario evaluasi. Anda dapat menjelajahi semua kumpulan data tolok ukur yang tersedia di sini, masing-masing dikurasi dengan cermat untuk menantang dan menyempurnakan model bahasa Anda. Baik Anda fokus pada Tanya-Jawab, peringkasan teks, dll, LangTest memastikan Anda memiliki data yang tepat untuk mendorong model Anda hingga batasnya dan mencapai performa puncak dalam beragam tugas linguistik.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
Catatan Untuk contoh penggunaan dan dokumentasi yang lebih lengkap, kunjungi langtest.org
Anda dapat melihat artikel LangTest berikut:
blog | Keterangan |
---|---|
Secara Otomatis Menguji Bias Demografis dalam Rencana Perawatan Klinis yang Dihasilkan oleh Model Bahasa Besar | Membantu dalam memahami dan menguji bias demografis dalam rencana perawatan klinis yang dihasilkan oleh LLM. |
LangTest: Mengungkap & Memperbaiki Bias dengan Pipeline NLP End-to-End | Saluran bahasa end-to-end di LangTest memberdayakan praktisi NLP untuk mengatasi bias dalam model bahasa dengan pendekatan yang komprehensif, berbasis data, dan berulang. |
Melampaui Akurasi: Pengujian Kekokohan Model Pengenalan Entitas Bernama dengan LangTest | Meskipun keakuratan sangat penting, pengujian ketahanan membawa evaluasi model pemrosesan bahasa alami (NLP) ke tingkat berikutnya dengan memastikan bahwa model dapat bekerja dengan andal dan konsisten di beragam kondisi dunia nyata. |
Tingkatkan Model NLP Anda dengan Augmentasi Data Otomatis untuk Peningkatan Kinerja | Dalam artikel ini, kami membahas bagaimana augmentasi data otomatis dapat meningkatkan kinerja model NLP Anda dan bagaimana kami melakukannya menggunakan LangTest. |
Mengurangi Stereotip Gender-Pekerjaan dalam AI: Mengevaluasi Model dengan Uji Bias Wino melalui Perpustakaan Langtest | Dalam artikel ini, kami membahas bagaimana kita dapat menguji "Bias Wino" menggunakan LangTest. LangTest secara khusus mengacu pada pengujian bias yang timbul dari stereotip gender-pekerjaan. |
Mengotomatiskan AI yang Bertanggung Jawab: Mengintegrasikan Hugging Face dan LangTest untuk Model yang Lebih Kuat | Dalam artikel ini, kami telah menjelajahi integrasi antara Hugging Face, sumber utama Anda untuk model dan kumpulan data NLP yang canggih, dan LangTest, senjata rahasia pipeline NLP Anda untuk pengujian dan pengoptimalan. |
Mendeteksi dan Mengevaluasi Bias Penjilat: Analisis Solusi LLM dan AI | Dalam postingan blog ini, kami membahas masalah perilaku AI yang bersifat menjilat dan tantangan yang ditimbulkannya dalam dunia kecerdasan buatan. Kami mengeksplorasi bagaimana model bahasa terkadang memprioritaskan kesepakatan dibandingkan keaslian, sehingga menghambat percakapan yang bermakna dan tidak memihak. Selain itu, kami mengungkap solusi potensial untuk mengatasi masalah ini, yaitu data sintetis, yang menjanjikan akan merevolusi cara mitra AI terlibat dalam diskusi, menjadikannya lebih andal dan akurat dalam berbagai kondisi dunia nyata. |
Membuka Kedok Sensitivitas Model Bahasa dalam Evaluasi Negasi dan Toksisitas | Dalam postingan blog ini, kami mempelajari Sensitivitas Model Bahasa, memeriksa bagaimana model menangani negasi dan toksisitas dalam bahasa. Melalui pengujian ini, kami memperoleh wawasan tentang kemampuan beradaptasi dan daya tanggap model, yang menekankan perlunya peningkatan berkelanjutan dalam model NLP. |
Mengungkap Bias dalam Model Bahasa: Perspektif Gender, Ras, Disabilitas, dan Sosial Ekonomi | Dalam postingan blog ini, kami mengeksplorasi bias dalam Model Bahasa, dengan fokus pada faktor gender, ras, disabilitas, dan sosial ekonomi. Kami menilai bias ini menggunakan dataset CrowS-Pairs, yang dirancang untuk mengukur bias stereotip. Untuk mengatasi bias ini, kami membahas pentingnya alat seperti LangTest dalam mempromosikan keadilan dalam sistem NLP. |
Mengungkap Bias dalam AI: Bagaimana Gender, Etnis, Agama, dan Ekonomi Membentuk NLP dan Selebihnya | Dalam postingan blog ini, kami mengatasi bias AI tentang bagaimana Gender, Etnis, Agama, dan Ekonomi Membentuk sistem NLP. Kami mendiskusikan strategi untuk mengurangi bias dan mendorong keadilan dalam sistem AI. |
Mengevaluasi Model Bahasa Besar tentang Stereotip Gender-Pekerjaan Menggunakan Uji Bias Wino | Dalam postingan blog ini, kami mendalami pengujian kumpulan data WinoBias di LLM, memeriksa penanganan model bahasa terhadap gender dan peran pekerjaan, metrik evaluasi, dan implikasi yang lebih luas. Mari jelajahi evaluasi model bahasa dengan LangTest pada kumpulan data WinoBias dan hadapi tantangan dalam mengatasi bias dalam AI. |
Menyederhanakan Alur Kerja ML: Mengintegrasikan Pelacakan MLFlow dengan LangTest untuk Evaluasi Model yang Disempurnakan | Dalam postingan blog ini, kami menyelami meningkatnya kebutuhan akan pelacakan model yang transparan, sistematis, dan komprehensif. Masukkan MLFlow dan LangTest: dua alat yang, jika digabungkan, akan menciptakan pendekatan revolusioner terhadap pengembangan ML. |
Menguji Kemampuan Menjawab Pertanyaan Model Bahasa Besar | Dalam postingan blog ini, kami mendalami peningkatan kemampuan evaluasi QA menggunakan pustaka LangTest. Jelajahi berbagai metode evaluasi yang ditawarkan LangTest untuk mengatasi kompleksitas evaluasi tugas Question Answering (QA). |
Mengevaluasi Bias Stereotip dengan LangTest | Dalam postingan blog ini, kami berfokus pada penggunaan kumpulan data StereoSet untuk menilai bias terkait gender, profesi, dan ras. |
Menguji Kekokohan Model Analisis Sentimen Berbasis LSTM | Jelajahi ketangguhan model kustom dengan LangTest Insights. |
LangTest Insights: Menyelami Kekokohan LLM di OpenBookQA | Jelajahi ketangguhan Model Bahasa (LLM) pada kumpulan data OpenBookQA dengan LangTest Insights. |
LangTest: Senjata Rahasia untuk Meningkatkan Kekokohan Model Bahasa Transformers Anda | Jelajahi ketangguhan Model Bahasa Transformers dengan LangTest Insights. |
Evaluasi Model Penguasaan: Memperkenalkan Sistem Pemeringkatan & Papan Peringkat Komprehensif di LangTest | Sistem Pemeringkatan & Papan Peringkat Model oleh LangTest dari John Snow Labs menawarkan pendekatan sistematis untuk mengevaluasi model AI dengan peringkat komprehensif, perbandingan historis, dan wawasan spesifik kumpulan data, memberdayakan peneliti dan ilmuwan data untuk membuat keputusan berdasarkan data mengenai kinerja model. |
Mengevaluasi Respons Bentuk Panjang dengan Prometheus-Eval dan Langtest | Prometheus-Eval dan LangTest bersatu untuk menawarkan solusi sumber terbuka, andal, dan hemat biaya untuk mengevaluasi respons jangka panjang, menggabungkan kinerja tingkat GPT-4 Prometheus dan kerangka pengujian LangTest yang kuat untuk memberikan umpan balik yang terperinci dan dapat ditafsirkan serta akurasi tinggi dalam penilaian. |
Memastikan Ketepatan LLM dalam Domain Medis: Tantangan Pertukaran Nama Obat | Identifikasi nama obat yang akurat sangat penting untuk keselamatan pasien. Pengujian GPT-4o dengan uji konversi obat_generik_ke_merek dari LangTest mengungkapkan potensi kesalahan dalam memprediksi nama obat ketika nama merek diganti dengan bahan, sehingga menyoroti perlunya penyempurnaan berkelanjutan dan pengujian ketat untuk memastikan keakuratan dan keandalan LLM medis. |
Catatan Untuk memeriksa semua blog, buka Blogs
#langtest
Meskipun banyak perbincangan mengenai perlunya melatih model AI yang aman, kuat, dan adil - hanya sedikit alat yang tersedia bagi ilmuwan data untuk mencapai tujuan ini. Akibatnya, model NLP garis depan dalam sistem produksi mencerminkan keadaan yang menyedihkan.
Di sini kami mengusulkan proyek komunitas sumber terbuka tahap awal yang bertujuan untuk mengisi kesenjangan ini, dan kami ingin Anda bergabung dengan kami dalam misi ini. Kami bertujuan untuk membangun fondasi yang diletakkan oleh penelitian sebelumnya seperti Ribeiro dkk. (2020), Lagu dkk. (2020), Parrish dkk. (2021), van Aken dkk. (2021) dan masih banyak lainnya.
John Snow Labs memiliki tim pengembangan penuh yang dialokasikan untuk proyek ini dan berkomitmen untuk meningkatkan perpustakaan selama bertahun-tahun, seperti yang kami lakukan dengan perpustakaan sumber terbuka lainnya. Harapkan rilis yang sering dengan jenis pengujian, tugas, bahasa, dan platform baru yang akan ditambahkan secara berkala. Kami berharap dapat bekerja sama untuk mewujudkan NLP yang aman, andal, dan bertanggung jawab menjadi kenyataan sehari-hari.
Catatan Untuk penggunaan dan dokumentasi, kunjungi langtest.org
Kami menyambut segala macam kontribusi:
Ikhtisar rinci tentang kontribusi dapat ditemukan di panduan kontribusi .
Jika Anda ingin mulai bekerja dengan basis kode LangTest, navigasikan ke tab "masalah" GitHub dan mulailah mencari masalah yang menarik. Ada sejumlah masalah yang tercantum di bawah ini di mana Anda dapat memulai. Atau mungkin dengan menggunakan LangTest Anda memiliki ide sendiri atau mencari sesuatu di dokumentasi dan berpikir 'Ini dapat ditingkatkan'...Anda dapat melakukan sesuatu untuk mengatasinya!
Jangan ragu untuk mengajukan pertanyaan pada diskusi Tanya Jawab.
Sebagai kontributor dan pengelola proyek ini, Anda diharapkan mematuhi kode etik LangTest. Informasi lebih lanjut dapat ditemukan di: Kode Etik Kontributor
Kami telah menerbitkan makalah yang dapat Anda kutip untuk perpustakaan LangTest:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
Kami ingin mengucapkan terima kasih kepada semua kontributor proyek komunitas sumber terbuka ini.
LangTest dirilis di bawah Lisensi Apache 2.0, yang menjamin penggunaan komersial, modifikasi, distribusi, penggunaan paten, penggunaan pribadi dan menetapkan batasan pada penggunaan merek dagang, tanggung jawab dan garansi.