Unduhan langtest - pengunduhan kode sumber langtest

langtest

Kode Sumber AI

1.0.0

Unduh

Situs Web Proyek • Fitur Utama • Cara Menggunakan • Kumpulan Data Tolok Ukur • Dukungan Komunitas • Berkontribusi • Misi • Lisensi

Situs Web Proyek

Lihatlah halaman resmi kami untuk dokumentasi pengguna dan contohnya: langtest.org

Fitur Utama

Hasilkan dan jalankan lebih dari 60 jenis pengujian berbeda hanya dengan 1 baris kode
Uji semua aspek kualitas model: ketahanan, bias, representasi, keadilan, dan akurasi.
Secara otomatis menambah data pelatihan berdasarkan hasil pengujian (untuk model tertentu)
Dukungan untuk kerangka NLP populer untuk NER, Terjemahan dan Klasifikasi Teks: Spark NLP, Hugging Face & Transformers.
Dukungan untuk pengujian LLMS (OpenAI, Cohere, AI21, Hugging Face Inference API, dan Azure-OpenAI LLMs) untuk menjawab pertanyaan, toksisitas, uji klinis, dukungan hukum, faktualitas, penjilatan, ringkasan, dan pengujian populer lainnya.

Kumpulan Data Tolok Ukur

LangTest hadir dengan kumpulan data berbeda untuk menguji model Anda, yang mencakup berbagai kasus penggunaan dan skenario evaluasi. Anda dapat menjelajahi semua kumpulan data tolok ukur yang tersedia di sini, masing-masing dikurasi dengan cermat untuk menantang dan menyempurnakan model bahasa Anda. Baik Anda fokus pada Tanya-Jawab, peringkasan teks, dll, LangTest memastikan Anda memiliki data yang tepat untuk mendorong model Anda hingga batasnya dan mencapai performa puncak dalam beragam tugas linguistik.

Cara Menggunakan

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

Catatan Untuk contoh penggunaan dan dokumentasi yang lebih lengkap, kunjungi langtest.org

Blog Ai yang Bertanggung Jawab

Anda dapat melihat artikel LangTest berikut:

blog	Keterangan
Secara Otomatis Menguji Bias Demografis dalam Rencana Perawatan Klinis yang Dihasilkan oleh Model Bahasa Besar	Membantu dalam memahami dan menguji bias demografis dalam rencana perawatan klinis yang dihasilkan oleh LLM.
LangTest: Mengungkap & Memperbaiki Bias dengan Pipeline NLP End-to-End	Saluran bahasa end-to-end di LangTest memberdayakan praktisi NLP untuk mengatasi bias dalam model bahasa dengan pendekatan yang komprehensif, berbasis data, dan berulang.
Melampaui Akurasi: Pengujian Kekokohan Model Pengenalan Entitas Bernama dengan LangTest	Meskipun keakuratan sangat penting, pengujian ketahanan membawa evaluasi model pemrosesan bahasa alami (NLP) ke tingkat berikutnya dengan memastikan bahwa model dapat bekerja dengan andal dan konsisten di beragam kondisi dunia nyata.
Tingkatkan Model NLP Anda dengan Augmentasi Data Otomatis untuk Peningkatan Kinerja	Dalam artikel ini, kami membahas bagaimana augmentasi data otomatis dapat meningkatkan kinerja model NLP Anda dan bagaimana kami melakukannya menggunakan LangTest.
Mengurangi Stereotip Gender-Pekerjaan dalam AI: Mengevaluasi Model dengan Uji Bias Wino melalui Perpustakaan Langtest	Dalam artikel ini, kami membahas bagaimana kita dapat menguji "Bias Wino" menggunakan LangTest. LangTest secara khusus mengacu pada pengujian bias yang timbul dari stereotip gender-pekerjaan.
Mengotomatiskan AI yang Bertanggung Jawab: Mengintegrasikan Hugging Face dan LangTest untuk Model yang Lebih Kuat	Dalam artikel ini, kami telah menjelajahi integrasi antara Hugging Face, sumber utama Anda untuk model dan kumpulan data NLP yang canggih, dan LangTest, senjata rahasia pipeline NLP Anda untuk pengujian dan pengoptimalan.
Mendeteksi dan Mengevaluasi Bias Penjilat: Analisis Solusi LLM dan AI	Dalam postingan blog ini, kami membahas masalah perilaku AI yang bersifat menjilat dan tantangan yang ditimbulkannya dalam dunia kecerdasan buatan. Kami mengeksplorasi bagaimana model bahasa terkadang memprioritaskan kesepakatan dibandingkan keaslian, sehingga menghambat percakapan yang bermakna dan tidak memihak. Selain itu, kami mengungkap solusi potensial untuk mengatasi masalah ini, yaitu data sintetis, yang menjanjikan akan merevolusi cara mitra AI terlibat dalam diskusi, menjadikannya lebih andal dan akurat dalam berbagai kondisi dunia nyata.
Membuka Kedok Sensitivitas Model Bahasa dalam Evaluasi Negasi dan Toksisitas	Dalam postingan blog ini, kami mempelajari Sensitivitas Model Bahasa, memeriksa bagaimana model menangani negasi dan toksisitas dalam bahasa. Melalui pengujian ini, kami memperoleh wawasan tentang kemampuan beradaptasi dan daya tanggap model, yang menekankan perlunya peningkatan berkelanjutan dalam model NLP.
Mengungkap Bias dalam Model Bahasa: Perspektif Gender, Ras, Disabilitas, dan Sosial Ekonomi	Dalam postingan blog ini, kami mengeksplorasi bias dalam Model Bahasa, dengan fokus pada faktor gender, ras, disabilitas, dan sosial ekonomi. Kami menilai bias ini menggunakan dataset CrowS-Pairs, yang dirancang untuk mengukur bias stereotip. Untuk mengatasi bias ini, kami membahas pentingnya alat seperti LangTest dalam mempromosikan keadilan dalam sistem NLP.
Mengungkap Bias dalam AI: Bagaimana Gender, Etnis, Agama, dan Ekonomi Membentuk NLP dan Selebihnya	Dalam postingan blog ini, kami mengatasi bias AI tentang bagaimana Gender, Etnis, Agama, dan Ekonomi Membentuk sistem NLP. Kami mendiskusikan strategi untuk mengurangi bias dan mendorong keadilan dalam sistem AI.
Mengevaluasi Model Bahasa Besar tentang Stereotip Gender-Pekerjaan Menggunakan Uji Bias Wino	Dalam postingan blog ini, kami mendalami pengujian kumpulan data WinoBias di LLM, memeriksa penanganan model bahasa terhadap gender dan peran pekerjaan, metrik evaluasi, dan implikasi yang lebih luas. Mari jelajahi evaluasi model bahasa dengan LangTest pada kumpulan data WinoBias dan hadapi tantangan dalam mengatasi bias dalam AI.
Menyederhanakan Alur Kerja ML: Mengintegrasikan Pelacakan MLFlow dengan LangTest untuk Evaluasi Model yang Disempurnakan	Dalam postingan blog ini, kami menyelami meningkatnya kebutuhan akan pelacakan model yang transparan, sistematis, dan komprehensif. Masukkan MLFlow dan LangTest: dua alat yang, jika digabungkan, akan menciptakan pendekatan revolusioner terhadap pengembangan ML.
Menguji Kemampuan Menjawab Pertanyaan Model Bahasa Besar	Dalam postingan blog ini, kami mendalami peningkatan kemampuan evaluasi QA menggunakan pustaka LangTest. Jelajahi berbagai metode evaluasi yang ditawarkan LangTest untuk mengatasi kompleksitas evaluasi tugas Question Answering (QA).
Mengevaluasi Bias Stereotip dengan LangTest	Dalam postingan blog ini, kami berfokus pada penggunaan kumpulan data StereoSet untuk menilai bias terkait gender, profesi, dan ras.
Menguji Kekokohan Model Analisis Sentimen Berbasis LSTM	Jelajahi ketangguhan model kustom dengan LangTest Insights.
LangTest Insights: Menyelami Kekokohan LLM di OpenBookQA	Jelajahi ketangguhan Model Bahasa (LLM) pada kumpulan data OpenBookQA dengan LangTest Insights.
LangTest: Senjata Rahasia untuk Meningkatkan Kekokohan Model Bahasa Transformers Anda	Jelajahi ketangguhan Model Bahasa Transformers dengan LangTest Insights.
Evaluasi Model Penguasaan: Memperkenalkan Sistem Pemeringkatan & Papan Peringkat Komprehensif di LangTest	Sistem Pemeringkatan & Papan Peringkat Model oleh LangTest dari John Snow Labs menawarkan pendekatan sistematis untuk mengevaluasi model AI dengan peringkat komprehensif, perbandingan historis, dan wawasan spesifik kumpulan data, memberdayakan peneliti dan ilmuwan data untuk membuat keputusan berdasarkan data mengenai kinerja model.
Mengevaluasi Respons Bentuk Panjang dengan Prometheus-Eval dan Langtest	Prometheus-Eval dan LangTest bersatu untuk menawarkan solusi sumber terbuka, andal, dan hemat biaya untuk mengevaluasi respons jangka panjang, menggabungkan kinerja tingkat GPT-4 Prometheus dan kerangka pengujian LangTest yang kuat untuk memberikan umpan balik yang terperinci dan dapat ditafsirkan serta akurasi tinggi dalam penilaian.
Memastikan Ketepatan LLM dalam Domain Medis: Tantangan Pertukaran Nama Obat	Identifikasi nama obat yang akurat sangat penting untuk keselamatan pasien. Pengujian GPT-4o dengan uji konversi *obat_generik_ke_merek* dari LangTest mengungkapkan potensi kesalahan dalam memprediksi nama obat ketika nama merek diganti dengan bahan, sehingga menyoroti perlunya penyempurnaan berkelanjutan dan pengujian ketat untuk memastikan keakuratan dan keandalan LLM medis.

Catatan Untuk memeriksa semua blog, buka Blogs

Dukungan Komunitas

Slack Untuk diskusi langsung dengan komunitas LangTest, bergabunglah dengan saluran #langtest
GitHub Untuk laporan bug, permintaan fitur, dan kontribusi
Diskusi Untuk terlibat dengan anggota komunitas lainnya, berbagi ide, dan memamerkan cara Anda menggunakan LangTest!

Misi

Meskipun banyak perbincangan mengenai perlunya melatih model AI yang aman, kuat, dan adil - hanya sedikit alat yang tersedia bagi ilmuwan data untuk mencapai tujuan ini. Akibatnya, model NLP garis depan dalam sistem produksi mencerminkan keadaan yang menyedihkan.

Di sini kami mengusulkan proyek komunitas sumber terbuka tahap awal yang bertujuan untuk mengisi kesenjangan ini, dan kami ingin Anda bergabung dengan kami dalam misi ini. Kami bertujuan untuk membangun fondasi yang diletakkan oleh penelitian sebelumnya seperti Ribeiro dkk. (2020), Lagu dkk. (2020), Parrish dkk. (2021), van Aken dkk. (2021) dan masih banyak lainnya.

John Snow Labs memiliki tim pengembangan penuh yang dialokasikan untuk proyek ini dan berkomitmen untuk meningkatkan perpustakaan selama bertahun-tahun, seperti yang kami lakukan dengan perpustakaan sumber terbuka lainnya. Harapkan rilis yang sering dengan jenis pengujian, tugas, bahasa, dan platform baru yang akan ditambahkan secara berkala. Kami berharap dapat bekerja sama untuk mewujudkan NLP yang aman, andal, dan bertanggung jawab menjadi kenyataan sehari-hari.

Catatan Untuk penggunaan dan dokumentasi, kunjungi langtest.org

Berkontribusi pada LangTest

Kami menyambut segala macam kontribusi:

Ide
Diskusi
Masukan
Dokumentasi
Laporan bug

Ikhtisar rinci tentang kontribusi dapat ditemukan di panduan kontribusi .

Jika Anda ingin mulai bekerja dengan basis kode LangTest, navigasikan ke tab "masalah" GitHub dan mulailah mencari masalah yang menarik. Ada sejumlah masalah yang tercantum di bawah ini di mana Anda dapat memulai. Atau mungkin dengan menggunakan LangTest Anda memiliki ide sendiri atau mencari sesuatu di dokumentasi dan berpikir 'Ini dapat ditingkatkan'...Anda dapat melakukan sesuatu untuk mengatasinya!

Jangan ragu untuk mengajukan pertanyaan pada diskusi Tanya Jawab.

Sebagai kontributor dan pengelola proyek ini, Anda diharapkan mematuhi kode etik LangTest. Informasi lebih lanjut dapat ditemukan di: Kode Etik Kontributor

Kutipan

Kami telah menerbitkan makalah yang dapat Anda kutip untuk perpustakaan LangTest:

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}

Kontributor

Kami ingin mengucapkan terima kasih kepada semua kontributor proyek komunitas sumber terbuka ini.

Lisensi

LangTest dirilis di bawah Lisensi Apache 2.0, yang menjamin penggunaan komersial, modifikasi, distribusi, penggunaan paten, penggunaan pribadi dan menetapkan batasan pada penggunaan merek dagang, tanggung jawab dan garansi.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-01-27
ukuran 69.92MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua