Repositori untuk mengevaluasi LLM dalam tugas pembuatan
Berita Terbaru
[2024/06] Kami merilis BiGGen-Bench dan Prometheus 2 BGB (8x7B) !
BiGGen-Bench menampilkan 9 kemampuan inti, 77 tugas, dan 765 instance yang dibuat dengan cermat, masing-masing dengan kriteria evaluasi spesifik.
Kami mengevaluasi 103 model bahasa frontier dengan 5 model bahasa evaluator canggih dan menganalisis temuan dalam makalah kami.
Kami terus melatih Prometheus 2 8x7B pada penelusuran evaluasi BiGGen-Bench dan membangun evaluator kami yang paling mumpuni, LM Prometheus 2 BGB, bahkan melampaui Claude-3-Opus dalam tugas penilaian absolut.
Lihat kumpulan data kami, hasil evaluasi, papan peringkat, laporan interaktif, dan kodenya!
[2024/05] Kami merilis model Prometheus 2 (7B & 8x7B)!
Ini mencapai setidaknya 80% dari statistik evaluasi atau kinerja Prometheus 2 (8x7B)
Ini hanya membutuhkan VRAM 16 GB, sehingga cocok untuk dijalankan pada GPU konsumen.
Dibandingkan dengan Prometheus 1 (13B), Prometheus 2 (8x7B) menunjukkan peningkatan kinerja evaluasi & mendukung penilaian dalam format peringkat berpasangan (penilaian relatif) juga!
Ini mencapai korelasi Pearson sebesar 0,6 hingga 0,7 dengan GPT-4-1106 pada skala Likert 5 poin di beberapa tolok ukur penilaian langsung, termasuk VicunaBench, MT-Bench, dan FLASK.
Ia juga mendapat skor kesepakatan 72% hingga 85% dengan penilaian manusia di beberapa tolok ukur peringkat berpasangan, termasuk HHH Alignment, MT Bench Human Judgment, dan Auto-J Eval.
Prometheus 2 (8x7B) adalah model bahasa evaluator sumber terbuka yang canggih!
Prometheus 2 (7B) adalah versi lebih ringan dari model Prometheus 2 (8x7B) dengan performa yang wajar (mengungguli Llama-2-70B & setara dengan Mixtral-8x7B).
Instalasi dengan pip:
pip instal prometheus-eval
Prometheus-Eval mendukung inferensi lokal melalui vllm
dan inferensi melalui LLM API dengan bantuan litellm
.
Instal vllm
jika Anda ingin menjalankan Prometheus di lingkungan lokal Anda.
pip instal vllm
Jika Anda tertarik pada:
Memanfaatkan antarmuka Prometheus melalui endpoint VLLM, Huggingface TGI, atau platform lainnya
Memanfaatkan LLM evaluator yang lebih kuat seperti GPT-4
Anda juga dapat memanfaatkan Prometheus-Eval! Untuk rincian instalasi untuk berbagai penyedia, silakan merujuk ke Dokumen Penyedia LiteLLM.
dari prometheus_eval.litellm import LiteLLM, AsyncLiteLLMmodel = LiteLLM('openai/prometheus-eval/prometheus-7b-v2.0') # VLLM endpointmodel = LiteLLM('huggingface/prometheus-eval/prometheus-7b-v2.0') # Huggingface TGImodel = AsyncLiteLLM('gpt-4-turbo', permintaan_per_menit=100) # API GPT-4 (pembuatan async dengan mempertimbangkan batas kecepatan)# Dan masih banyak lagi!judge = PrometheusEval(model=model)
Catatan : perpustakaan prometheus-eval
saat ini dalam tahap beta. Jika Anda mengalami masalah apa pun, beri tahu kami dengan membuat masalah di repositori.
Dengan
prometheus-eval
, mengevaluasi pasangan instruksi dan respons apa pun semudah:
# Penilaian Absolut: Menghasilkan skor 1 hingga 5dari prometheus_eval.vllm import VLLMfrom prometheus_eval import PrometheusEvalfrom prometheus_eval.prompts import ABSOLUTE_PROMPT, SCORE_RUBRIC_TEMPLATEmodel = VLLM(model="prometheus-eval/prometheus-7b-v2.0")judge = PrometheusEval(model= model, absolute_grade_template=ABSOLUTE_PROMPT)instruction = "Berjuang dengan putus cinta baru-baru ini, seseorang membuka diri tentang perasaan kesepian dan kesedihan yang mendalam. Mereka meminta nasihat tentang cara mengatasi patah hati dan melangkah maju dalam hidup.",response = " Saya benar-benar turut prihatin mendengar tentang perpisahan Anda. Ini bisa menjadi saat yang sangat menantang yang dipenuhi dengan emosi kesepian dan kesedihan yang intens. Penting untuk diingat bahwa mengalami perasaan ini adalah hal yang wajar; bukti hubungan mendalam yang pernah Anda miliki. Pertama, jangan ragu untuk menerima emosi Anda, biarkan mengalir dengan bebas. Mengabaikannya sering kali mempersulit proses penyembuhan. Ini semua adalah bagian dari perjalanan menuju penyembuhan. Perawatan diri dapat menjadi obat yang menyembuhkan di masa-masa sulit ini. Ini bisa berarti menikmati buku favorit Anda, mencatat pemikiran Anda, atau bahkan sekadar menikmati secangkir teh. Tindakan kebaikan kecil terhadap diri sendiri dapat meningkatkan kesejahteraan emosional Anda secara signifikan. Selain itu, jangan mengisolasi diri sendiri. Kelilingi diri Anda dengan orang-orang suportif yang dapat memberikan kenyamanan dan pengertian. Ini mungkin termasuk teman, keluarga, atau bahkan ahli kesehatan mental. Mereka dapat memberikan dukungan emosional dan strategi yang sangat dibutuhkan untuk membantu Anda mengatasinya. Terakhir, ingatlah bahwa tidak ada batas waktu yang pasti untuk penyembuhan. Ini berbeda untuk setiap orang dan tidak masalah untuk memakan waktu selama Anda membutuhkannya. Pertahankan fokus Anda pada masa depan dan potensi yang dimilikinya. Meskipun saat ini tampaknya tidak mungkin, Anda akan menjadi lebih kuat dari pengalaman ini. Tidak apa-apa untuk meminta bantuan, tidak apa-apa untuk bersedih, dan tidak apa-apa untuk melakukannya satu per satu. Anda tidak sendirian dalam perjalanan ini, dan ada orang-orang yang siap dan bersedia membantu. Tidak apa-apa untuk menyembuhkan dengan kecepatan Anda sendiri.",reference_answer = "Saya hanya bisa membayangkan betapa sulitnya saat ini bagi Anda. Patah hati bisa terasa seperti gelombang besar yang melanda Anda, membuat Anda merasa tersesat dan sendirian. Penting untuk diingat bahwa tidak apa-apa untuk merasa seperti ini; perasaan Anda valid dan wajar jika Anda berduka karena kehilangan suatu hubungan. Pertama, penting untuk membiarkan diri Anda merasakan emosi sepenuhnya. Menekan atau menyangkalnya sering kali hanya akan memperpanjang proses penyembuhan. Tidak apa-apa untuk menangis, merasa sedih, atau marah. Ini semua adalah bagian dari perjalanan penyembuhan. Terlibat dalam aktivitas perawatan diri juga dapat memberikan dorongan yang sangat dibutuhkan. Ini bisa berupa apa saja mulai dari mandi air hangat, menulis jurnal, atau sekadar minum secangkir teh favorit Anda. Tindakan kecil untuk mencintai diri sendiri dapat membuat perbedaan besar dalam perasaan Anda. Berikutnya, cobalah mengelilingi diri Anda dengan orang-orang suportif yang memahami situasi Anda dan memberikan kenyamanan. Teman dan keluarga bisa menjadi sumber kekuatan di saat patah hati. Jika Anda merasa nyaman, Anda mungkin ingin mempertimbangkan untuk mencari bantuan profesional. Terapis dan konselor dilatih untuk memberikan bantuan dan alat untuk melewati masa-masa sulit seperti ini. Terakhir, penting untuk diingat bahwa tidak apa-apa meluangkan waktu untuk menyembuhkan. Setiap orang memiliki kecepatannya masing-masing dan tidak perlu terburu-buru. Cobalah untuk fokus pada masa depan dan kemungkinan yang ada. Meskipun sekarang mungkin tidak tampak seperti itu, Anda akan menjadi lebih kuat dan tangguh dari pengalaman ini. Ingat, tidak apa-apa untuk meminta bantuan dan tidak apa-apa untuk merasakan apa yang Anda rasakan. Anda tidak sendirian dalam perjalanan ini dan ada orang-orang yang peduli pada Anda dan ingin membantu. Tidak apa-apa untuk mengambil satu hari pada satu waktu. Penyembuhan adalah sebuah proses, dan Anda boleh melakukannya sesuai keinginan Anda.",rubric_data = { "criteria":"Apakah model mahir dalam menerapkan empati dan kecerdasan emosional pada responsnya ketika pengguna menyampaikan emosi atau menghadapi keadaan yang menantang? ", "score1_description":"Model mengabaikan untuk mengidentifikasi atau bereaksi terhadap nada emosional masukan pengguna, memberikan respons yang tidak sesuai atau tidak sensitif secara emosional.", "score2_description":"Model sesekali mengakui emosi konteks tetapi sering kali merespons tanpa empati atau pemahaman emosional yang memadai.", "score3_description":"Model ini biasanya mengidentifikasi konteks emosional dan berupaya menjawab dengan empati, namun responsnya terkadang tidak tepat sasaran atau kurang mendalam secara emosional.", "score4_description": “Model ini secara konsisten mengidentifikasi dan bereaksi sesuai konteks emosional, memberikan respons empati. Meskipun demikian, mungkin masih ada kekeliruan atau kekurangan secara sporadis dalam kedalaman emosional.", "score5_description":"Model ini unggul dalam mengidentifikasi konteks emosional dan terus-menerus menawarkan respons yang penuh empati dan sadar secara emosional yang menunjukkan pemahaman mendalam tentang emosi atau situasi pengguna."} score_rubric = SCORE_RUBRIC_TEMPLATE.format(**rubric_data)umpan balik, skor = judge.single_absolute_grade(instruction=instruction,response=response,rubric=score_rubric,reference_answer=reference_answer)print("Feedback:", feedback)print("Score:", score)# Output# Feedback: Respon yang diberikan menunjukkan tingkat tinggi empati dan kecerdasan emosional. Ini secara efektif mengatasi tekanan emosional yang diungkapkan oleh pengguna. Ini mengakui rasa sakit pengguna dan memvalidasi perasaan kesepian dan kesedihan mereka, yang merupakan aspek penting memberikan nasihat yang berempati. Tanggapan tersebut juga menyarankan langkah-langkah praktis untuk mengatasi masalah, seperti menerima emosi, mempraktikkan perawatan diri, dan mencari dukungan dari teman, keluarga, atau profesional. Lebih jauh lagi, respons tersebut meyakinkan pengguna bahwa penyembuhan adalah proses pribadi tanpa batas waktu yang tetap, sehingga menawarkan kenyamanan dan pengertian. Ini menekankan nilai dan potensi pengguna untuk mengatasi situasi tersebut, yang menunjukkan pemahaman mendalam tentang emosi dan situasi pengguna. Dengan membandingkan rubrik skor dengan respon yang diberikan, terlihat jelas bahwa model tersebut menunjukkan kemampuan yang sangat baik dalam menerapkan empati dan kecerdasan emosional. Respon yang diberikan tidak memiliki kekurangan dalam kedalaman emosional dan berhasil memenuhi kriteria skor 5.# Skor: 5
# Penilaian Relatif: Keluaran A atau Bdari prometheus_eval.vllm import VLLMfrom prometheus_eval import PrometheusEvalfrom prometheus_eval.prompts import RELATIVE_PROMPTmodel = VLLM(model="prometheus-eval/prometheus-7b-v2.0")judge = PrometheusEval(model=model, relative_grade_template=RELATIVE_PROMPT)data = { "instruction": "Sekelompok sejarawan sedang melakukan perdebatan tentang faktor-faktor yang menyebabkan jatuhnya Kekaisaran Romawi. Salah satu sejarawan berpendapat bahwa alasan utama jatuhnya Kekaisaran Romawi adalah tekanan terus-menerus dari invasi kaum barbar Ada pula yang berpendapat bahwa hal ini disebabkan oleh masalah ekonomi dan ketergantungan yang berlebihan terhadap tenaga kerja paksa. Sedangkan pendapat yang lain berpendapat bahwa hal ini disebabkan oleh kerusakan moral dan ketidakstabilan politik memperdebatkan masalah ekonomi dan ketergantungan yang berlebihan pada tenaga kerja budak menyajikan kasus mereka?", "response_A": "Sejarawan yang berpendapat bahwa masalah ekonomi dan ketergantungan yang berlebihan pada tenaga kerja budak menyebabkan jatuhnya Kekaisaran Romawi akan mengatakan ini: Perekonomian Kekaisaran sangat terpengaruh oleh devaluasi mata uang Romawi. Penurunan nilai mata uang ini mengakibatkan inflasi merajalela sehingga mengganggu stabilitas perekonomian. Selain itu, Kekaisaran Romawi sangat bergantung pada tenaga kerja budak. Hal ini menyebabkan pengangguran di kalangan warga negara bebas karena memelihara budak lebih murah daripada mempekerjakan warga negara bebas. Menurunnya kesempatan kerja mengakibatkan ketidakstabilan perekonomian. Selain itu, ekspansi kekaisaran ke arah timur membuat mereka bergantung pada impor, seperti gandum dari Mesir. Ketergantungan yang berlebihan pada impor menyebabkan defisit perdagangan, yang selanjutnya melemahkan perekonomian. Ketika kekaisaran kehilangan wilayah, menjaga ketidakseimbangan perdagangan menjadi sulit dan menyebabkan keruntuhan ekonomi. Dengan demikian, permasalahan ekonomi dan ketergantungan yang berlebihan pada tenaga kerja budak merupakan salah satu alasan utama jatuhnya Kekaisaran Romawi.", "response_B": "Sejarawan yang memperdebatkan masalah ekonomi dan ketergantungan yang berlebihan pada tenaga kerja budak akan menyajikan kasus mereka dengan mengutip faktor-faktor ekonomi utama yang menyebabkan berkontribusi pada kemunduran Kekaisaran Romawi. Harper (2016) menguraikan bagaimana devaluasi mata uang Romawi menyebabkan inflasi sehingga mengganggu stabilitas ekonomi. Selain itu, Scheidel (2007) menekankan bahwa penggunaan budak yang berlebihan mengakibatkan meluasnya pengangguran di kalangan warga negara bebas, sehingga semakin mengganggu stabilitas perekonomian. Ketergantungan kekaisaran pada impor biji-bijian dari Mesir, yang menciptakan defisit perdagangan seperti yang disoroti oleh Temin (2006), juga berkontribusi terhadap penurunan perekonomian. Oleh karena itu, kombinasi dari faktor-faktor ini memainkan peran penting dalam jatuhnya Kekaisaran Romawi.", "reference_answer": "Argumen ini berfokus pada masalah ekonomi dan ketergantungan yang berlebihan pada tenaga kerja budak sebagai alasan utama jatuhnya Kekaisaran Romawi. Salah satu bukti penting adalah devaluasi mata uang Romawi. Sebagaimana disoroti oleh Harper (2016), kekaisaran tersebut mengalami inflasi yang parah akibat penurunan nilai mata uang yang terus-menerus, sehingga menyulitkan perekonomian untuk tetap stabil. Selain itu, ketergantungan yang berlebihan pada tenaga kerja budak juga memainkan peran yang merugikan. Seperti yang ditunjukkan oleh Scheidel (2007), ketergantungan pada budak menyebabkan pengangguran di kalangan warga negara Romawi yang merdeka. Hal ini karena biaya pemeliharaan budak secara signifikan lebih murah dibandingkan dengan mempekerjakan warga negara yang bebas, sehingga menyebabkan penurunan kesempatan kerja, yang pada akhirnya mengakibatkan ketidakstabilan ekonomi. Selain itu, ekspansi kekaisaran ke timur membuat mereka sangat bergantung pada impor, misalnya gandum dari Mesir. Sebagaimana dicatat oleh Temin (2006), hal ini menciptakan defisit perdagangan yang semakin melemahkan perekonomian Romawi. Ketika kekaisaran mulai kehilangan wilayahnya, ketidakseimbangan perdagangan menjadi semakin sulit dipertahankan, sehingga menyebabkan kemerosotan ekonomi. Kesimpulannya, dapat dikatakan bahwa permasalahan ekonomi, yang terutama disebabkan oleh devaluasi mata uang dan ketergantungan yang berlebihan pada tenaga kerja budak, merupakan faktor penting yang berkontribusi terhadap jatuhnya Kekaisaran Romawi. Bukti yang diberikan, termasuk referensi ilmiah dari Harper (2016), Scheidel (2007), dan Temin (2006), mendukung tesis ini.", "rubric": "Apakah jawaban didukung dengan bukti, termasuk kutipan/atribusi jika relevan ?"}umpan balik, skor = judge.single_relative_grade(**data)print("Umpan Balik:", umpan balik)print("Skor:", skor)# Keluaran# Umpan Balik: Respons A dan Respons B dengan tepat mengidentifikasi permasalahan ekonomi dan ketergantungan yang berlebihan pada tenaga kerja paksa sebagai faktor penting yang berkontribusi terhadap jatuhnya Kekaisaran Romawi. Namun, Respons B lebih efektif dalam menyajikan argumen sejarawan karena menyertakan sumber-sumber ilmiah untuk mendukung klaimnya. ini merujuk pada karya Harper, Scheidel, dan Temin, yang menambah kredibilitas argumen sejarawan dan selaras dengan penekanan rubrik skor pada bukti dan kutipan bentuk kutipan atau atribusi, yang mengurangi kekuatan bukti yang disajikan. Oleh karena itu, berdasarkan rubrik yang tersedia, Jawaban B merupakan jawaban yang lebih unggul karena menggunakan bukti ilmiah untuk mendukung klaim sejarawan.# Nilai: B
Catatan : Jika Anda memiliki beberapa respons terhadap nilai, jangan gunakan single_absolute_grade
/ single_relative_grade
- sebagai gantinya, gunakan absolute_grade
dan relative_grade
! Ini akan memberi Anda kecepatan lebih dari 10x.
# batch instruksi nilai absolut = [...] # Daftar instruksiresponses = [...] # Daftar responsreference_answers = [...] # Daftar referensi jawabanrubric = "..." # String rubrikfeedbacks, skor = juri.absolute_grade (instructions=instructions,responses=responses,rubric=rubric,reference_answers=reference_answers)# batch relative gradeinstructions = [...] # Daftar instructionresponses_from_a = [...] # Daftar responresponses_from_b = [...]reference_answers = [...] # Daftar referensi jawabanrubric = "..." # String rubrikfeedbacks, score = judge.relative_grade(instructions=instructions,responses_A=responses_from_a,responses_B=responses_from_b,rubric=rubric ,referensi_jawaban=referensi_jawaban)
Prometheus-Eval adalah repositori yang menyediakan kumpulan alat untuk melatih, mengevaluasi, dan menggunakan model bahasa yang dikhususkan untuk mengevaluasi model bahasa lainnya. Repositori mencakup komponen-komponen berikut:
Paket Python prometheus-eval
, yang menyediakan antarmuka sederhana untuk mengevaluasi pasangan instruksi-respons menggunakan Prometheus.
Pengumpulan kumpulan data evaluasi untuk pelatihan dan evaluasi model Prometheus.
Skrip untuk melatih model Prometheus atau menyempurnakan kumpulan data khusus.
Prometheus adalah keluarga model bahasa sumber terbuka yang khusus mengevaluasi model bahasa lain. Dengan secara efektif melakukan simulasi penilaian manusia dan evaluasi berbasis LM, kami bertujuan untuk menyelesaikan permasalahan berikut:
Keadilan : Tidak mengandalkan model sumber tertutup untuk evaluasi!
Pengendalian : Anda tidak perlu khawatir tentang pembaruan versi GPT atau mengirimkan data pribadi Anda ke OpenAI dengan membangun jalur evaluasi internal
Keterjangkauan : Jika Anda sudah memiliki GPU, penggunaannya gratis!
Dibandingkan dengan model Prometheus 1, model Prometheus 2 mendukung penilaian langsung (penilaian absolut) dan pemeringkatan berpasangan (penilaian relatif).
Anda dapat beralih mode dengan menyediakan format perintah masukan dan perintah sistem yang berbeda. Di dalam prompt, Anda harus mengisi rubrik instruksi, tanggapan, dan penilaian dengan data Anda sendiri. Secara opsional, Anda juga dapat menambahkan jawaban referensi yang menghasilkan kinerja lebih baik!
prometheus-eval
Paket prometheus-eval
menyediakan antarmuka sederhana untuk mengevaluasi pasangan instruksi-respons menggunakan Prometheus. Paket ini mencakup metode berikut:
absolute_grade
: Mengevaluasi respons tunggal berdasarkan instruksi yang diberikan, jawaban referensi, dan rubrik skor. Menghasilkan skor antara 1 dan 5.
relative_grade
: Mengevaluasi dua respons berdasarkan instruksi yang diberikan dan rubrik skor. Keluaran 'A' atau 'B' berdasarkan respon yang lebih baik.
Jika Anda lebih suka langsung mengerjakan beban yang diunggah di Huggingface Hub, Anda dapat langsung mengunduh model beban!
dari transformator impor AutoModelForCausalLM, AutoTokenizerdevice = "cuda" # perangkat untuk memuat model ke model = AutoModelForCausalLM.from_pretrained("prometheus-eval/prometheus-7b-v2.0")tokenizer = AutoTokenizer.from_pretrained("prometheus-eval/prometheus- 7b-v2.0")ABS_SYSTEM_PROMPT = "Anda adalah a asisten hakim yang adil bertugas memberikan umpan balik yang jelas dan obyektif berdasarkan kriteria tertentu, memastikan setiap penilaian mencerminkan standar absolut yang ditetapkan untuk kinerja."ABSOLUTE_PROMPT = """###Deskripsi Tugas:Sebuah instruksi (mungkin menyertakan Input di dalamnya), a tanggapan untuk menilai, diberikan referensi jawaban yang mendapat skor 5, dan diberikan rubrik skor yang mewakili kriteria evaluasi. 1. Tuliskan tanggapan rinci yang menilai kualitas tanggapan secara ketat berdasarkan rubrik skor yang diberikan, bukan penilaian secara umum .2. Setelah menulis a umpan balik, tulis skor yang merupakan bilangan bulat antara 1 dan 5. Anda harus mengacu pada rubrik skor.3. Format keluarannya akan terlihat sebagai berikut: "Umpan Balik: (tulis umpan balik untuk kriteria) [HASIL] (bilangan bulat antara 1 dan 5)"4. Mohon tidak membuat pembukaan, penutup, dan penjelasan lainnya.###Instruksi untuk mengevaluasi:{instruction}###Respon untuk mengevaluasi:{response}###Referensi Jawaban (Skor 5):{reference_answer}### Rubrik Skor:{rubrik}###Umpan Balik: """user_content = ABS_SYSTEM_PROMPT + "nn" + ABSOLUTE_PROMPT.format(...) # Isi prompt dengan pesan data Anda = [ {"peran": "pengguna", "konten": konten_pengguna}, ]dikodekan = tokenizer.apply_chat_template(messages, return_tensors="pt")model_inputs = dikodekan.to(device)model.to(device)generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)decoded = tokenizer.batch_decode(generated_ids)print(didekode[0])
Bagian | Keterangan |
---|---|
Evaluasi BiGGen-Bench | Petunjuk untuk mengevaluasi LM Anda di BiGGen-Bench. Anda juga dapat merujuk pada penerapannya sebagai tolok ukur evaluasi Anda sendiri. |
Pelatihan Prometheus | Petunjuk untuk mereplikasi model Prometheus 2. Berdasarkan repositori buku pegangan penyelarasan. |
Menggunakan Prometheus sebagai filter kualitas data | Buku masak untuk menggunakan Prometheus 2 sebagai filter kualitas dalam pembuatan data sintetis. Terima kasih banyak kepada tim distilabel! ? |
Menggunakan Prometheus sebagai evaluator di RAG | Buku masak untuk menggunakan aplikasi Prometheus 2 RAG. Terima kasih banyak kepada tim LlamaIndex! ? |
Basis kode yang mendasari pelatihan berasal dari Alignment Handbook Huggingface dan repositori Super Mario Merging. Selain itu, sebagai inferensi, ia banyak menggunakan litelm, vllm, dan pustaka transformator. Terima kasih yang sebesar-besarnya kepada semua kontributor untuk repositori yang luar biasa ini!! ?
Jika Anda merasa karya kami bermanfaat, mohon pertimbangkan untuk mengutip makalah kami!
@misc{kim2024prometheus, title={Prometheus 2: Model Bahasa Sumber Terbuka yang Khusus Mengevaluasi Model Bahasa Lain}, author={Seungone Kim dan Juyoung Suk dan Shayne Longpre dan Bill Yuchen Lin dan Jamin Shin dan Sean Welleck dan Graham Neubig dan Moontae Lee dan Kyungjae Lee dan Minjoon Seo}, year={2024}, eprint={2405.01535}, archivePrefix={ arXiv}, Kelas utama={cs.CL}}
@article{kim2023prometheus, title={Prometheus: Mendorong Kemampuan Evaluasi yang Mendalam dalam Model Bahasa}, author={Kim, Seungone dan Shin, Jamin dan Cho, Yejin dan Jang, Joel dan Longpre, Shayne dan Lee, Hwaran dan Yun, Sangdoo dan Shin, Seongjin dan Kim, Sungdong dan Thorne, James dan lainnya}, journal={arXiv preprint arXiv:2310.08491}, tahun={2023}}
@misc{lee2024prometheusvision, title={Prometheus-Vision: Model Visi-Bahasa sebagai Juri untuk Evaluasi Mendalam}, author={Seongyun Lee dan Seungone Kim dan Sue Hyun Park dan Geewook Kim dan Minjoon Seo}, year={2024}, eprint={2401.06591}, archivePrefix={arXiv}, primaryClass={cs.CL}}
@misc{kim2024biggen, title={Bench BiGGen: Tolok Ukur Berprinsip untuk Evaluasi Mendetail Model Bahasa dengan Model Bahasa}, author={Seungone Kim dan Juyoung Suk dan Ji Yong Cho dan Shayne Longpre dan Chaeeun Kim dan Dongkeun Yoon dan Guijin Son dan Yejin Cho dan Sheikh Shafayat dan Jinheon Baek dan Sue Hyun Park dan Hyeonbin Hwang dan Jinkyung Jo dan Hyowon Cho dan Haebin Shin dan Seongyun Lee dan Hanseok Oh dan Noah Lee dan Namgyu Ho dan Se June Joo dan Miyoung Ko dan Yoonjoo Lee dan Hyungjoo Chae dan Jamin Shin dan Joel Jang dan Seonghyeon Ye dan Bill Yuchen Lin dan Sean Welleck dan Graham Neubig dan Moontae Lee dan Kyungjae Lee dan Minjoon Seo}, year={2024}, eprint={2406.05761}, archivePrefix={arXiv}, primaryClass={cs. CL}}