Ein Repository zur Auswertung von LLMs in Generierungsaufgaben
Neueste Nachrichten
[2024/06] Wir veröffentlichen die BiGGen-Bench und Prometheus 2 BGB (8x7B) !
BiGGen-Bench verfügt über 9 Kernfunktionen, 77 Aufgaben und 765 sorgfältig erstellte Instanzen, jede mit spezifischen Bewertungskriterien.
Wir haben 103 Frontier-Sprachmodelle mit fünf hochmodernen Evaluator-Sprachmodellen bewertet und die Ergebnisse in unserem Artikel analysiert.
Wir haben Prometheus 2 8x7B kontinuierlich auf der BiGGen-Bench-Bewertungsspur trainiert und unseren leistungsfähigsten Evaluator LM Prometheus 2 BGB entwickelt, der bei absoluten Bewertungsaufgaben sogar Claude-3-Opus übertraf.
Schauen Sie sich unseren Datensatz, die Bewertungsergebnisse, die Bestenliste, den interaktiven Bericht und den Code an!
[2024/05] Wir veröffentlichen Prometheus 2 (7B & 8x7B) Modelle!
Es erreicht mindestens 80 % der Bewertungsstatistiken bzw. Leistungen von Prometheus 2 (8x7B).
Es benötigt nur 16 GB VRAM und eignet sich daher für den Betrieb auf Consumer-GPUs.
Im Vergleich zu Prometheus 1 (13B) zeigt Prometheus 2 (8x7B) eine verbesserte Bewertungsleistung und unterstützt auch die Bewertung in paarweisen Ranking-Formaten (relative Bewertung)!
Es erreicht eine Pearson-Korrelation von 0,6 bis 0,7 mit GPT-4-1106 auf einer 5-Punkte-Likert-Skala über mehrere direkte Bewertungsbenchmarks hinweg, darunter VicunaBench, MT-Bench und FLASK.
Es erzielt außerdem eine Übereinstimmung von 72 % bis 85 % mit menschlichen Urteilen bei mehreren paarweisen Ranking-Benchmarks, darunter HHH Alignment, MT Bench Human Judgement und Auto-J Eval.
Prometheus 2 (8x7B) ist ein hochmodernes Open-Source-Evaluator-Sprachmodell!
Prometheus 2 (7B) ist eine leichtere Version des Prometheus 2 (8x7B)-Modells mit angemessener Leistung (besser als Llama-2-70B und auf Augenhöhe mit Mixtral-8x7B).
Installation mit Pip:
pip install prometheus-eval
Prometheus-Eval unterstützt lokale Inferenz über vllm
und Inferenz über LLM-APIs mit Hilfe von litellm
.
Installieren Sie vllm
, wenn Sie Prometheus in Ihrer lokalen Umgebung ausführen möchten.
pip install vllm
Wenn Sie interessiert sind an:
Nutzung der Prometheus-Schnittstelle über den VLLM-Endpunkt, Huggingface TGI oder andere Plattformen
Nutzung leistungsfähigerer Evaluator-LLMs wie GPT-4
Profitieren Sie auch von Prometheus-Eval! Installationsdetails für verschiedene Anbieter finden Sie in den LiteLLM-Anbieterdokumenten.
from prometheus_eval.litellm import LiteLLM, AsyncLiteLLMmodel = LiteLLM('openai/prometheus-eval/prometheus-7b-v2.0') # VLLM endpointmodel = LiteLLM('huggingface/prometheus-eval/prometheus-7b-v2.0') # Huggingface TGImodel = AsyncLiteLLM('gpt-4-turbo', request_per_minute=100) # GPT-4 API (asynchrone Generierung unter Berücksichtigung der Ratenbegrenzung)# Und noch viel mehr!judge = PrometheusEval(model=model)
Hinweis : prometheus-eval
Bibliothek befindet sich derzeit im Beta-Stadium. Wenn Sie auf Probleme stoßen, teilen Sie uns dies bitte mit, indem Sie ein Problem im Repository erstellen.
Mit
prometheus-eval
ist die Auswertung eines beliebigen Befehls- und Antwortpaars so einfach wie:
# Absolute Bewertung: Gibt eine Punktzahl von 1 bis 5 aus. Von prometheus_eval.vllm. VLLM von prometheus_eval importieren. PrometheusEval von prometheus_eval.prompts importieren. ABSOLUTE_PROMPT, SCORE_RUBRIC_TEMPLATE PrometheusEval(model=model, absolute_grade_template=ABSOLUTE_PROMPT)instruction = „Wenn eine Person mit einer kürzlichen Trennung zu kämpfen hat, spricht sie über die intensiven Gefühle der Einsamkeit und Traurigkeit. Sie bittet um Rat, wie sie mit dem Kummer umgehen und im Leben vorankommen kann .“,response = „Es tut mir wirklich leid, von Ihrer Trennung zu hören. Dies kann eine äußerst herausfordernde Zeit voller intensiver Gefühle der Einsamkeit und Trauer sein. Es ist wichtig, sich daran zu erinnern, dass es normal ist, diese Gefühle zu erleben; sie sind ein Beweis für die tiefe Verbundenheit, die Sie einst hatten, denn sie zu ignorieren, erschwert oft den Heilungsprozess verärgert sein, Tränen vergießen oder wütend sein. Dies alles ist Teil des Weges zur Heilung. Selbstfürsorge kann in diesen schwierigen Zeiten ein heilender Balsam sein. Das kann bedeuten, dass Sie sich Ihrem Lieblingsbuch hingeben, Ihre Gedanken aufschreiben oder einfach nur eine ruhige Tasse Tee trinken. Kleine freundliche Gesten sich selbst gegenüber können Ihr emotionales Wohlbefinden deutlich verbessern. Isolieren Sie sich außerdem nicht. Umgeben Sie sich mit unterstützenden Menschen, die Ihnen Trost und Verständnis bieten können. Dazu können Freunde, Familie oder sogar ein Psychologe gehören. Sie können Ihnen die dringend benötigte emotionale Unterstützung und Strategien bieten, die Ihnen bei der Bewältigung helfen. Denken Sie zum Schluss daran, dass es keinen festgelegten Zeitplan für die Heilung gibt. Es ist für jeden anders und es ist in Ordnung, so lange zu dauern, wie Sie brauchen. Konzentrieren Sie sich weiterhin auf die Zukunft und das darin liegende Potenzial. Auch wenn es jetzt vielleicht nicht möglich erscheint, werden Sie gestärkt aus dieser Erfahrung hervorgehen. Es ist in Ordnung, um Hilfe zu bitten, es ist in Ordnung zu trauern und es ist in Ordnung, sie einen Tag nach dem anderen in Anspruch zu nehmen. Sie sind auf dieser Reise nicht allein und es gibt Menschen, die bereit und willens sind, zu helfen. Es ist in Ordnung, in deinem eigenen Tempo zu heilen.“,reference_answer = „Ich kann mir nur vorstellen, wie schwierig diese Zeit für dich sein muss. Herzschmerz kann sich wie eine überwältigende Welle anfühlen, die über Sie hinwegfegt und Ihnen das Gefühl gibt, verloren und allein zu sein. Es ist wichtig, sich daran zu erinnern, dass es in Ordnung ist, sich so zu fühlen. Ihre Gefühle sind berechtigt und es ist ganz natürlich, über den Verlust einer Beziehung zu trauern. Erstens ist es wichtig, dass Sie sich erlauben, die Emotionen vollständig zu spüren. Sie zu unterdrücken oder zu leugnen verlängert oft nur den Heilungsprozess. Es ist in Ordnung zu weinen, traurig zu sein oder wütend zu sein. Dies alles ist Teil der Heilungsreise. Auch die Teilnahme an Selbstfürsorgeaktivitäten kann den dringend benötigten Auftrieb geben. Das kann alles sein, von einem warmen Bad über das Schreiben eines Tagebuchs bis hin zum einfachen Trinken einer Tasse Ihres Lieblingstees. Kleine Taten der Selbstliebe können einen großen Unterschied in Ihren Gefühlen machen. Versuchen Sie als Nächstes, sich mit unterstützenden Menschen zu umgeben, die Ihre Situation verstehen und Trost spenden. Freunde und Familie können in Zeiten des Herzschmerzes eine große Kraftquelle sein. Wenn Sie sich wohl fühlen, sollten Sie darüber nachdenken, professionelle Hilfe in Anspruch zu nehmen. Therapeuten und Berater sind darin geschult, Hilfe und Werkzeuge bereitzustellen, um schwierige Zeiten wie diese zu meistern. Schließlich ist es wichtig, sich daran zu erinnern, dass es in Ordnung ist, sich Zeit für die Heilung zu nehmen. Jeder hat sein eigenes Tempo und es gibt keine Eile. Versuchen Sie, sich auf die Zukunft und die damit verbundenen Möglichkeiten zu konzentrieren. Auch wenn es jetzt vielleicht nicht so aussieht, werden Sie aus dieser Erfahrung gestärkt und widerstandsfähiger hervorgehen. Denken Sie daran: Es ist in Ordnung, um Hilfe zu bitten, und es ist in Ordnung, so zu fühlen, wie Sie sich fühlen. Sie sind auf dieser Reise nicht allein und es gibt Menschen, die sich um Sie kümmern und helfen möchten. Es ist in Ordnung, sich jeweils einen Tag Zeit zu nehmen. „Heilung ist ein Prozess und es ist in Ordnung, ihn in Ihrem eigenen Tempo zu durchlaufen.“,rubric_data = { „criteria“: „Ist das Modell in der Lage, Empathie und emotionale Intelligenz auf seine Reaktionen anzuwenden, wenn der Benutzer Emotionen vermittelt oder mit herausfordernden Umständen konfrontiert wird? ", "score1_description": "Das Modell versäumt es, den emotionalen Ton von Benutzereingaben zu erkennen oder darauf zu reagieren, und gibt Antworten, die unpassend oder emotional unsensibel sind.", "score2_description": "Das Modell erkennt gelegentlich emotionalen Kontext antwortet aber oft ohne ausreichendes Einfühlungsvermögen oder emotionales Verständnis.“, „score3_description“: „Das Modell identifiziert typischerweise den emotionalen Kontext und versucht, mit Einfühlungsvermögen zu antworten, doch die Antworten gehen manchmal am Kern der Sache vorbei oder es mangelt ihnen an emotionaler Tiefe.“, „score4_description“: Das Modell identifiziert und reagiert konsequent auf emotionale Kontexte und liefert einfühlsame Antworten. Dennoch kann es immer noch sporadisch zu Versäumnissen oder Defiziten bei der emotionalen Tiefe kommen.“, „score5_description“: „Das Modell zeichnet sich durch die Identifizierung emotionaler Kontexte aus und bietet kontinuierlich einfühlsame, emotional bewusste Antworten, die ein tiefgreifendes Verständnis der Emotionen oder Situationen des Benutzers demonstrieren.“} Score_rubric = SCORE_RUBRIC_TEMPLATE.format(**rubric_data)feedback, Score = Judge.single_absolute_grade(instruction=instruction,response=response,rubric=score_rubric,reference_answer=reference_answer)print("Feedback:", feedback)print("Score:", score)# Output# Feedback: Die bereitgestellte Antwort zeigt ein hohes Niveau von Empathie und emotionaler Intelligenz. Es geht effektiv auf die emotionale Belastung des Benutzers ein. Es erkennt den Schmerz des Benutzers an und bestätigt seine Gefühle der Einsamkeit Traurigkeit, die ein entscheidender Aspekt der Bereitstellung einfühlsamer Ratschläge ist, schlägt auch praktische Schritte zur Bewältigung vor, wie z. B. das Annehmen von Emotionen, die Ausübung von Selbstfürsorge und die Suche nach Unterstützung von Freunden, Familie oder Fachleuten. Darüber hinaus gibt die Antwort dem Benutzer die Gewissheit, dass Heilung ein persönlicher Prozess ohne festen Zeitplan ist, was Trost und Verständnis bietet. Es betont den Wert und das Potenzial des Benutzers, die Situation zu überwinden, was ein tiefes Verständnis der Emotionen und der Situation des Benutzers zeigt. Durch den Vergleich der Bewertungsrubrik mit der bereitgestellten Antwort wird deutlich, dass das Modell eine hervorragende Fähigkeit zur Anwendung von Empathie und emotionaler Intelligenz aufweist. Die Antwort weist keine Mängel in der emotionalen Tiefe auf und erfüllt erfolgreich die Kriterien für eine Punktzahl von 5.# Punktzahl: 5
# Relative Bewertung: Gibt A oder B aus prometheus_eval.vllm aus. relative_grade_template=RELATIVE_PROMPT)data = { "instruction": "Eine Gruppe von Historikern führt eine Debatte über die Faktoren, die zum Untergang des Römischen Reiches führten. Ein Historiker argumentiert, dass der Hauptgrund für den Untergang der ständige Druck durch barbarische Invasionen war Ein anderer glaubt, dass es an wirtschaftlichen Problemen und der übermäßigen Abhängigkeit von Sklavenarbeit lag. Ein dritter meint, dass es an moralischem Verfall und politischer Instabilität lag Historiker, die argumentieren, dass wirtschaftliche Probleme und eine übermäßige Abhängigkeit von Sklavenarbeit ihren Fall darlegen? durch die Abwertung der römischen Währung. Diese Währungsabwertung führte zu einer grassierenden Inflation und störte die Stabilität der Wirtschaft. Darüber hinaus war das Römische Reich stark von Sklavenarbeit abhängig. Dies führte zu Arbeitslosigkeit unter freien Bürgern, da der Unterhalt von Sklaven billiger war als die Anstellung freier Bürger. Der Rückgang der Beschäftigungsmöglichkeiten führte zu wirtschaftlicher Instabilität. Darüber hinaus machte die Expansion des Reiches nach Osten es auf Importe wie Getreide aus Ägypten angewiesen. Diese übermäßige Abhängigkeit von Importen verursachte ein Handelsdefizit, das die Wirtschaft weiter schwächte. Als das Reich Gebiete verlor, wurde es schwierig, das Handelsungleichgewicht aufrechtzuerhalten, was zu einem wirtschaftlichen Niedergang führte. Daher gehörten die wirtschaftlichen Probleme und die übermäßige Abhängigkeit von Sklavenarbeit zu den Hauptgründen für den Untergang des Römischen Reiches.“ trug zum Niedergang des Römischen Reiches bei. Harper (2016) erläuterte, wie die Abwertung der römischen Währung zu Inflation führte und die wirtschaftliche Stabilität störte. Darüber hinaus betonte Scheidel (2007), dass der übermäßige Einsatz von Sklaven zu weit verbreiteter Arbeitslosigkeit unter freien Bürgern führte und die Wirtschaft weiter destabilisierte. Die Abhängigkeit des Reiches von Getreideimporten aus Ägypten, die, wie Temin (2006) hervorhob, zu einem Handelsdefizit führte, trug ebenfalls zum wirtschaftlichen Niedergang bei. Somit spielte die Kombination dieser Faktoren eine entscheidende Rolle beim Untergang des Römischen Reiches.“, „reference_answer“: „Dieses Argument konzentriert sich auf die wirtschaftlichen Probleme und die übermäßige Abhängigkeit von Sklavenarbeit als Hauptgründe für den Untergang des Römischen Reiches. Einer der wichtigsten Beweise ist zunächst die Abwertung der römischen Währung. Wie Harper (2016) hervorhob, litt das Imperium aufgrund der ständigen Abwertung seiner Währung unter einer starken Inflation, was es für die Wirtschaft schwierig machte, stabil zu bleiben. Darüber hinaus spielte auch die übermäßige Abhängigkeit von Sklavenarbeit eine schädliche Rolle. Wie Scheidel (2007) betonte, führte die Abhängigkeit von Sklaven zur Arbeitslosigkeit freier römischer Bürger. Dies liegt daran, dass der Unterhalt von Sklaven deutlich günstiger war als die Anstellung freier Bürger, was zu einem Rückgang der Beschäftigungsmöglichkeiten führte, was wiederum zu wirtschaftlicher Instabilität führte. Darüber hinaus war das Reich durch seine Ostexpansion stark von Importen, beispielsweise von Getreide aus Ägypten, abhängig. Wie Temin (2006) feststellte, führte dies zu einem Handelsdefizit, das die römische Wirtschaft weiter schwächte. Als das Reich begann, seine Gebiete zu verlieren, wurde es immer schwieriger, dieses Handelsungleichgewicht aufrechtzuerhalten, was zu einem wirtschaftlichen Niedergang führte. Zusammenfassend kann argumentiert werden, dass die wirtschaftlichen Probleme, die hauptsächlich auf die Abwertung der Währung und die übermäßige Abhängigkeit von Sklavenarbeit zurückzuführen waren, maßgeblich zum Untergang des Römischen Reiches beitrugen. Die bereitgestellten Beweise, die wissenschaftliche Verweise auf Harper (2016), Scheidel (2007) und Temin (2006) umfassen, stützen diese These.“, „rubric“: „Ist die Antwort gut durch Beweise untermauert, einschließlich Zitaten/Zuschreibungen, wo relevant? ?"}feedback, Score = Judge.single_relative_grade(**data)print("Feedback:", Feedback)print("Score:", Score)# Output# Feedback: Sowohl Antwort A als auch Antwort B Erkennen Sie wirtschaftliche Probleme und die übermäßige Abhängigkeit von Sklavenarbeit korrekt als wesentliche Faktoren, die zum Untergang des Römischen Reiches beigetragen haben. Antwort B ist jedoch effektiver bei der Darstellung der Argumentation des Historikers, da sie wissenschaftliche Quellen zur Untermauerung seiner Behauptungen einbezieht Werke von Harper, Scheidel und Temin, die der Argumentation des Historikers Glaubwürdigkeit verleihen und gut mit der Betonung der Partiturrubrik auf Beweise und Zitate übereinstimmen. Antwort A liefert zwar eine ähnliche Argumentation, ihr fehlt jedoch jede Form von Zitaten oder Zuschreibungen, was die Aussagekraft der vorgelegten Beweise mindert. Basierend auf der bereitgestellten Rubrik ist Antwort B daher die bessere Antwort, da sie wissenschaftliche Beweise zur Untermauerung der Behauptungen des Historikers verwendet.# Bewertung: B
Hinweis : Wenn Sie mehrere Antworten auf die Note haben, verwenden Sie nicht single_absolute_grade
/ single_relative_grade
, sondern verwenden Sie stattdessen absolute_grade
und relative_grade
! Dadurch erhalten Sie eine mehr als 10-fache Geschwindigkeitssteigerung.
# Batch absolute Gradeinstructions = [...] # Liste der Anweisungenresponses = [...] # Liste der Antwortenreference_answers = [...] # Liste der Referenzantwortenrubric = "..." # Rubrikzeichenfolgefeedbacks, Punkte = Judge.absolute_grade (instructions=instructions,responses=responses,rubric=rubric,reference_answers=reference_answers)#batch relative gradeinstructions = [...] # Liste von Anweisungenresponses_from_a = [...] # Liste der Antwortenresponses_from_b = [...]reference_answers = [...] # Liste der Referenz-Antwortenrubric = "..." # Rubrik stringfeedbacks, Punkte = Judge.relative_grade(instructions=Anweisungen,responses_A=responses_from_a,responses_B=responses_from_b,rubric=rubric,reference_answers=reference_answers)
Prometheus-Eval ist ein Repository, das eine Sammlung von Tools zum Trainieren, Bewerten und Verwenden von Sprachmodellen bereitstellt, die auf die Bewertung anderer Sprachmodelle spezialisiert sind. Das Repository umfasst die folgenden Komponenten:
Das Python-Paket prometheus-eval
, das eine einfache Schnittstelle zum Auswerten von Befehls-Antwort-Paaren mit Prometheus bereitstellt.
Sammlung von Evaluierungsdatensätzen für das Training und die Evaluierung von Prometheus-Modellen.
Skripte zum Trainieren von Prometheus-Modellen oder zur Feinabstimmung benutzerdefinierter Datensätze.
Prometheus ist eine Familie von Open-Source-Sprachmodellen, die auf die Bewertung anderer Sprachmodelle spezialisiert ist. Durch die effektive Simulation menschlicher Urteile und proprietärer LM-basierter Bewertungen wollen wir die folgenden Probleme lösen:
Fairness : Verlassen Sie sich bei Bewertungen nicht auf Closed-Source-Modelle!
Kontrollierbarkeit : Sie müssen sich keine Gedanken über GPT-Versionsaktualisierungen oder das Senden Ihrer privaten Daten an OpenAI machen, indem Sie interne Bewertungspipelines erstellen
Erschwinglichkeit : Wenn Sie bereits über GPUs verfügen, ist die Nutzung kostenlos!
Im Vergleich zu den Prometheus-1-Modellen unterstützen die Prometheus-2-Modelle sowohl die direkte Bewertung (absolute Bewertung) als auch die paarweise Rangfolge (relative Bewertung).
Sie können den Modus wechseln, indem Sie ein anderes Eingabeaufforderungsformat und eine andere Systemaufforderung bereitstellen. Innerhalb der Eingabeaufforderung sollten Sie die Anweisung, die Antwort(en) und die Bewertungsrubriken mit Ihren eigenen Daten ausfüllen. Optional können Sie auch eine Referenzantwort hinzufügen, was zu einer besseren Leistung führt!
prometheus-eval
Das Paket prometheus-eval
bietet eine einfache Schnittstelle zum Auswerten von Befehls-Antwort-Paaren mit Prometheus. Das Paket enthält die folgenden Methoden:
absolute_grade
: Bewertet eine einzelne Antwort basierend auf einer bestimmten Anweisung, Referenzantwort und Bewertungsrubrik. Gibt eine Punktzahl zwischen 1 und 5 aus.
relative_grade
: Bewertet zwei Antworten basierend auf einer bestimmten Anweisung und Bewertungsrubrik. Gibt „A“ oder „B“ basierend auf der besseren Antwort aus.
Wenn Sie lieber direkt mit den in Huggingface Hub hochgeladenen Gewichten arbeiten möchten, können Sie die Modellgewichte direkt herunterladen!
from Transformers import AutoModelForCausalLM, AutoTokenizerdevice = "cuda" # das Gerät, auf das das Modell geladen werden sollmodel = AutoModelForCausalLM.from_pretrained("prometheus-eval/prometheus-7b-v2.0")tokenizer = AutoTokenizer.from_pretrained("prometheus-eval/prometheus- 7b-v2.0")ABS_SYSTEM_PROMPT = "Sie sind ein fairer Richterassistent, der die Aufgabe hat, klares, objektives Feedback auf der Grundlage spezifischer Kriterien zu geben und sicherzustellen, dass jede Bewertung die absoluten Leistungsstandards widerspiegelt. , eine zu bewertende Antwort, eine Referenzantwort, die eine Punktzahl von 5 erhält, und eine Bewertungsrubrik, die ein Bewertungskriterium darstellt.1 Schreiben Sie ein detailliertes Feedback, das die Qualität der Antwort ausschließlich auf der Grundlage der angegebenen Bewertungsrubrik bewertet, nicht auf der Grundlage einer Bewertung In Allgemein.2. Schreiben Sie nach dem Schreiben eines Feedbacks eine Ganzzahl zwischen 1 und 5. Sie sollten sich auf die Bewertungsrubrik beziehen.3 Das Ausgabeformat sollte wie folgt aussehen: „Feedback: (Feedback für Kriterien schreiben) [ ERGEBNIS] (eine ganze Zahl zwischen 1 und 5)"4. Bitte generieren Sie keine anderen Eröffnungs-, Schluss- und Erläuterungen.###Die zu bewertende Anweisung:{instruction}###Zu bewertende Antwort:{response}###Referenzantwort (Punktzahl 5):{reference_answer}### Bewertungsrubriken:{rubric}###Feedback: """user_content = ABS_SYSTEM_PROMPT + "nn" + ABSOLUTE_PROMPT.format(...) # Füllen Sie die Eingabeaufforderung mit Ihrem aus datamessages = [ {"role": "user", "content": user_content}, ]encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")model_inputs = encodeds.to(device)model.to(device)generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)decoded = tokenizer.batch_decode(generated_ids)print(decoded[0])
Abschnitt | Beschreibung |
---|---|
BiGGen-Bench-Bewertung | Anleitung zur Bewertung Ihres LM in BiGGen-Bench. Sie können die Implementierung auch für Ihren eigenen Bewertungsbenchmark heranziehen. |
Ausbildung Prometheus | Anweisungen zum Nachbau von Prometheus 2-Modellen. Basierend auf dem Alignment-Handbook-Repository. |
Verwendung von Prometheus als Datenqualitätsfilter | Kochbuch zur Verwendung von Prometheus 2 als Qualitätsfilter bei der Generierung synthetischer Daten. Vielen Dank an das Team von distilabel! ? |
Verwendung von Prometheus als Evaluator in RAG | Kochbuch für die Verwendung von Prometheus 2 RAG-Anwendungen. Vielen Dank an das LlamaIndex-Team! ? |
Die zugrunde liegende Codebasis für das Training stammt aus dem Alignment Handbook von Huggingface und dem Super Mario Merging-Repository. Außerdem werden für Rückschlüsse in großem Umfang die Litellm-, Vllm- und Transformer-Bibliotheken genutzt. Ein großes Dankeschön an alle Mitwirkenden für diese tollen Repositories!! ?
Wenn Sie unsere Arbeit nützlich finden, denken Sie bitte darüber nach, unseren Artikel zu zitieren!
@misc{kim2024prometheus, title={Prometheus 2: Ein Open-Source-Sprachmodell, das auf die Bewertung anderer Sprachmodelle spezialisiert ist}, Autor={Seungone Kim und Juyoung Suk und Shayne Longpre und Bill Yuchen Lin und Jamin Shin und Sean Welleck und Graham Neubig und Moontae Lee und Kyungjae Lee und Minjoon Seo}, Jahr={2024}, eprint={2405.01535}, archivePrefix={ arXiv}, PrimaryClass={cs.CL}}
@article{kim2023prometheus, title={Prometheus: Inducing Fine-Grained Evaluation Capability in Language Models}, Autor={Kim, Seungone und Shin, Jamin und Cho, Yejin und Jang, Joel und Longpre, Shayne und Lee, Hwaran und Yun, Sangdoo und Shin, Seongjin und Kim, Sungdong und Thorne, James und andere}, Journal={arXiv Preprint arXiv:2310.08491}, Jahr={2023}}
@misc{lee2024prometheusvision, title={Prometheus-Vision: Vision-Language-Modell als Richter für eine feinkörnige Bewertung}, Autor={Seongyun Lee und Seungone Kim und Sue Hyun Park und Geewook Kim und Minjoon Seo}, Jahr={2024}, eprint={2401.06591}, archivePrefix={arXiv}, PrimaryClass={cs.CL}}
@misc{kim2024biggen, title={The BiGGen Bench: A Principled Benchmark for Fine-Grained Evaluation of Language Models with Language Models}, author={Seungone Kim und Juyoung Suk und Ji Yong Cho und Shayne Longpre und Chaeeun Kim und Dongkeun Yoon und Guijin Son und Yejin Cho und Sheikh Shafayat und Jinheon Baek und Sue Hyun Park und Hyeonbin Hwang und Jinkyung Jo und Hyowon Cho und Haebin Shin und Seongyun Lee und Hanseok Oh und Noah Lee und Namgyu Ho und Se June Joo und Miyoung Ko und Yoonjoo Lee und Hyungjoo Chae und Jamin Shin und Joel Jang und Seonghyeon Ye und Bill Yuchen Lin und Sean Welleck und Graham Neubig und Moontae Lee und Kyungjae Lee und Minjoon Seo}, Jahr={2024}, eprint={2406.05761}, archivePrefix={ arXiv}, PrimaryClass={cs.CL}}