Beispiele für Azure OpenAI-Protokollwahrscheinlichkeiten (LogProbs).
.NET-Konsolenanwendung, die vier Beispiele zeigt, wie Azure OpenAI LogProbs für den Abruf hochwertiger Informationen nützlich sein kann:
- Erste Token-Wahrscheinlichkeit – Berechnet die Wahr- oder Falsch-Wahrscheinlichkeit und gibt die höchste Wahrscheinlichkeit zurück, ob das (LLM-)Modell über genügend Informationen verfügt, um die Frage in der Eingabeaufforderung zu beantworten.
- Wahrscheinlichkeit des ersten Tokens [mit Brier-Scores] – Wahre oder falsche Wahrscheinlichkeit, gibt die höchste Wahrscheinlichkeit zurück, ob das (LLM-)Modell über genügend Informationen verfügt, um die Frage in der Eingabeaufforderung zu beantworten. Berechnet Brier-Scores sowohl als Einzel- als auch als Gesamtdurchschnitt, um die probabilistische Prognosegenauigkeit des (LLM-)Modells zu messen.
- Gewichteter Wahrscheinlichkeits-Konfidenzwert – Gibt einen Selbstvertrauenswert zwischen 1 und 10 zurück, der anhand einer Wahrscheinlichkeitsverteilung (Top-5-Log-Wahrscheinlichkeiten) gewichtet wird, um eine verbesserte (gewichtete) Schätzung des Konfidenzwerts für die Beantwortung einer Frage zu erhalten.
- Konfidenzintervall – Berechnet aus der Bootstrap-Simulation mehrerer Aufrufe des Modells. Dies ergibt ein 95 %-Konfidenzintervall (Bereich) plausibler Konfidenzwerte. Dies ist ideal, wenn Sie einen plausiblen Bereich von Möglichkeiten verstehen müssen, die das Modell interpretiert, und nicht eine einzelne Punktschätzung.
Erste Schritte
Anforderungen
- .NET 8.x SDK installiert
- Azure OpenAI API-Zugriff: (OpenAI Access funktioniert auch) entweder GPT3.5, GPT-4T, GPT-4o, GPT-4o-mini bereitgestellt und API-Schlüssel
- Visual Studio 2022(+), wenn Sie die Lösung mit einer IDE debuggen
Klonen Sie das Repo
git clone https://github.com/bartczernicki/AzureOpenAILogProbs.git
Fügen Sie dies zu Secrets.json hinzu (Rechtsklick auf VS-Projekt -> Benutzergeheimnisse verwalten) und führen Sie die Konsolenanwendung aus
{
"AzureOpenAI" : {
"ModelDeploymentName" : "gpt-4-2024-04-09" , // Any Azure OpenAI GPT-4o-mini, GPT-4o or GPT3.5 model should perform well
"APIKey" : "YOURAZUREOPENAIKEY" ,
"Endpoint" : "https://YOURAZUREOPENAIENDPOINT.openai.azure.com/"
}
}
Befehle erstellen und ausführen (Sie können auch in Visual Studio 2022+ erstellen oder debuggen)
Wichtige Informationen zum Lösungs-Setup
In diesem Setup werden dem LLM ausgewählte Absätze aus einem Wikipedia-Artikel über die Geschichte des Baseballteams New York Mets zur Verfügung gestellt. Den vollständigen Artikel finden Sie hier: https://en.wikipedia.org/wiki/New_York_Mets. Dies ist der Kontext (Erdungsinformationen), der immer in jeder Eingabeaufforderung bereitgestellt wird.
Darüber hinaus stehen 20 Frage-Antwort-Paare zur Verfügung. Zu jedem Eintrag in der Liste gehört eine Frage zum Mets-Wikipedia-Artikel, gepaart mit einer menschlichen Einschätzung „Richtig/Falsch“, sofern der bereitgestellte Wikipedia-Artikel genügend Informationen enthält, um die Frage zu beantworten. Jede Frage wird an das LLM gesendet und dann beurteilt das LLM, ob es über ausreichende Informationen zur Beantwortung der Frage verfügt. Diese Antwort wird mit der menschlichen Einschätzung (logische Wahrheit) verglichen. Zwei Beispiele aus der Liste mit 20 Fragen:
new Question { Number = 1 , EnoughInformationInProvidedContext = true , QuestionText = " When where the Mets founded? " } ,
new Question { Number = 2 , EnoughInformationInProvidedContext = true , QuestionText = " Are the Mets a baseball team or basketball team? " } ,
Die Möglichkeit, Token-Log-Wahrscheinlichkeiten zu überprüfen, ist standardmäßig deaktiviert. Um diese Funktion zu aktivieren, muss die Eigenschaft „IncludeLogProbabilities“ auf „true“ gesetzt werden. Dadurch fallen keine zusätzlichen Token an und die API-Aufrufe kosten auch nicht mehr Geld. Allerdings erhöht sich dadurch die Nutzlast des zurückkommenden JSON-Objekts geringfügig. Beispielsweise wird es bei Verwendung der neuen OpenAI .NET-Bibliothek als Eigenschaft der ChatCompletionOptions-Klasse verfügbar gemacht.
chatCompletionOptions . IncludeLogProbabilities = true ;
Die .NET-Bibliothek bietet die Möglichkeit, die Anzahl der Protokollwahrscheinlichkeiten zu steuern, die bei jedem API-Aufruf zurückgegeben werden. Dadurch wird ein Array/eine Liste von Token mit der jeweiligen Wahrscheinlichkeit bereitgestellt. In der Statistik wird dies als Wahrscheinlichkeitsmassenfunktion (PMF) bezeichnet, da es sich um eine diskrete Wahrscheinlichkeitsverteilung handelt. Hinweis: Bei Azure OpenAI beträgt dieser derzeit maximal 5 und bei OpenAI 10 (für die meisten APIs). Beispielsweise wird es bei Verwendung der neuen OpenAI .NET-Bibliothek als Eigenschaft der ChatCompletionOptions-Klasse verfügbar gemacht.
chatCompletionOptions . TopLogProbabilityCount = 5 ;
Die Lösung umfasst auch die Möglichkeit, die Temperatur jeder der erwarteten Ausgaben des (LLM-)Modells festzulegen. Der Standardwert ist 0,3f (Gleitkommazahl), kann aber für mehr Kreativität und Varianz auf 2f erhöht werden.
internal static class GenAI
{
// To simulate more variance in selecting lower probability tokens, increase the temperature to between 1.4 - 2.0.
public const float OPENAITEMPATURE = 0.3f ;
.. .
Das ist im Wesentlichen der Kernaufbau dieser Lösung. Der Rest des Codes ist C#-Code, um die Eingabe/Ausgabe der Dienste zu vernetzen und sicherzustellen, dass die Berechnungen ordnungsgemäß durchgeführt und in der Konsolenanwendung visualisiert werden.
Hintergrundinformationen zu Log-Wahrscheinlichkeiten
Was sind LogProbs (Log-Wahrscheinlichkeiten)? Die meisten aktuellen LLMs verarbeiten Eingabeaufforderungsanweisungen, indem sie den nächsten Token vorhersagen und jeden Token durchlaufen, bis sie einen Haltepunkt erreichen (z. B. maximale Tokenlänge, Vervollständigung der Benutzeranweisungen). Jeder Token, der für die Ausgabe in Betracht gezogen wird, wird durch eine interne LLM-Pipeline verarbeitet, die eine statistische Wahrscheinlichkeitsverteilung der Token mit der besten Übereinstimmung zur Auswahl ausgibt. Basierend auf Konfigurationen (Temperatur, top_p usw.) können diese Token-Wahrscheinlichkeiten berechnet werden und dann wählt der LLM basierend auf den verschiedenen Konfigurationen den nächsten Token mit der besten Übereinstimmung aus. Da diese LLMs probabilistischer Natur sind, werden für dieselbe Eingabeaufforderungsanweisung, die an das (LLM-)Modell gesendet wird, möglicherweise unterschiedliche Token ausgegeben.
Nachfolgend finden Sie ein Beispiel für ein Frage-und-Antwort-Szenario und die zugehörigen Wahrscheinlichkeiten für die beiden Token (Wörter), die zur Beantwortung der Frage ausgewählt wurden: „Wer war der erste Präsident der Vereinigten Staaten?“ . Im folgenden Beispiel antwortete das Modell mit zwei Token „George“ „Washington“ und verwendete die Token-Wahrscheinlichkeiten von 99,62 % bzw. 99,99 %. Beachten Sie, dass andere Token zur Auswahl standen, aber das inhärente Wissen und die Denkfähigkeit des LLM (durch das Training mit umfangreichen Datenmengen) haben die Wahrscheinlichkeit dieser beiden Token sicher erhöht: „George“ und „Washington“.
Es gibt Einstellungen, die kalibrieren können, wie streng oder kreativ ein LLM ist. Möglicherweise haben Sie beispielsweise von einer (LLM-)Modelleinstellung namens „Temperatur“ gehört, die die Wahrscheinlichkeit, dass Token mit geringerer Wahrscheinlichkeit ausgewählt werden, wesentlich erhöht.
Benötigen Sie weitere Informationen? Empfohlene Lektüre zum Hintergrund von Azure OpenAI LogProbs:
- OpenAI-Kochbuch – LogProbs: https://cookbook.openai.com/examples/using_logprobs
- Was sind LogProbs?: https://www.ignorance.ai/p/what-are-logprobs
Verwendung von LogProbs zur Verbesserung der GenAI-Qualität
Es gibt verschiedene bewährte und neue Verbesserungstechniken, die mehrere Aufrufe eines Modells oder mehrerer Modelle nutzen, um zu einer Antwort, Schlussfolgerung oder einer Qualitätsentscheidung zu gelangen. Derzeit werden LLMs in GenAI-Produktionssystemen meist mit Grounding (RAG) verwendet, indem sie zusätzliche Kontextinformationen bereitstellen. Das (LLM)-Modell wird angewiesen, eine Frage zu beantworten, diese Informationen zu begründen usw. Bei schlechten Erdungstechniken kann dies jedoch zu qualitativ schlechteren Ergebnissen führen.
Azure OpenAI LogProbs sind eine fortschrittliche Technik, die helfen und genutzt werden kann, um die Konfidenz (Wahrscheinlichkeit) der Modellantwort zu messen. Diese enorme Fähigkeit kann das GenAI-System in die Lage versetzen, sich selbst zu korrigieren oder den Benutzer/Agenten anzuleiten, zu einer Antwort mit verbesserter Qualität zu gelangen.
Die Leistungsfähigkeit von LogProbs wird unten anhand des Diagramms des GenAI-Workflows veranschaulicht. Beachten Sie, dass es zwei Pfade gibt (links und rechts):
- Der linke Pfad ist der traditionelle Pfad, dem die meisten GenAI-Anwendungen folgen. Sie stellen eine Frage und erhalten eine Antwort von einem LLM. Dieser typische Arbeitsablauf auf der linken Seite ist in den meisten aktuellen GenAI-Chat-Anwendungen zu finden.
- Der richtige Weg ist eine „Qualitätsverbesserung“ des Workflows. Parallel dazu kann man den LLM fragen: „LLM, haben Sie genügend Informationen, um diese Frage zu beantworten, und wie sicher sind Sie, dass Sie über genügend Informationen verfügen?“! Der Hinweis aus dem Diagramm unten mit dieser „Qualitätsverbesserung“ umfasst jetzt:
- Antwort auf die Frage
- Verfügt das Modell über genügend Informationen, um die Frage zu beantworten – Richtig oder falsch, Schätzung aus dem (LLM-)Modell
- Wahrscheinlichkeit, über genügend Informationen zur Beantwortung der Frage zu verfügen – berechnet aus LogProbs; Dies kann für zusätzliche statistische Schlussfolgerungen oder Entscheidungsschwellenwerte verwendet werden
Konsolenverarbeitungsoptionen
1) Erste Token-Wahrscheinlichkeit – Wie sicher ist das KI-Modell (LLM) mit den Informationen zur Beantwortung der Frage?
- Das (LLM)-Modell antwortet nur mit True oder False . Das Modell klassifiziert grundsätzlich (Wahr oder Falsch), wenn es der Meinung ist, dass die bereitgestellte Wikipedia-Grundlage genügend Informationen (Wahr) oder nicht genügend Informationen (Falsch) enthält, um die Frage in der Eingabeaufforderung zu beantworten.
- Verwendet Azure OpenAI LogProbs, um nur die Wahrscheinlichkeit des ersten Tokens in der Antwort zu bestimmen. Das erste Token ist immer entweder True oder False .
- Wenn die Wahrscheinlichkeit hoch ist, ist das (LLM)-Modell sehr zuversichtlich in seine eigene Antwort (wahr oder falsch).
- Wenn die Wahrscheinlichkeit niedrig ist, ist das (LLM-)Modell seiner eigenen Antwort (wahr oder falsch) nicht sehr sicher.
- Die Wahrscheinlichkeit kann als Klassifizierungsentscheidungsschwelle dafür verwendet werden, ob das Modell über genügend Informationen (RAG-Kontext) verfügt, um die Frage zu beantworten. Beispielsweise kann man einem Benutzererlebnis ein verifiziertes Signal liefern, dass die Antwort eine zweite Validierung durchlaufen hat, wenn die vom Modell ausgegebene Wahrscheinlichkeit (LLM) über 90 % liegt.
Beispielausgabe:
Beachten Sie, dass das obige Bild die Wahr- und Falsch-Ausgabe des LLM sowie die Wahrscheinlichkeit dieser Wahr- oder Falsch-Ausgabe zeigt. Da „True“ oder „False“ die ersten und einzigen Token in der Antwort sind, kann die Wahrscheinlichkeit des ersten Tokens (LogProb) verwendet werden. Bei diesem Ansatz gibt es einige Probleme:
- Es werden nur das erste Token und die Wahrscheinlichkeit untersucht. Beachten Sie beim obigen Beispiel von George Washington, dass verschiedene Token ausgegeben werden können, die Komponenten sein oder „George Washington“ ähneln können. Das Gleiche gilt auch dann, wenn nur „True“- oder „False“-Tokens betrachtet werden. Es könnte Token wie „TRU“, „true“, „tr“ geben und sie sollten alle zusammengefasst werden, um eine kollektive Wahrscheinlichkeit von „True“ anzuzeigen. Die folgenden Beispiele veranschaulichen dies.
- Wenn Sie die Beispiele mehrmals ausführen, scheint es manchmal eine Diskrepanz zwischen dem ersten Token und dem obersten LogProb zu geben. Dies liegt daran, dass der OpenAI-Dienst Token mit geringeren Wahrscheinlichkeiten auswählen kann, insbesondere bei Einstellungen wie einer höheren Temperatur. Dies ist eine einfache Lösung. Grundsätzlich ermöglichen LogProbs dem Entwickler, das ausgewählte erste Token zu überschreiben und das mit der höchsten Wahrscheinlichkeit auszuwählen.
2) Wahrscheinlichkeit des ersten Tokens [mit Brier-Scores] – Berechnen der Brier-Scores der Wahrscheinlichkeit des ersten Tokens
- Dieses Beispiel zeigt, wie die Prognose- und Vorhersagegenauigkeit des Modells gemessen wird.
- Entspricht der First-Token-Wahrscheinlichkeit, berechnet jedoch zusätzlich den Brier-Score für jede der Wahrscheinlichkeitsantworten.
- Brier-Scores (und ähnliche Methoden im maschinellen Lernen und in der Statistik) werden verwendet, um die Genauigkeit probabilistischer Vorhersagen zu messen.
- Je niedriger der Brier-Score, desto besser kann das Modell die Wahrscheinlichkeit der Antwort vorhersagen. Wenn beispielsweise zwei Modelle vorhanden sind und beide das richtige Ereignis vorhersagen, die Wahrscheinlichkeit des ersten Modells jedoch 65 % und die Wahrscheinlichkeit des zweiten Modells 95 % betrug, ist der Brier-Score für das zweite Modell niedriger. Denn wenn das zukünftige Ereignis eintritt, erhält es automatisch eine Wahrscheinlichkeit von 100 %. 95 % liegt eher bei 100 %. Weitere Informationen zu Brier-Scores: https://en.wikipedia.org/wiki/Brier_score
- Brier-Scores können mehrere einzelne Vorhersagen aggregieren und zu einem einzigen Score zusammengefasst werden. In diesem Beispiel wird eine Tabelle mit den Brier-Scores für jede der Fragen und dem durchschnittlichen Brier-Score für alle Fragen ausgegeben.
- Der Durchschnitt der Brier-Scores kann uns viel über die Gesamtleistungsgenauigkeit des probabilistischen Systems oder eines probabilistischen Modells verraten. Durchschnittliche Brier-Werte von 0,1 oder weniger gelten als ausgezeichnet, 0,1–0,2 gelten als überlegen, 0,2–0,3 sind ausreichend und 0,3–0,35 sind akzeptabel, und schließlich weisen durchschnittliche Brier-Werte über 0,35 auf eine schlechte Vorhersageleistung hin.
Die Brier-Bewertungen variieren je nach den Fähigkeiten des Modells, der Eingabeaufforderung und dem Kontext der Frage. Indem die Eingabeaufforderung und der Kontext gleich bleiben, kann die Gesamtgenauigkeitsleistung des Modells verglichen werden. Beachten Sie die Brier-Ergebnisse unten beim Vergleich der Modelle GPT-4o und GPT-4o-mini. Das GPT-4o-mini-Modell hat einen niedrigeren Brier-Score, was bedeutet, dass es die Wahrscheinlichkeit der richtigen Antwort genauer vorhersagen kann. Tatsächlich gelangte das GPT-4o-mini bei 18 der 20 Fragen richtig zur endgültigen Antwort, während das GPT-4o-Modell bei 17 von 20 der erwarteten menschlichen Antwort entsprach (sofern im Kontext genügend Informationen zur Beantwortung der Frage vorhanden sind). Fragen. Beachten Sie, dass der durchschnittliche Brier-Score von GPT-4o-mini 0,083 (unter 0,1) beträgt, was auf eine hervorragende Vorhersageleistung hinweist. Daher ist der Brier-Score des GPT-4o-mini-Modells niedriger (besser). Dies zeigt empirisch, dass es die Wahrscheinlichkeit genauer quantifizieren kann, dass es über genügend Informationen verfügt, um die bereitgestellte Eingabeaufforderung zu beantworten.
Beispielausgabe:
3) Gewichteter Wahrscheinlichkeits-Konfidenz-Score – Das Modell liefert einen Selbstvertrauen-Score und bewertet dann die Wahrscheinlichkeit des Konfidenz-Scores
- In den vorherigen Beispielen wurde nur die erste Token-Wahrscheinlichkeit verwendet. Als Wahr- oder Falsch-Bestimmung wurde der Token mit der höchsten Wahrscheinlichkeit verwendet.
- Azure OpenAI LogProbs kann eine Wahrscheinlichkeitsmassenfunktionsverteilung (PMF) von bis zu den nächsten 5 Token einschließlich ihrer Wahrscheinlichkeiten zurückgeben.
- Diese Berechnung verwendet mehrere LogProbs, um die „gewichtete“ Wahrscheinlichkeit der Antwort zu bestimmen.
- Darüber hinaus kann das Modell, anstatt nur eine Richtig- oder Falsch-Bestimmung anzugeben, einen Konfidenzwert (1–10) angeben, der angibt, wie sicher es bei der Beantwortung der Frage ist.
- Die gewichtete Wahrscheinlichkeit wird durch Multiplikation berechnet: Konfidenzwert*Wahrscheinlichkeit, um eine besser gewichtete Schätzung der Konfidenz zur Beantwortung der Frage zu erhalten.
- Die gewichtete Wahrscheinlichkeit kann als besser kalibrierter Konfidenzwert für die Antwort des Modells verwendet werden.
Um mehrere Protokollwahrscheinlichkeiten zurückzugeben, legen Sie LogProbabilitiesPerToken auf 5 fest (aktueller Azure OpenAI-Höchstwert zum Zeitpunkt dieses Schreibens):
chatCompletionOptions.Temperature = 0.3f; // Higher Temperature setting will use tokens with much lower probability
chatCompletionOptions.IncludeLogProbabilities = true;
// For the Confidence Score, we want to investigate 5 of the top log probabilities (PMF)
chatCompletionOptions.TopLogProbabilityCount = 5;
Beispielausgabe:
Unten sehen Sie ein Beispiel für eine Token-Wahrscheinlichkeitsverteilung, wenn 5 LogProbs-Tokens mit ihren jeweiligen Wahrscheinlichkeiten zurückgegeben werden. Im Histogramm unten hat „Konfidenzwert: 1“ eine Wahrscheinlichkeit von 42,3 %; Dies bedeutet, dass das Modell davon ausgeht, dass es einen sehr niedrigen Konfidenzwert = 1 für die Beantwortung der Frage hat und dass die Wahrscheinlichkeit bei 42,3 % liegt. Wenn Sie nur den höchsten Konfidenzwert auswählen, den das Modell zurückgegeben hat, könnten Ihnen bei den anderen Token (Token Nr. 2–5) viele andere Informationen fehlen. In diesem Szenario gibt es weitere ~57 % der Informationen, dass andere Token-Wahrscheinlichkeiten verwendet werden können, um einen „gewichteten“ Konfidenzwert zu berechnen, der den Konfidenzwert von 1 -> 2,3 kalibriert.
4) 95 %-Konfidenz-Score-Intervall – Verwenden Sie die Wahrscheinlichkeitsverteilung, um ein 95 %-Konfidenzintervall (Bereich) plausibler Antworten zu berechnen
- Die vorherigen Beispiele zeigen eine Einzelpunktschätzung des Konfidenzwerts. Dies kann irreführend sein, da das Modell möglicherweise mehrere Interpretationen der Antwort hat.
- Azure OpenAI LogProbs kann eine Wahrscheinlichkeitsmassenfunktionsverteilung (PMF) von bis zu den nächsten 5 Token einschließlich ihrer Wahrscheinlichkeiten zurückgeben.
- Diese Berechnung verwendet mehrere LogProbs, um das „Konfidenzintervall“ der Antwort zu bestimmen.
- Das Konfidenzintervall wird durch Bootstrapping mehrerer Aufrufe (10) an das Modell (mit derselben Eingabeaufforderung) und Berechnen des 95 %-Konfidenzintervalls der Konfidenzwerte berechnet.
- Das Konfidenzintervall kann verwendet werden, um den Bereich der Möglichkeiten zu verstehen, wobei 95 % der Ergebnisse bei Wiederholung derselben Frage in diesen Bereich fallen.
- Warum würden Sie das Modell 10x nennen, ist das nicht übertrieben? Bei wichtigen Entscheidungen und Überlegungen (Kauf eines Hauses/Autos, Entscheidung für ein 4-Jahres-Studium) sind diese paar zusätzlichen Anrufe die paar Cent und die zusätzliche Zeit, um eine angemessene Fehlerspanne zu ermitteln, durchaus wert.
Beispielausgabe:
Weitere erweiterte Überlegungen (Ausführen des Konsolenprojekts „ExampleConfidenceIntervalSimulation“)
Dieses Repo ging weder auf die Kalibrierung des Konfidenzwerts des Modells noch auf die Kalibrierung der Wahrscheinlichkeits-LogProbs des Modells ein. Da es sich bei LLMs im Wesentlichen um neuronale Netze handelt, können sie für bestimmte Aufgaben oder Domänen nicht kalibriert sein. Wenn das LLM angibt, dass es 8/10 sicher ist oder eine Wahrscheinlichkeit von 80 % ermittelt, sollte das Modell grundsätzlich in etwa 80 % der Fälle korrekt sein (innerhalb der Fehlerquote).
- Ein Modell, das 100 Fragen mit einem Konfidenzwert von 80 % beantwortet hat, sollte etwa 80 Mal richtig sein. Dies wäre eine ideale Kalibrierung.
- Hinweis: Auch wenn das Modell perfekt kalibriert ist, besteht eine Fehlerquote von etwa 80 %. Bei 100 Fragen erwarten wir in 95 % der Fälle eine Spanne zwischen 72 und 88 richtigen Fragen (+/- 8 Fragen um den erwarteten Durchschnitt von 80). Warum ein Konfidenzniveau von 95 % angeben und nicht 100 %? Die Angabe eines Konfidenzniveaus von 100 % macht keinen Sinn, da der Konfidenzbereich von 100 % zwischen 0 und 100 richtigen Antworten liegt. Auch wenn die gesamte Bandbreite der Wahrscheinlichkeiten unvorstellbar ist, besteht immer noch eine sehr geringe Chance, 0 oder 100 Fragen zu beantworten. Ein Konfidenzniveau von 95 % bietet einen realistischen Bereich plausibler Ergebnisse. Wenn Sie Ergebnisse außerhalb dieses Bereichs sehen, geschieht möglicherweise etwas, „das es wert ist, untersucht zu werden“.
- Ein Modell, das 100 Fragen mit einem Konfidenzwert von 80 % beantwortete und nur 50 Mal richtig lag, wäre extrem zu selbstsicher. Dies liegt deutlich außerhalb des erwarteten Fehlerbereichs.
- Hinweis: Statistiken oder eine Simulation können zeigen, dass die Wahrscheinlichkeit, nur 50 richtige Antworten zu erhalten, bei nahezu 0,00 % liegt, wenn das Modell angibt, dass es zu 80 % sicher ist! Nicht unmöglich, aber wenn dies in einem Produktionsszenario auftritt, ist das Modell eindeutig unkalibriert und sehr zu selbstsicher.
- Ein Modell, das 100 Fragen mit einem Konfidenzwert von 80 % beantwortet und 90 Mal richtig lag, wäre untersicher. Dies liegt außerhalb des erwarteten Fehlerbereichs.
- Hinweis: Statistiken oder eine Simulation können zeigen, dass ein Modell, das zu 80 % sicher ist, aber in mehr als 90 Fällen tatsächlich korrekt ist, nur in 0,00233 (0,233 %) Fällen auftritt.
Statistische Simulation mit 10.000.000 Simulationen und den erwarteten Bereichen für 100 Fragen 80 %-Kalibrierung:
Diese Kalibrierungstechniken gelten für reale Szenarien. Betrachten Sie Mainifold Markets (https://manifold.markets/), wo menschliche Superprognostiker auf die Wahrscheinlichkeit von Ereignissen wetten. Die kollektive Weisheit dieser menschlichen Superprognostiker ist bestens geeignet, reale Ereignisse vorherzusagen!
Beispielkalibrierung in einer realen Prognoseumgebung von Manifold Markets mit Tausenden von Prognosen:
Das Thema Kalibrierung ist nicht neu und wurde in der Entscheidungstheorie und im maschinellen Lernen untersucht. Sie können sowohl Entscheidungsintelligenz (Kognitionswissenschaft) als auch Techniken des maschinellen Lernens anwenden, um die Modellleistung weiter zu kalibrieren.
- Kalibrieren von Chat-GPT auf Selbstüberschätzung: https://hubbardresearch.com/chat-gpt-ai-kalibration/
- Beispiel für die Manifold Markets-Kalibrierung von Prognostikern: https://manifold.markets/kalibration
- Kalibrierung eines LLM-basierten Evaluators: https://arxiv.org/pdf/2309.13308.pdf