أمثلة على احتمالات سجل Azure OpenAI (LogProbs).
تطبيق .NET Console الذي يوضح أربعة أمثلة عن مدى فائدة Azure OpenAI LogProbs في استرجاع المعلومات عالية الجودة:
- احتمالية الرمز الأول - تحسب احتمالية صحيحة أو خاطئة، وترجع الاحتمالية الأعلى سواء كان نموذج (LLM) يحتوي على معلومات كافية للإجابة على السؤال في الموجه.
- احتمالية الرمز الأول [مع درجات بريير] - احتمال صحيح أو خطأ، يُرجع الاحتمال الأعلى سواء كان نموذج (LLM) يحتوي على معلومات كافية للإجابة على السؤال في الموجه. حساب درجات بريير سواء الفردية أو المتوسطة الكلية لقياس دقة التنبؤ الاحتمالي لنموذج (LLM).
- الاحتمالية المرجحة لنقاط الثقة - تقوم بإرجاع درجة الثقة بالنفس بين 1-10 والتي يتم ترجيحها من توزيع الاحتمالية (أعلى 5 احتمالات سجلية) لإعطاء تقدير محسّن لدرجات الثقة (المرجحة) للإجابة على سؤال.
- الفاصل الزمني للثقة - يتم حسابه من خلال محاكاة التمهيد لاستدعاءات متعددة للنموذج. وهذا يوفر فاصل ثقة (نطاق) بنسبة 95% من درجات الثقة المعقولة. يعد هذا مثاليًا عندما تحتاج إلى فهم نطاق معقول من الاحتمالات التي يفسرها النموذج بدلاً من تقدير نقطة واحدة.
ابدء
متطلبات
- تم تثبيت .NET 8.x SDK
- Azure OpenAI API Access: (سيعمل OpenAI Access أيضًا) إما GPT3.5 وGPT-4T وGPT-4o وGPT-4o-mini المنشور ومفتاح API
- Visual Studio 2022(+) في حالة تصحيح الحل باستخدام IDE
استنساخ الريبو
git clone https://github.com/bartczernicki/AzureOpenAILogProbs.git
أضف هذا إلى Secrets.json (انقر بزر الماوس الأيمن على VS Project -> إدارة أسرار المستخدم) وقم بتشغيل تطبيق وحدة التحكم
{
"AzureOpenAI" : {
"ModelDeploymentName" : "gpt-4-2024-04-09" , // Any Azure OpenAI GPT-4o-mini, GPT-4o or GPT3.5 model should perform well
"APIKey" : "YOURAZUREOPENAIKEY" ,
"Endpoint" : "https://YOURAZUREOPENAIENDPOINT.openai.azure.com/"
}
}
أوامر البناء والتشغيل (يمكنك أيضًا إنشاء أو تصحيح الأخطاء من Visual Studio 2022+)
معلومات أساسية حول إعداد الحل
في هذا الإعداد، سيتم تزويد LLM بفقرات مختارة من مقالة ويكيبيديا عن تاريخ فريق نيويورك ميتس للبيسبول. يمكن العثور على المقالة الكاملة هنا: https://en.wikipedia.org/wiki/New_York_Mets. هذا هو السياق (المعلومات الأساسية) الذي سيتم توفيره دائمًا في كل مطالبة.
بالإضافة إلى ذلك، هناك 20 زوجًا من الأسئلة والأجوبة متوفرة. يحتوي كل عنصر في القائمة على سؤال حول مقالة Mets Wikipedia مقترنًا بتقييم بشري صحيح/خطأ، إذا كانت هناك معلومات كافية في مقالة Wikipedia المتوفرة للإجابة على السؤال. سيتم إرسال كل سؤال إلى LLM ثم ستقوم LLM بتقييم ما إذا كان لديها معلومات كافية للإجابة على السؤال. وستتم مقارنة تلك الإجابة بالتقييم البشري (الحقيقة المنطقية). مثالان من قائمة العشرين سؤالاً:
new Question { Number = 1 , EnoughInformationInProvidedContext = true , QuestionText = " When where the Mets founded? " } ,
new Question { Number = 2 , EnoughInformationInProvidedContext = true , QuestionText = " Are the Mets a baseball team or basketball team? " } ,
يتم إيقاف القدرة على فحص احتمالات سجل الرمز المميز بشكل افتراضي. لتمكين هذه الميزة، يجب تعيين الخاصية IncludeLogProbabilities إلى true. وهذا لا يكلف أي رموز إضافية ولا يجعل مكالمات API تكلف المزيد من المال. ومع ذلك، يؤدي هذا إلى زيادة طفيفة جدًا في حمولة كائن JSON العائد. على سبيل المثال، باستخدام مكتبة OpenAI .NET الجديدة، يتم عرضها كخاصية في فئة ChatCompletionOptions.
chatCompletionOptions . IncludeLogProbabilities = true ;
تتضمن مكتبة .NET القدرة على التحكم في عدد احتمالات السجل التي يتم إرجاعها مع كل استدعاء لواجهة برمجة التطبيقات (API). يوفر هذا مجموعة/قائمة من الرموز المميزة مع كل احتمالية. في الإحصاء، يُعرف هذا باسم دالة الاحتمالية (PMF) لأنها توزيع منفصل للاحتمالات. ملاحظة: في Azure OpenAI، يبلغ الحد الأقصى الحالي 5 وفي OpenAI 10 (لمعظم واجهات برمجة التطبيقات). على سبيل المثال، باستخدام مكتبة OpenAI .NET الجديدة، يتم عرضها كخاصية في فئة ChatCompletionOptions.
chatCompletionOptions . TopLogProbabilityCount = 5 ;
ويتضمن الحل أيضًا إمكانية ضبط درجة الحرارة لكل من المخرجات المتوقعة من نموذج (LLM). الافتراضي هو 0.3f (رقم النقطة العائمة)، ولكن يمكن زيادته إلى 2f لمزيد من الإبداع والتباين.
internal static class GenAI
{
// To simulate more variance in selecting lower probability tokens, increase the temperature to between 1.4 - 2.0.
public const float OPENAITEMPATURE = 0.3f ;
.. .
هذا هو في الأساس الإعداد الأساسي لهذا الحل. باقي الكود هو كود C# لتوصيل مدخلات/مخرجات الخدمات والتأكد من إجراء الحسابات بشكل صحيح وتصورها في تطبيق وحدة التحكم.
معلومات أساسية عن احتمالات السجل
ما هي LogProbs (احتمالات السجل)؟ تقوم معظم برامج LLM الحالية بمعالجة التعليمات السريعة من خلال التنبؤ بالرمز المميز التالي والتكرار من خلال كل رمز مميز حتى تصل إلى نقطة التوقف (أي الحد الأقصى لطول الرمز المميز، واستكمال تعليمات المستخدم). تتم معالجة كل رمز مميز يتم اعتباره للإخراج من خلال خط أنابيب LLM داخلي يقوم بإخراج توزيع احتمالي إحصائي للرموز المميزة "أفضل تطابق" للاختيار من بينها. بناءً على التكوينات (درجة الحرارة، top_p وما إلى ذلك) يمكن حساب احتمالات الرمز المميز هذه ثم تقوم LLM بتحديد الرمز المميز التالي "أفضل تطابق" بناءً على التكوينات المختلفة. نظرًا لأن شهادات LLM هذه ذات طبيعة احتمالية، ولهذا السبب قد ترى مخرجات رموز مختلفة لنفس التعليمات الفورية المرسلة إلى نموذج (LLM).
فيما يلي مثال لسيناريو الأسئلة والأجوبة والاحتمالات المرتبطة بالرمزين (الكلمات) التي تم اختيارها للإجابة على السؤال: "من كان أول رئيس للولايات المتحدة؟" . في المثال أدناه أجاب النموذج برمزين "جورج" "واشنطن"، باستخدام احتمالات الرمز 99.62% و99.99% على التوالي. لاحظ أن هناك رموزًا أخرى متاحة للاختيار، ولكن المعرفة المتأصلة والقدرة المنطقية لـ LLM (من خلال التدريب على كمية هائلة من البيانات) زادت بثقة من احتمال هذين الرمزين: "George" و"Washington".
هناك إعدادات يمكنها معايرة مدى صرامة أو إبداع LLM. على سبيل المثال، ربما تكون قد سمعت عن إعداد نموذج (LLM) يسمى درجة الحرارة والذي يزيد بشكل أساسي من فرصة اختيار الرموز المميزة ذات الاحتمالية الأقل.
بحاجة الى مزيد من المعلومات؟ يوصى بالقراءة على خلفية Azure OpenAI LogProbs:
- كتاب الطبخ OpenAI - LogProbs: https://cookbook.openai.com/examples/using_logprobs
- ما هي LogProbs ؟: https://www.ignorance.ai/p/what-are-logprobs
استخدام LogProbs لتحسين جودة GenAI
هناك العديد من تقنيات التحسين المثبتة والجديدة التي تستخدم استدعاءات متعددة لنموذج أو عدة نماذج للوصول إلى استجابة أو استنتاج أو قرار جودة. حاليًا، معظم الطرق التي يتم بها استخدام LLMs في أنظمة إنتاج GenAI هي التأريض (RAG) من خلال توفير معلومات سياقية إضافية. يُطلب من نموذج (LLM) الإجابة على سؤال وسبب تلك المعلومات وما إلى ذلك. ومع ذلك، مع تقنيات التأريض الضعيفة، يمكن أن يؤدي ذلك إلى نتائج أقل جودة.
Azure OpenAI LogProbs هي تقنية متقدمة يمكن أن تساعد ويمكن استخدامها لقياس الثقة (الاحتمالية) لاستجابة النموذج. يمكن لهذه القدرة الهائلة تمكين نظام GenAI من التصحيح الذاتي أو توجيه المستخدم/الوكيل للوصول إلى استجابة ذات جودة محسنة.
تم توضيح قوة LogProbs أدناه من خلال الرسم التخطيطي لسير عمل GenAI. لاحظ أن هناك طريقين (يسار ويمين):
- المسار الأيسر هو المسار التقليدي الذي تتبعه معظم تطبيقات GenAI. أنت تطرح سؤالاً وتتلقى ردًا من LLM. سير العمل النموذجي هذا على اليسار هو ما يمكن العثور عليه في معظم تطبيقات GenAI Chat الحالية.
- المسار الصحيح هو "تحسين الجودة" لسير العمل. بالتوازي، يمكن للمرء أن يسأل LLM "LLM، هل لديك معلومات كافية للإجابة على هذا السؤال وما مدى تأكدك من وجود معلومات كافية؟"! يتضمن الإشعار من الرسم البياني أدناه مع "تحسين الجودة" هذا ما يلي:
- الجواب على السؤال
- هل يحتوي النموذج على معلومات كافية للإجابة على السؤال - تقدير صحيح أم خطأ من نموذج (LLM).
- احتمال وجود معلومات كافية للإجابة على السؤال - محسوبة من LogProbs؛ والتي يمكن استخدامها للاستدلال الإحصائي الإضافي أو عتبة القرار
خيارات معالجة وحدة التحكم
1) احتمالية الرمز الأول - ما مدى ثقة نموذج الذكاء الاصطناعي (LLM) بالمعلومات اللازمة للإجابة على السؤال
- سوف يستجيب نموذج (LLM) إما بـ True أو False فقط. سيصنف النموذج بشكل أساسي (صواب أو خطأ) إذا كان يعتقد أن هناك معلومات كافية (صواب) أو معلومات غير كافية (خطأ) في أساس ويكيبيديا المقدم للإجابة على السؤال في الموجه.
- يستخدم Azure OpenAI LogProbs لتحديد احتمالية الرمز المميز الأول فقط في الاستجابة. سيكون الرمز الأول دائمًا إما True أو False .
- إذا كان الاحتمال مرتفعاً فإن نموذج (LLM) واثق جداً من إجابته (صواب أو خطأ)
- إذا كان الاحتمال منخفضًا، فإن نموذج (LLM) ليس واثقًا جدًا من إجابته (صواب أو خطأ)
- يمكن استخدام الاحتمالية كحد أدنى لقرار التصنيف فيما إذا كان النموذج يحتوي على معلومات كافية (سياق RAG) للإجابة على السؤال. على سبيل المثال، يمكن للمرء أن يوفر تجربة مستخدم بإشارة تم التحقق منها تفيد بأن الإجابة قد مرت عبر التحقق الثاني عندما يكون الاحتمال المنبعث من النموذج (LLM) أكثر من 90٪.
إخراج المثال:
لاحظ أن الصورة أعلاه توضح مخرجات True وFalse من LLM بالإضافة إلى احتمالية مخرجات True أو False. نظرًا لأن "True" أو "False" هما الرمزان المميزان الأول والوحيد في الاستجابة، فيمكن استخدام احتمال الرمز المميز الأول (LogProb). هناك مشكلتان مع هذا النهج:
- يتم التحقيق في الرمز الأول والاحتمالية فقط. بالنظر إلى مثال جورج واشنطن أعلاه، لاحظ أن هناك العديد من الرموز المميزة التي يمكن إخراجها والتي يمكن أن تكون مكونات أو تكون مشابهة لـ "جورج واشنطن". وينطبق الشيء نفسه حتى عند النظر فقط إلى الرموز المميزة "صحيح" أو "خطأ". يمكن أن تكون هناك رموز مثل "TRU"، و"true"، و"tr" ويجب تجميعها جميعًا معًا للإشارة إلى الاحتمال الجماعي لـ "True". والنماذج أدناه توضح ذلك.
- عند تشغيل الأمثلة عدة مرات، قد يبدو أحيانًا أن هناك تناقضًا بين الرمز المميز الأول مقابل الرمز LogProb العلوي. وذلك لأن خدمة OpenAI يمكنها تحديد الرموز المميزة ذات الاحتمالات الأقل، خاصة مع إعدادات مثل درجة الحرارة المرتفعة. يعد هذا حلاً بسيطًا، حيث يسمح LogProbs للمطور بتجاوز الرمز المميز الأول المحدد واختيار الرمز ذو الاحتمالية الأعلى.
2) الاحتمالية الرمزية الأولى [مع درجات بريير] - حساب درجات بريير للاحتمالية الرمزية الأولى
- يوضح هذا المثال كيفية قياس التنبؤ والدقة التنبؤية للنموذج.
- نفس احتمالية الرمز الأول، ولكنها تحسب أيضًا نقاط بريير لكل إجابة من الإجابات الاحتمالية.
- تُستخدم نتائج بريير (والطرق المشابهة في التعلم الآلي والإحصاء) لقياس دقة أداء التنبؤات الاحتمالية.
- كلما انخفضت درجة بريير، كان النموذج أفضل في التنبؤ باحتمالية الاستجابة للإجابة. على سبيل المثال، إذا كان هناك نموذجان وكلاهما يتنبأ بالحدث الصحيح، ولكن احتمال النموذج الأول كان 65% واحتمال النموذج الثاني كان 95%، فإن درجة بريير للنموذج الثاني ستكون أقل. وذلك لأنه إذا حدث حدث مستقبلي، فسيتم تلقائيًا منحه احتمالًا بنسبة 100%. 95% أقرب إلى 100%. مزيد من المعلومات حول نتائج بريير: https://en.wikipedia.org/wiki/Brier_score
- يمكن أن تجمع درجات بريير تنبؤات فردية متعددة ويتم تجميعها في درجة واحدة. يُخرج هذا المثال جدولًا لدرجات Brier لكل سؤال ومتوسط نقاط Brier لجميع الأسئلة.
- يمكن أن يخبرنا متوسط درجات بريير بالكثير عن دقة الأداء الإجمالي للنظام الاحتمالي أو النموذج الاحتمالي. متوسط درجات بريير 0.1 أو أقل تعتبر ممتازة، 0.1 - 0.2 متفوقة، 0.2 - 0.3 كافية، و0.3-0.35 مقبولة، وأخيرا متوسط درجات بريير فوق 0.35 تشير إلى أداء تنبؤي ضعيف.
ستختلف درجات بريير اعتمادًا على قدرات النموذج والموجه وسياق السؤال. من خلال الحفاظ على الموجه والسياق كما هو، يمكن للمرء مقارنة الأداء العام لدقة النموذج. لاحظ نتائج Brier أدناه عند مقارنة نماذج GPT-4o وGPT-4o-mini. يحتوي نموذج GPT-4o-mini على درجة بريير أقل، مما يعني أنه أكثر دقة في التنبؤ باحتمالية الاستجابة للإجابة الصحيحة. في الواقع، وصل GPT-4o-mini بشكل صحيح إلى الإجابة النهائية 18 سؤالًا من أصل 20 سؤالًا، في حين طابق نموذج GPT-4o الإجابة البشرية المتوقعة (إذا كانت هناك معلومات كافية في السياق للإجابة على السؤال) 17 من 20 أسئلة. لاحظ أن متوسط درجة بريير لـ GPT-4o-mini هو 0.083 (أقل من 0.1)، مما يشير إلى أداء تنبؤي ممتاز. ولذلك، فإن درجة بريير لنموذج GPT-4o-mini أقل (أفضل). يوضح هذا تجريبيًا أنه أكثر دقة في تحديد احتمالية حصوله على معلومات كافية للإجابة على السؤال الفوري المقدم.
إخراج المثال:
3) الاحتمال المرجح لدرجة الثقة - يوفر النموذج درجة الثقة بالنفس ثم يقوم بتقييم احتمالية درجة الثقة
- في الأمثلة السابقة، تم استخدام الاحتمال الرمزي الأول فقط. تم استخدام الرمز المميز الذي يتمتع بأعلى احتمالية كتحديد صحيح أو خطأ.
- يمكن لـ Azure OpenAI LogProbs إرجاع توزيع دالة احتمالية جماعية (PMF) لما يصل إلى الرموز الخمسة التالية بما في ذلك احتمالاتها.
- يستخدم هذا الحساب LogProbs متعددة لتحديد الاحتمالية "المرجحة" للاستجابة.
- بالإضافة إلى ذلك، بدلاً من مطالبة النموذج بتقديم تحديد صحيح أو خطأ فقط، يمكن للنموذج توفير درجة الثقة (1-10) لمدى ثقته في الإجابة على السؤال.
- يتم حساب الاحتمال المرجح عن طريق الضرب: درجة الثقة*احتمال إعطاء تقدير مرجح أفضل للثقة للإجابة على السؤال.
- يمكن استخدام الاحتمال المرجح كدرجة ثقة أفضل معايرة لاستجابة النموذج.
لإرجاع احتمالات السجل المتعددة، قم بتعيين LogProbabilitiesPerToken على 5 (الحد الأقصى الحالي لـ Azure OpenAI، حتى كتابة هذه السطور):
chatCompletionOptions.Temperature = 0.3f; // Higher Temperature setting will use tokens with much lower probability
chatCompletionOptions.IncludeLogProbabilities = true;
// For the Confidence Score, we want to investigate 5 of the top log probabilities (PMF)
chatCompletionOptions.TopLogProbabilityCount = 5;
إخراج المثال:
فيما يلي مثال لتوزيع احتمالية الرمز المميز عندما يتم إرجاع 5 رموز مميزة لـ LogProbs مع احتمالاتها الخاصة. في الرسم البياني أدناه، "نقاط الثقة: 1" لديها احتمال 42.3%؛ مما يعني أن النموذج يعتقد أن لديه درجة ثقة منخفضة جدًا = 1 للإجابة على السؤال وأن الفرصة المنخفضة هي 42.3%. إذا قمت فقط بتحديد أعلى درجة ثقة التي أعادها النموذج، فقد تفقد قدرًا كبيرًا من المعلومات الأخرى مع الرموز المميزة الأخرى (الرمز المميز رقم 2 - 5). في هذا السيناريو، هناك ما يقرب من 57% من المعلومات التي يمكن استخدام احتمالات الرموز المميزة الأخرى لحساب نقاط الثقة "المرجحة"، والتي تقوم بمعايرة نقاط الثقة من 1 -> 2.3.
4) فاصل الثقة 95% - استخدم توزيع الاحتمالات لحساب فاصل ثقة 95% (نطاق) للإجابات المعقولة
- تُظهر الأمثلة السابقة تقديرًا بنقطة واحدة لدرجة الثقة. يمكن أن يكون هذا مضللاً لأن النموذج قد يكون له تفسيرات متعددة للاستجابة.
- يمكن لـ Azure OpenAI LogProbs إرجاع توزيع دالة احتمالية جماعية (PMF) لما يصل إلى الرموز الخمسة التالية بما في ذلك احتمالاتها.
- يستخدم هذا الحساب LogProbs متعددة لتحديد "فاصل الثقة" للاستجابة.
- يتم حساب فاصل الثقة عن طريق تشغيل استدعاءات متعددة (10) للنموذج (باستخدام نفس الموجه) وحساب فاصل الثقة 95% لدرجات الثقة.
- يمكن استخدام فترة الثقة لفهم نطاق الاحتمالات، حيث أن 95% من النتائج سوف تقع ضمن هذا النطاق عند تكرار نفس السؤال.
- لماذا تسمي النموذج 10x، أليس هذا مبالغة؟ بالنسبة للقرارات والاستدلالات عالية المخاطر (شراء منزل/سيارة، اتخاذ قرار بشأن درجة جامعية مدتها 4 سنوات)، فإن تلك المكالمات القليلة الإضافية تستحق بضعة سنتات ووقتًا إضافيًا للحصول على نطاق خطأ مناسب.
إخراج المثال:
مزيد من الاعتبارات المتقدمة (تشغيل مشروع وحدة التحكم exampleConfidenceIntervalSimulation)
لم يتطرق هذا الريبو إلى معايرة درجة ثقة النموذج ولا معايرة احتمالية LogProbs للنموذج. نظرًا لأن LLMs هي في الأساس شبكات عصبية، فقد لا يتم معايرتها لمهام أو مجالات محددة. في الأساس، عندما يقول LLM أنه واثق بنسبة 8/10 أو يحدد احتمالًا بنسبة 80%، يجب أن يكون النموذج صحيحًا بنسبة 80% تقريبًا من الوقت (ضمن معدل الخطأ).
- النموذج الذي أجاب على 100 سؤال بدرجة ثقة 80% يجب أن يكون صحيحًا حوالي 80 مرة. وهذا من شأنه أن يكون المعايرة المثالية.
- ملاحظة: يوجد معدل خطأ حتى لو تمت معايرة النموذج بشكل مثالي بحوالي 80%. في حالة 100 سؤال، نتوقع في 95% من الحالات أن يكون النطاق بين 72 و88 سؤالًا صحيحًا (+/- 8 أسئلة حول المتوسط المتوقع وهو 80). لماذا تبلغ عن مستوى ثقة 95% وليس 100%؟ إن الإبلاغ عن مستوى ثقة 100% ليس له أي معنى لأن نطاق الثقة 100% يتراوح من 0 إلى 100 إجابة صحيحة. على الرغم من أن مجموعة الاحتمالات بأكملها غير قابلة للتنفيذ، إلا أنه لا تزال هناك فرصة ضئيلة للغاية للإجابة على 0 أو 100 سؤال. يوفر مستوى الثقة بنسبة 95% نطاقًا واقعيًا من النتائج المعقولة، وإذا رأيت نتائج خارج هذا النطاق، فمن المحتمل أن يحدث شيء "يستحق التحقيق".
- النموذج الذي أجاب على 100 سؤال بدرجة ثقة 80% وكان صحيحًا 50 مرة فقط سيكون شديد الثقة. وهذا خارج نطاق الخطأ المتوقع.
- ملحوظة: يمكن أن توضح الإحصائيات أو المحاكاة احتمالية الحصول على 50 إجابة صحيحة فقط إذا ادعى النموذج أنه واثق بنسبة 80% من أن النسبة تقترب من 0.00%! ليس مستحيلاً، ولكن إذا حدث هذا في سيناريو الإنتاج، فمن الواضح أن النموذج غير معاير ومفرط الثقة.
- النموذج الذي أجاب على 100 سؤال بدرجة ثقة 80% وكان صحيحًا 90 مرة سيكون غير واثق. وهذا خارج نطاق الخطأ المتوقع.
- ملحوظة: يمكن أن توضح الإحصائيات أو المحاكاة أن النموذج الذي يكون واثقًا بنسبة 80%، ولكنه صحيح بالفعل أكثر من 90 مرة، لن يحدث إلا في 0.00233 (0.233%) من الوقت.
المحاكاة الإحصائية عرض 10,000,000 محاكاة والنطاقات المتوقعة لـ 100 سؤال معايرة 80%:
تنطبق تقنيات المعايرة هذه على سيناريوهات العالم الحقيقي. ولنتأمل هنا أسواق ماينيفولد (https://manifold.markets/)، حيث يراهن المتنبئون الفائقون من البشر على احتمالات وقوع الأحداث. إن الحكمة الجماعية لهؤلاء المتنبئين الفائقين من البشر تتم معايرتها بدرجة عالية في التنبؤ بأحداث العالم الحقيقي!
مثال للمعايرة في بيئة تنبؤ حقيقية من الأسواق المتعددة لآلاف التوقعات:
موضوع المعايرة ليس جديدا وقد تمت دراسته في نظرية القرار والتعلم الآلي. يمكنك تطبيق كل من ذكاء القرار (العلوم المعرفية) وتقنيات التعلم الآلي لزيادة معايرة أداء النموذج.
- معايرة Chat GPT بسبب ثقتها المفرطة: https://hubbardresearch.com/chat-gpt-ai-calibration/
- مثال على معايرة الأسواق المتنبئة: https://manifold.markets/calibration
- معايرة مقيم معتمد على LLM: https://arxiv.org/pdf/2309.13308.pdf