HN Summary هو روبوت مفتوح المصدر يلخص أهم الأخبار على Hacker News وينشر الملخصات على قناة Telegram.
انضم إلى قناة HN Summary على Telegram لرؤية الروبوت أثناء العمل والاستمتاع بملخصات القصة:
https://t.me/hn_summary
قم بوضع علامة على الملخصات السيئة على قناة التليجرام باستخدام ؟ للمساعدة في التخفيف والتحسين.
يمكنك العثور على ملخصات لأهم مقالات Hacker News الحالية هنا أيضًا:
https://news.jiggy.ai
لا تتردد في فتح قسم العلاقات العامة/الإصدار أو أرسل لي رسالة مباشرة علىwskish على telegram أو twitter لإبداء الملاحظات.
عندما تظهر قصة جديدة على نقطة نهاية Hacker News API /topstories.json، يقوم هذا الروبوت بتلخيصها (حاليًا باستخدام OpenAI gpt-3.5-turbo) ويرسل عنوان القصة والملخص وعنوان url إلى قناة hn_summary على Telegram.
الغرض من هذا المشروع هو المساعدة في بناء الحدس حول قدرات الجيل الحالي من نماذج اللغات الكبيرة مع عرض مجموعة واسعة من أفضل محتوى Hacker News. ويمكن أيضًا أن يكون بمثابة منصة للتجريب مع إمكانات نماذج اللغة الأخرى مثل البحث الدلالي.
نماذج اللغات الكبيرة مثل GPT-3 عرضة للهلوسة المجنونة وفي بعض الأحيان تختلق أشياء أثناء الكتابة بنبرة موثوقة للغاية.
يعد رمز استخراج النص من HTML أساسيًا للغاية وعرضة للأخطاء. (ترحيب العلاقات العامة.) بالإضافة إلى ذلك، فإن العديد من المواقع (مثل المواقع الإخبارية) إما محمية بنظام حظر الاشتراك غير المدفوع أو تجعل من الصعب استخراج النص. نحاول الآن اكتشاف هذه الحالة من خلال الهندسة السريعة، ولكن عندما تفلت إحدى الحالات، فإننا نميل إلى الحصول على هلوسة خيالية بناءً على العنوان وFQDN فقط.
يتم حاليًا تجاهل الارتباطات الخاصة بأنواع المحتوى بخلاف PDF وHTML.
يتم تعطيل استخراج النص من reddit وtwitter والروابط التجارية الأخرى وربما ينتج عنه ملخصات مهلوسة إلى حد كبير.
تقتصر رسائل Telegram على 4K. حاليًا يتم اقتطاع الاستجابة إلى 4K.
يتم استخدام متغيرات البيئة التالية لإدخال بيانات الاعتماد والتكوينات الأخرى المطلوبة للتبعيات الرئيسية:
OpenAI
PostgresQL
قاعدة بيانات لتتبع العناصر التي رأيناها بالفعل ومعلومات العناصر المرتبطة بها.
برقية