HN Summary ist ein Open-Source-Bot, der Top-Storys von Hacker News zusammenfasst und die Zusammenfassungen auf einem Telegram-Kanal veröffentlicht.
Treten Sie dem HN-Summary- Kanal auf Telegram bei, um den Bot in Aktion zu sehen und die Story-Zusammenfassungen zu genießen:
https://t.me/hn_summary
Schlechte Zusammenfassungen auf dem Telegram-Kanal mit kennzeichnen? zur Linderung und Verbesserung beitragen.
Zusammenfassungen der aktuellen Top-Hacker-News-Artikel finden Sie auch hier:
https://news.jiggy.ai
Fühlen Sie sich frei, PR/Ausgabe zu öffnen oder mir eine DM unter @wskish per Telegramm oder Twitter mit Feedback zu senden.
Immer wenn eine neue Story auf dem Hacker News API /topstories.json-Endpunkt erscheint, fasst dieser Bot sie zusammen (derzeit mit OpenAI gpt-3.5-turbo) und sendet den Story-Titel, die Zusammenfassung und die URL an den hn_summary-Kanal auf Telegram.
Der Zweck dieses Projekts besteht darin, einen Einblick in die Fähigkeiten der aktuellen Generation großer Sprachmodelle zu gewinnen und gleichzeitig ein breiteres Spektrum an Top-Hacker-News-Inhalten zu erschließen. Es könnte auch als Plattform für Experimente mit anderen Sprachmodellfunktionen wie der semantischen Suche dienen.
Große Sprachmodelle wie GPT-3 neigen zu verrückten Halluzinationen und erfinden manchmal Dinge, während sie in einem sehr autoritären Ton schreiben.
Der Code zum Extrahieren von Text aus HTML ist sehr einfach und fehleranfällig. (PR willkommen.) Darüber hinaus verfügen viele Websites (z. B. Nachrichtenseiten) entweder über eine Paywall oder erschweren das Extrahieren von Text. Wir versuchen jetzt, diesen Fall mithilfe von Prompt Engineering aufzuspüren, aber wenn uns einer durchschlüpft, neigen wir dazu, phantasievolle Halluzinationen zu bekommen, die nur auf dem Titel und dem FQDN basieren.
Links zu anderen Inhaltstypen als PDF und HTML werden derzeit ignoriert.
Die Textextraktion aus Reddit und Twitter sowie anderen kommerziellen Links ist fehlerhaft und führt wahrscheinlich zu wild halluzinierten Zusammenfassungen.
Telegram-Nachrichten sind auf 4K beschränkt. Derzeit ist die Antwort auf 4K gekürzt.
Die folgenden Umgebungsvariablen werden verwendet, um Anmeldeinformationen und andere erforderliche Konfigurationen für die wichtigsten Abhängigkeiten einzufügen:
OpenAI
PostgresQL
Datenbank zur Verfolgung bereits gesehener Artikel und zugehöriger Artikelinformationen.
Telegramm