HN Summary は、 Hacker News のトップ記事を要約し、その要約を Telegram チャネルに公開するオープンソース ボットです。
Telegram のHN Summaryチャンネルに参加して、ボットの動作を確認し、ストーリーの概要をお楽しみください。
https://t.me/hn_summary
電報チャネル上の不適切な要約に「?」を付けてフラグを立てます。軽減と改善に役立ちます。
現在のトップハッカーニュース記事の概要もここで見つけることができます。
https://news.jiggy.ai
遠慮なく PR/問題を開くか、電報または Twitter の @wskish にフィードバックを送ってください。
新しいストーリーが Hacker News API /topstories.json エンドポイントに表示されるたびに、このボットはそれを要約し (現在 OpenAI gpt-3.5-turbo を使用しています)、ストーリーのタイトル、概要、および URL を Telegram の hn_summary チャネルに送信します。
このプロジェクトの目的は、幅広いトップ ハッカー ニュース コンテンツを明らかにしながら、現世代の大規模言語モデルの機能についての直観を構築するのに役立つことです。また、セマンティック検索などの他の言語モデル機能を実験するためのプラットフォームとしても機能する可能性があります。
GPT-3 のような大規模な言語モデルは、狂った幻覚を起こしやすく、非常に権威ある口調で書いているときにでっちあげになることがあります。
HTML からテキストを抽出するコードは非常に基本的であり、エラーが発生しやすくなります。 (PR の方は歓迎です。) さらに、多くのサイト (ニュース サイトなど) はペイウォールで保護されているか、テキストの抽出が困難になっています。私たちは現在、迅速なエンジニアリングによってこのケースを捕まえようとしていますが、ケースがすり抜けてしまった場合、タイトルと FQDN だけに基づいて空想的な幻覚に陥る傾向があります。
PDF および HTML 以外のコンテンツ タイプへのリンクは現在無視されます。
reddit、twitter、その他の商用リンクからのテキスト抽出は壊れており、おそらくひどい幻覚のような要約が生成されます。
電報メッセージは 4K に制限されています。現在、応答は 4K に切り詰められています。
次の環境変数は、主要な依存関係に資格情報とその他の必要な構成を挿入するために使用されます。
OpenAI
PostgresQL
すでに見たアイテムと関連するアイテム情報を追跡するためのデータベース。
電報