HN Summary est un robot open source qui résume les principales actualités de Hacker News et publie les résumés sur une chaîne Telegram.
Rejoignez la chaîne HN Summary sur Telegram pour voir le bot en action et profiter des résumés de l'histoire :
https://t.me/hn_summary
Signaler les mauvais résumés sur la chaîne Telegram avec ? pour aider à atténuer et à améliorer.
Vous pouvez également trouver des résumés des principaux articles actuels de Hacker News ici :
https://news.jiggy.ai
N'hésitez pas à ouvrir PR/numéro ou envoyez-moi un message à @wskish sur télégramme ou Twitter avec vos commentaires.
Chaque fois qu'une nouvelle histoire apparaît sur le point de terminaison de l'API Hacker News /topstories.json, ce bot la résume (actuellement en utilisant OpenAI gpt-3.5-turbo) et envoie le titre, le résumé et l'URL de l'histoire au canal hn_summary sur Telegram.
Le but de ce projet est d'aider à développer une intuition sur les capacités de la génération actuelle de grands modèles de langage tout en faisant apparaître une bande plus large de contenus de premier plan sur Hacker News. Il pourrait également servir de plate-forme d'expérimentation avec d'autres fonctionnalités de modèle de langage telles que la recherche sémantique.
Les grands modèles de langage tels que GPT-3 sont sujets à des hallucinations folles et inventent parfois des choses en écrivant sur un ton très autoritaire.
Le code pour extraire du texte du HTML est très basique et sujet aux erreurs. (Les relations publiques sont les bienvenues.) De plus, de nombreux sites (tels que les sites d'information) sont soit payants, soit rendent difficile l'extraction de texte. Nous essayons maintenant de détecter ce cas via une ingénierie rapide, mais lorsqu'un tel cas s'échappe, nous avons tendance à avoir des hallucinations fantaisistes basées uniquement sur le titre et le nom de domaine complet.
Les liens vers des types de contenu autres que PDF et HTML sont actuellement ignorés.
L'extraction de texte de Reddit et Twitter et d'autres liens commerciaux est interrompue et produit probablement des résumés follement hallucinés.
Les messages télégrammes sont limités à 4K. Actuellement, la réponse est tronquée en 4K.
Les variables d'environnement suivantes sont utilisées pour injecter les informations d'identification et autres configurations requises pour les dépendances majeures :
OpenAI
PostgreSQL
Base de données pour garder une trace des éléments que nous avons déjà vus et des informations sur les éléments associés.
Télégramme