HN Summary es un bot de código abierto que resume las principales historias de Hacker News y publica los resúmenes en un canal de Telegram.
Únase al canal HN Summary en Telegram para ver el bot en acción y disfrutar de los resúmenes de las historias:
https://t.me/hn_summary
¿Marcar malos resúmenes en el canal de Telegram con ? para ayudar a mitigar y mejorar.
También puede encontrar resúmenes de los principales artículos actuales de Hacker News aquí:
https://noticias.jiggy.ai
No dudes en abrir relaciones públicas/problemas o enviarme un mensaje privado a @wskish en Telegram o Twitter con tus comentarios.
Cada vez que aparece una nueva historia en el punto final de Hacker News API /topstories.json, este bot la resume (actualmente usando OpenAI gpt-3.5-turbo) y envía el título, el resumen y la URL de la historia al canal hn_summary en Telegram.
El propósito de este proyecto es ayudar a desarrollar la intuición sobre las capacidades de la generación actual de grandes modelos de lenguaje y, al mismo tiempo, mostrar una franja más amplia del contenido principal de Hacker News. También podría servir como plataforma para experimentar con otras capacidades del modelo lingüístico, como la búsqueda semántica.
Los modelos de lenguaje grandes como GPT-3 son propensos a sufrir alucinaciones locas y, a veces, inventan cosas mientras escriben en un tono muy autoritario.
El código para extraer texto de HTML es muy básico y propenso a errores. (Las relaciones públicas son bienvenidas). Además, muchos sitios (como los sitios de noticias) tienen muros de pago o dificultan la extracción de texto. Ahora intentamos detectar este caso mediante ingeniería rápida, pero cuando uno se nos escapa, tendemos a tener alucinaciones fantasiosas basadas solo en el título y el FQDN.
Actualmente, los enlaces a tipos de contenido distintos de PDF y HTML se ignoran.
La extracción de texto de reddit y twitter y otros enlaces comerciales están rotos y probablemente produzcan resúmenes tremendamente alucinados.
Los mensajes de Telegram están limitados a 4K. Actualmente la respuesta está truncada a 4K.
Las siguientes variables de entorno se utilizan para inyectar credenciales y otras configuraciones necesarias para las dependencias principales:
Abierto AI
PostgresQL
Base de datos para realizar un seguimiento de los elementos que ya hemos visto y la información de los elementos asociados.
Telegrama