HN Summary é um bot de código aberto que resume as principais notícias do Hacker News e publica os resumos em um canal do Telegram.
Junte-se ao canal HN Summary no Telegram para ver o bot em ação e curtir os resumos das histórias:
https://t.me/hn_summary
Sinalize resumos ruins no canal de telegrama com ? para ajudar a mitigar e melhorar.
Você também pode encontrar resumos dos principais artigos atuais do Hacker News aqui:
https://news.jiggy.ai
Sinta-se à vontade para abrir PR/edição ou enviar um email para @wskish no telegrama ou Twitter com feedback.
Sempre que uma nova história aparece no endpoint Hacker News API /topstories.json, este bot a resume (atualmente usando OpenAI gpt-3.5-turbo) e envia o título, resumo e URL da história para o canal hn_summary no Telegram.
O objetivo deste projeto é ajudar a construir a intuição sobre as capacidades da geração atual de grandes modelos de linguagem, ao mesmo tempo em que traz à tona uma faixa mais ampla do principal conteúdo do Hacker News. Também poderia servir como plataforma para experimentação com outros recursos de modelos de linguagem, como pesquisa semântica.
Grandes modelos de linguagem, como o GPT-3, são propensos a alucinações malucas e às vezes inventam coisas enquanto escrevem em um tom muito autoritário.
O código para extrair texto de HTML é muito básico e sujeito a erros. (RP são bem-vindos.) Além disso, muitos sites (como sites de notícias) têm acesso pago ou dificultam a extração de texto. Agora tentamos capturar esse caso por meio de engenharia imediata, mas quando alguém escapa, tendemos a ter alucinações fantasiosas baseadas apenas no título e no FQDN.
Links para tipos de conteúdo diferentes de PDF e HTML são atualmente ignorados.
A extração de texto do Reddit e do Twitter e de outros links comerciais está quebrada e provavelmente produz resumos extremamente alucinados.
As mensagens do Telegram são limitadas a 4K. Atualmente a resposta está truncada para 4K.
As seguintes variáveis de ambiente são usadas para injetar credenciais e outras configurações necessárias para as dependências principais:
OpenAI
PostgreSQL
Banco de dados para acompanhar os itens que já vimos e as informações dos itens associados.
Telegrama