HN Summary — это бот с открытым исходным кодом, который обобщает главные новости Hacker News и публикует их на канале Telegram.
Присоединяйтесь к каналу HN Summary в Telegram, чтобы увидеть бота в действии и насладиться краткими обзорами историй:
https://t.me/hn_summary
Отметьте плохие сводки на канале Telegram с помощью ? чтобы помочь смягчить и улучшить.
Вы также можете найти краткое изложение текущих лучших статей Hacker News здесь:
https://news.jiggy.ai
Не стесняйтесь открывать PR/проблему или пишите мне в @wskish в Telegram или Twitter с отзывами.
Всякий раз, когда новая история появляется в конечной точке Hacker News API /topstories.json, этот бот обобщает ее (в настоящее время использует OpenAI gpt-3.5-turbo) и отправляет заголовок, краткое описание и URL-адрес истории на канал hn_summary в Telegram.
Цель этого проекта — помочь лучше понять возможности текущего поколения больших языковых моделей, одновременно предоставляя более широкий спектр популярного контента Hacker News. Он также может служить платформой для экспериментов с другими возможностями языковой модели, такими как семантический поиск.
Большие языковые модели, такие как GPT-3, склонны к сумасшедшим галлюцинациям и иногда придумывают что-то, писая очень авторитетным тоном.
Код для извлечения текста из HTML очень прост и подвержен ошибкам. (Пиар приветствуется.) Кроме того, многие сайты (например, новостные) либо имеют платный доступ, либо затрудняют извлечение текста. Сейчас мы пытаемся отловить этот случай с помощью оперативного проектирования, но когда он все же ускользает, у нас, как правило, возникают причудливые галлюцинации, основанные только на названии и полном доменном имени.
Ссылки на типы контента, отличные от PDF и HTML, в настоящее время игнорируются.
Извлечение текста из Reddit, Twitter и других коммерческих ссылок не работает и, вероятно, приводит к появлению диких галлюцинаций.
Сообщения Telegram ограничены разрешением 4K. В настоящее время ответ усекается до 4K.
Следующие переменные среды используются для внедрения учетных данных и другой необходимой конфигурации для основных зависимостей:
ОпенАИ
PostgresQL
База данных для отслеживания предметов, которые мы уже видели, и связанной с ними информации.
Телеграмма