Study-Bot — это проект с открытым исходным кодом, разработанный Edumakers из Tecnológico de Monterrey . Он разработан, чтобы помочь студентам с нарушениями зрения просмотреть учебный материал. Это помощник для обучения на базе искусственного интеллекта, который включает в себя различные технологии, включая Whisper, GPT-3.5-turbo-16k, преобразование текста в речь Elevenlabs и OpenCV. В целях тестирования образец материала курса был создан с использованием ChatGPT.
Study-Bot может: слушать вопрос пользователя, анализировать исходный материал по теме, которую он хочет изучить, определять физический учебный материал, который он держит в руках, по цвету или маркеру ArUco, генерировать ответ и читать его вслух пользователя как доступное исполняемое приложение. В целях разработки и тестирования его можно запускать через интерпретатор Python как программу CLI или с графическим интерфейсом .
Некоторыми хорошими следующими шагами могли бы стать встраивание этой системы в более продвинутый пользовательский интерфейс для распространения в виде настольного приложения, создание модели компьютерного зрения, которая сможет обнаруживать физический учебный материал без зависимости от цвета или маркеров ArUco, а также некоторые улучшения производительности и новые интерактивные функции.
Рекомендуется использовать Python 3.9.9, чтобы библиотеку whisper
можно было использовать без проблем. Чтобы избежать необходимости удалять текущую установку Python , вы можете использовать виртуальную среду для использования этой конкретной версии Python . Чтобы установить необходимые зависимости, выполните следующую команду:
pip install -r requirements.txt
Прежде чем запустить проект, необходимо предпринять некоторые дополнительные шаги, например, получить собственные ключи API для используемых здесь сервисов искусственного интеллекта. Для получения дополнительной информации обратитесь к папке Documentation
для получения подробного руководства по использованию этого проекта.
Study-Bot опирается на следующие существующие сервисы и технологии:
Шепот: используется для преобразования речи в текст, позволяя пользователям задавать вопросы для их передачи в модель GPT.
gpt-3.5-turbo-16k: используется для обработки вопросов и генерации ответов. Версия модели размером 16 КБ была выбрана из-за размера контекстного окна в 16 385 токенов, который необходим для обработки большого количества исходного материала.
Преобразование текста в речь Elevenlabs: используется для преобразования текста в речь, позволяя пользователям слышать ответы, сгенерированные моделью GPT.
OpenCV: используется для идентификации физических объектов, чтобы помочь модели GPT-3.5-16k отвечать на вопросы с добавленным контекстом того, что держит пользователь.
Используйте этот проект в качестве справочного материала для себя или создайте его, чтобы внести свой вклад. Вопросы GitHub, касающиеся запросов функций и отчетов об ошибках, приветствуются и особенно ценятся, если они включают отзывы пользователей с нарушениями зрения.