Study-Bot est un projet open source développé par Edumakers de Tecnológico de Monterrey . Il est conçu pour aider les étudiants malvoyants à réviser leur matériel de cours académique. Il s'agit d'un compagnon d'étude alimenté par l'IA qui intègre diverses technologies, notamment Whisper, GPT-3.5-turbo-16k, la synthèse vocale Elevenlabs et OpenCV. À des fins de test, un exemple de matériel de cours a été généré à l'aide de ChatGPT.
Study-Bot peut : écouter la question de l'utilisateur, analyser le matériel source du sujet qu'il souhaite étudier, détecter le matériel éducatif physique qu'il détient grâce à sa couleur ou au marqueur ArUco, générer une réponse et la lire à haute voix au utilisateur en tant qu'application exécutable accessible. À des fins de développement et de test, il peut être exécuté via l'interpréteur Python en tant que programme CLI ou avec une interface graphique .
Certaines bonnes prochaines étapes pourraient consister à intégrer ce système dans une interface utilisateur plus avancée pour une distribution en tant qu'application de bureau, à créer un modèle de vision par ordinateur capable de détecter le matériel éducatif physique sans dépendre de la couleur ou des marqueurs ArUco, ainsi qu'à améliorer les performances et de nouvelles fonctionnalités interactives.
Il est recommandé d'utiliser Python 3.9.9 afin que la bibliothèque whisper
puisse être utilisée sans problème. Pour éviter d'avoir à supprimer votre installation Python actuelle, vous souhaiterez peut-être utiliser un environnement virtuel pour utiliser cette version spécifique de Python . Pour installer les dépendances requises, exécutez la commande suivante :
pip install -r requirements.txt
Certaines étapes supplémentaires doivent être suivies avant de pouvoir exécuter le projet, telles que l'acquisition de vos propres clés API pour les services d'IA utilisés ici. Pour plus d'informations, veuillez vous référer au dossier Documentation
pour un guide complet sur la façon d'utiliser ce projet.
Study-Bot s'appuie sur les services et technologies existants suivants :
Whisper : utilisé pour la conversion parole en texte, permettant aux utilisateurs de formuler leurs questions afin qu'elles soient intégrées au modèle GPT.
gpt-3.5-turbo-16k : utilisé pour le traitement des questions et la génération de réponses. La version 16 ko du modèle a été choisie pour sa taille de fenêtre contextuelle de 16 385 jetons, nécessaire pour traiter une grande quantité de matériel source.
Texte-parole d'Elevenlabs : utilisé pour la conversion de texte-parole, permettant aux utilisateurs d'entendre les réponses générées par le modèle GPT.
OpenCV : utilisé pour l'identification d'objets physiques, pour aider le modèle GPT-3.5-16k à répondre aux questions avec le contexte supplémentaire de ce que l'utilisateur détient.
Utilisez ce projet comme référence pour le vôtre, ou créez-le pour apporter vos propres contributions. Les problèmes GitHub concernant les demandes de fonctionnalités et les rapports de bogues sont les bienvenus et particulièrement appréciés s'ils incluent les commentaires d'utilisateurs malvoyants.