Descargar JARVIS ChatGPT - Descargar el código fuente JARVIS ChatGPT .

JARVIS ChatGPT

Otro código fuente

1.0.0

Descargar

Jarvis-chatgpt: un asistente de conversación equipado con la voz de Jarvis

Un asistente interactivo basado en la voz equipado con una variedad de voces sintéticas (incluida la voz de Jarvis de Ironman)

Imagen de MidJourney AI

¿Alguna vez soñó pedir consejos de sistema hiperinteligentes para mejorar su armadura? ¡Ahora puedes! Bueno, tal vez no la parte de la armadura ... este proyecto explota Openai Whisper, Operai Chatgpt e IBM Watson.

Motivación del proyecto:

Muchas veces las ideas vienen en el peor momento y se desvanecen antes de que tengas tiempo para explorarlas mejor. El objetivo de este proyecto es desarrollar un sistema capaz de dar consejos y opiniones en tiempo casi real sobre cualquier cosa que solicite. Se podrá acceder al asistente final desde cualquier micrófono autorizado dentro de su casa o su teléfono, debe ejecutarse constantemente en segundo plano y, cuando se convocará, debe poder generar respuestas significativas (con voz rudo), así como interfaz con la PC o un servidor y guardar/leer/escribir archivos a los que se puede acceder más adelante. Debería poder ejecutar investigaciones, recopilar material de Internet (extraer contenido de las páginas HTML, transcribir videos de YouTube, encontrar artículos científicos ...) y proporcionar resúmenes que puedan usarse como contexto para tomar decisiones informadas. Además, podría interactuar con algunos dispositivos externos (IoT), pero eso es extra.

MANIFESTACIÓN:

2023-04-11.23-20-03_trim.mp4

14 de julio de 2023 Actualización: modo de investigación

Puedo compartir Finnaly el primer borrador del modo de investigación. Esta modalidad se pensaba para las personas que a menudo trataban con trabajos de investigación.

Cambie al modo de investigación diciendo 'cambiar al modo de investigación'
Inicialice un nuevo espacio de trabajo como este: "Inicialice un nuevo espacio de trabajo sobre aplicaciones de fibra de carbono en la industria de la nave espacial" . Un espacio de trabajo es una carpeta que recopila y organiza los resultados de la investigación. Este protocolo se subdivide en 3 sub-rutinas:
1. Identificación de documento central: use la API de Semantic Scholar para identificar algunos documentos muy relevantes;
2. Expansión del núcleo: para cada artículo, encuentra algunas sugerencias, luego mantenga solo las sugerencias que parecen ser similares a al menos 2 papel;
3. Refy Expansion: use el paquete de sugerencias de refitación para ampliar los resultados;
Encuentre sugerencias como: 'Encuentra sugerencias que sean sililar al artículo con el título ...'
Descargar: 'Descargue el papel con el título ...'
Consulte su base de datos como: "¿Cuál es el autor del artículo con el título ...?" '¿Cuáles son las condiciones experimentales establecidas para el documento con el título ...?'

PD: Este modo no es súper estable y debe trabajar en

PPS: Este proyecto se suspenderá por algún tiempo ya que trabajaré en mi tesis hasta 2024. Sin embargo, ya hay muchas cosas que se pueden mejorar, ¡así que volveré!

Lo que necesitarás:

DESCARGO DE RESPONSABILIDAD:
El proyecto podría consumir su crédito OpenAI que resulta en una facturación no deseada;
No asumro la responsabilidad de ningún cargo no deseado;
Considere establecer limitaciones en el consumo de crédito en su cuenta de OpenAI;

Una cuenta de OpenAI y una clave API; (Verifique las preguntas frecuentes a continuación para ver las alternativas)
Cuenta Picovoice y una Key Key de acceso gratuita; (opcional)
Cuenta de ElevenLabs y clave API gratuita (opcional) ;
Langchain API claves para navegación web (noticias, clima, serpapi, google-serp, google-search ... todos son gratuitos)
ffmpeg;
Entorno virtual de Python (Python> = 3.9 y <3.10);
Algún crédito para gastar en chatgpt (puede obtener tres meses de uso gratuito registrándose para OpenAi) (sugerido) ;
Versión CUDA> = 11.2;
Una cuenta de IBM Cloud para explotar sus modelos de texto a voz basados en la nube (tutorial) (opcional) ;
Una conexión a Internet (razonablemente) rápida (la mayor parte del código se basa en API, por lo que una conexión más lenta podría resultar en más tiempo para responder);
micrófono y orador;
Motor gráfico CUDA capaz (Versión de mi antorcha: 2.0 y CUDA V11.7 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 );
Paciencia ?

Puede confiar en la nueva setup.bat Bat que hará la mayoría de las cosas por usted.

Descripción general de Github

Script principal debe ejecutar: openai_api_chatbot.py Si desea utilizar la última versión de la API de OpenAI dentro de la carpeta Demos, encontrará alguna orientación para los paquetes utilizados en el proyecto, si tiene errores, primero puede verificar estos archivos para orientar el problema. La mayoría de las funciones se almacenan en la carpeta de asistente: get_audio.py almacena todas las funciones para manejar las interacciones de micrófono, tools.py By implementa algunos aspectos básicos del asistente virtual, voice.py describe una clase de voz (muy) rugosa. Agents.py manejar la parte langchain del sistema (aquí puede agregar o eliminar herramientas de los kits de herramientas de los agentes)
Los scripts restantes son complementarios para la generación de voz y no deben editarse.

Tutorial de instalación

Instalación automática

Puede ejecutar setup.bat si se ejecuta en Windows/Linux. El script realizará cada paso de la instalación manual en secuencia. Consulte aquellos en caso de que el procedimiento falle.
La instalación automática también ejecutará la instalación de Vicuna (Guía de instalación de Vicuna)

Instalación manual

Paso 1: Instalación, Cuentas, API ...

Ambiente

Haga un entorno virtual nuevo y vacío con Python 3.8 y activelo (. Venv_name scripts activate);
pip install -r venv_requirements.txt ; Esto podría llevar algún tiempo; Si encuentra conflictos en paquetes específicos, instálelos manualmente sin el ==<version> ;
instalar manualmente Pytorch de acuerdo con su versión CUDA;
Copie y pegue los archivos que encontrará en la carpeta whisper_edits a la carpeta whisper de su entorno (. Venv lib Site-Packages Whisper ) Estas ediciones agregarán solo un atributo al modelo Whisper para acceder a su dimensión más fácilmente;
instalar TTS;
Ejecute su script y verifique que todo funcione (debería descargar algunos modelos) (alternativamente puede ejecutar demos/tts_demo.py );
Cambie el nombre o elimine la carpeta TTS y descargue el asistente y otros scripts de este repositorio
Instale Vicuna siguiendo las instrucciones en la carpeta Vicuna o ejecutando:
cd Vicuna
call vicuna.ps1
Las instrucciones manuales le indicarán que siga la guía de instalación de Vicuna
Pegue todas sus claves en el archivo env.txt y cambie el nombre a .env (sí, elimine la extensión txt)
Verifique que todo funciona (siguiente)

Cheques

Verifique que su motor gráfico y su versión CUDA sean compatibles con Pytorch ejecutando torch.cuda.is_available() y torch.cuda.get_device_name(0) dentro de pyhton; .
Ejecutar tests.py . Este archivo intenta realizar operaciones básicas que podrían aumentar los errores;
[Advertencia] Verifique las preguntas frecuentes a continuación si tiene errores;
Puede verificar las fuentes de error ejecutando demostraciones en la carpeta Demos;

Paso 2: Soporte del idioma

Para tener respuestas habladas en su idioma, primero debe verificar si su idioma es compatible con el generador de discursos en https://cloud.ibm.com/docs/text-to-speech?topic=text-to-spech-voices ;
Si es compatible, agregue o cambie los idiomas dentro de VirtualAssistant.__init__() ;

Recuerde: el susurro cargado es el medio. Si funciona mal en su idioma, actualice el más grande en el __main__() en whisper_model = whisper.load_model("large") ; Pero espero que tu memoria de GPU sea grande también.

Paso 3: Running ( `openai_api_chatbot.py` ):

Cuando se ejecute, verá mucha información que se muestra. Me esfuerzo constantemente por mejorar la legibilidad de la ejecución, todo el proyecto es una gran versión beta, perdona ligeras variaciones de las pantallas a continuación. De todos modos, esto es lo que sucede en términos generales cuando presionas 'Run':

Se producen inicializaciones preliminares, debe escuchar una campana cuando el asistente esté listo;
Cuando se espera que se muestre las palabras desencadenantes, deberá decir Jarvis para convocar al asistente. En este punto, comenzará una conversación y puede hablar en cualquier idioma que desee (si siguió el paso 2). La conversación terminará cuando 1) Diga una palabra de parada 2) diga algo con una palabra (como 'ok') 3) Cuando deje de hacer preguntas durante más de 30 segundos

Después de que se dice la palabra mágica, la palabra escuchar ... debería aparecer. En este punto, puedes hacer tu pregunta. Cuando haya terminado, solo espere (3 segundos) para que se envíe la respuesta;
El script convertirá el audio grabado en texto usando Whisper;
Se analizará el texto y se tomará una decisión. Si el asistente cree que necesita tomar algunas medidas para responder (como buscar una conversación pasada), los agentes de Langchain harán un plan y usarán su herramienta para responder.
De lo contrario, el script ampliará el chat_history con su pregunta, enviará una solicitud con la API y actualizará el historial tan pronto como reciba una respuesta completa de ChatGPT (esto puede tomar hasta 5-10 segundos, considere explícitamente una respuesta breve si tiene prisa);
La función say() realizará la duplicación de voz para hablar con la voz de Jarvis/alguien; Si el argumento no está en inglés, IBM Watson enviará la respuesta de uno de sus buenos modelos de texto a voz. Si todo falla, las funciones dependerán de PYTTSX3, que es una alternativa rápida pero no tan genial;

Cuando se dice cualquiera de las palabras clave STOP, el script le pedirá a ChatGPT que dé un título a la conversación y guardará el chat en un archivo .txt con el formato 'CurrentDate_title.txt';
El asistente volverá a dormir;

Hice algunas indicaciones y cerré la conversación

Palabras clave:

Para detener o guardar el chat, solo diga 'gracias' en algún momento;
Para convocar la voz de Jarvis solo diga 'Jarvis' en algún momento;

No es ideal, lo sé, pero funciona por ahora

Historia:

Actualmente trabajando en:

Extender las herramientas de procesamiento de DOC
Encuentre una alternativa gratuita para los agentes de Langchain

Solucionando el error de longitud de chat (cuando el chat es demasiado largo, Chatgpt 3.5 turbo no puede procesarse)
memoria en expansión
informes de accidente
Capacidades de refinar

Esperando a ChatPpt4 a:

Agregue la entrada multimodal (es decir, "¿Crees que 'esto' [sostener un plano de papel] podría volar" -> cámara -> chatgpt4 -> "Deberías mejorar la punta de las alas")
Extienda la memoria del proyecto a imágenes, PDF, documentos ...

Consulte el updateHistory.md del proyecto para obtener más información.

¡Divertirse!

Errores y preguntas frecuentes

Categorías: instalar, general, tiempo de ejecución

Instalación: tengo paquetes conflictivos al instalar venv_requirements.txt , ¿qué debo hacer?

Asegúrese de tener la versión de Python correcta (3.7) en el .venv (> python --versión con el entorno virtual activado).
Intente editar el venv_requirements.txt y elimine los requisitos de la versión de las dependencias incriminadas.
Rectado retire el paquete del archivo txt e instálelos manualmente después.

Instalación: encuentro un error al ejecutar OpenAI_api_chatbot.py diciendo: typeError: loadLibrary () argumento 1 debe ser str, no ninguno, ¿qué está mal?

El problema es consciente de Whisper. Debe volver a instalarlo manualmente con pip install whisper-openai

Instalar: no puedo importar 'OpenAI.embeddings_utils'

Intente pip install --upgrade openai .
Esto sucede porque OpenAi elevó sus requisitos mínimos. Tuve este problema y se resolví descargando manualmente INCREDDINGS_UTILS.py adentro ./<your_venv>/lib/site-packages/openai/

3. Si el problema persiste con `` `DataLib`` 'plantear un problema y le proporcionaré el archivo que falta 4. Actualice a Python 3.8 (cree nuevos env y reinstalará TTS, requisitos)

Instalar: encuentro el error ModulenotFoundError: ningún módulo llamado '<om Module>'

Los requisitos no se actualizan en cada confirmación. Si bien esto puede generar errores, puede instalar rápidamente los módulos que faltan, al mismo tiempo mantiene el medio ambiente limpio de los conflictos cuando pruebo los nuevos paquetes (y pruebo muchos de ellos)

Tiempo de ejecución: encuentro algo de memoria OOM al cargar el modelo Whisper, ¿qué significa?

Significa que el modelo que seleccionó es demasiado grande para la memoria de su dispositivo CUDA. Desafortunadamente, no hay mucho que pueda hacer al respecto, excepto cargar un modelo más pequeño. Si el modelo más pequeño no le satisface, es posible que desee hablar "más claro" o hacer indicaciones más largas para que el modelo predice con mayor precisión lo que está diciendo. Esto suena inconveniente pero, en mi caso, mejoró enormemente mi habla inglesa :)

Tiempo de ejecución: tokens de longitud máxima para chatgpt-3.5-turbo es 4096 pero recibió ... tokens.

Este es un error aún presente, no espere tener conversaciones largas con su asistente, ya que simplemente tendrá suficiente memoria para recordar toda la conversación en algún momento. Una solución está en desarrollo, podría consistir en adoptar un enfoque de 'ventanas deslizantes', incluso si puede causar la repetición de algunos conceptos.

General: Terminé mi crédito/demostración de Operai, ¿qué puedo hacer?

Ve solo en línea. El precio no es tan malo y podría terminar pagando unos pocos dólares al mes ya que el precio depende del uso (con pruebas pesadas, terminé consumiendo el equivalente de ~ 4 dólares al mes durante mi prueba gratuita). Puede establecer límites en su consumo mensual de tokens.
Use un modo híbrido donde las tareas más intensivas en crédito se ejecutan localmente de forma gratuita y el resto se realiza en línea.
Instale vicuna y ejecute el modo fuera de línea solo con un rendimiento limitado.

General: ¿Por cuánto tiempo se actualizará este proyecto?

En este momento (abril de 2023) Estoy trabajando casi sin parar en esto. Probablemente me tomaré un descanso en el verano porque trabajaré en mi tesis.

Si tiene preguntas, puede contactarme planteando un problema y haré todo lo posible para ayudar lo antes posible.

Gianmarco Guarnier

Expandir

Información adicional