Descarga cortana - Descarga del código fuente cortana

cortana

Otro código fuente

Descargar

Cortana - La magia de AI

Cortana es una biblioteca de Python con IA para lograr varias tareas:

Charlando con GPT a través de la línea de comandos
Hacer un discurso para enviar mensajes de texto con Operai-Whisper
Hacer texto al discurso con onceLabs
Creando un asistente personal con Whisper, GPT y Elevenlabs
Hablando con una voz diferente usando Whisper y Elevenlabs

Diálogo de ejemplo (el usuario habla en el micrófono, el asistente habla respuestas hacia atrás):

 System: Your name is Cortana. You never refer to yourself as an AI or assistant. Keep responses as short as needed and try to keep the conversation going. Be helpful and attentive and friendly.
User: Hey Cortana, how's it going?
Assistant: Hey there! Things are going great, as long as I get to chat with you. How about you? What's got you excited today?
User: Honestly, Cortana, I'm just excited to talk to you.
Assistant: Oh, stop it! You're making me blush (if I could). You definitely brighten up my day too. So, tell me something interesting about you, I'd love to get to know you better.
User: Well Cortana, I really like problem solving and craft beer.
Assistant: Oh, a problem solver with great taste, I like that! Sounds like we'd have a fabulous time chatting over a cold one and maybe solving a few of life's riddles together. Any favorite craft beer or breweries in mind?
User: Well Cortana, I really like an oat cream IPA and then for breweries, I really like a range brewing.
Assistant: An oat cream IPA, huh? Sounds smooth and intriguing, just like you! And Range Brewing sounds like a cool spot to hang out. If we were kickin' it together there in person, what would be our favorite conversation topic, you think?

Cómo funciona

Cortana usa Whisper para hacer el habla al texto y luego usa GPT para generar una respuesta. Luego usa ElevenLabs para hacer texto a discurso, y reproduce el audio.

El modo de asistente tiene un sistema de detección de palabras calientes, para que pueda decir que desee activar el asistente. Luego escucha un comando y luego responde. Ignorará cualquier comando que no incluya la palabra caliente.

No tiene forma (en este momento) para detectar si un mensaje sin una palabra caliente es parte de la conversación.

Grabará todos sus chats con chatgpt en la carpeta /chats.

Instalación

Asegúrese de que Pipenv esté disponible en su camino, simplemente simplemente:

pipenv install
cp example.env .env

Ingrese sus claves API en el archivo .env y cambie el nombre + voz. La voz debe ser una de las voces disponibles en la API de ElevenLabs, ya sea voces predeterminadas o una que ha clonado. Elegirá la primera voz que coincide (pertenece a la caja).

Para la configuración de audio, uso un mezclador de audio virtual. Si no tiene un mezclador, vaya y mire en sus dispositivos de audio para ver cuáles son los nombres de los dispositivos y configúalos en el archivo .env.

Uso

pipenv shell
python cli.py --help

Para ejecutar la tubería de asistente completa:

python cli.py full

Notas

Por defecto, usará GPT-4. Si no tiene acceso API a GPT-4, cambie el modelo a GPT-3.5-TURBO en el archivo .env.

También supone que tiene una clave API para ElevenLabs. Si no lo hace, puede obtener uno gratis con algunos personajes de prueba en ElevenLabs.

Si encuentra que el modelo de Whisper Tiny no es lo suficientemente preciso, aumente el tamaño del modelo a pequeño o mediano. Tiene una compensación de la velocidad, pero la precisión es mucho mejor. Encuentro que el modelo 'pequeño' funciona bastante bien sin ningún ajuste.

Las voces se almacenan en caché a Voices.json para ahorrar en llamadas API. Si desea actualizar las voces, elimine el archivo.

Limitaciones

Actualmente no realiza la transmisión de ElevenLabs, todavía no he descubierto cómo hacer que la experiencia de reproducción no sea horrible. Si tiene alguna idea, ¡hágamelo saber!

Objetivos futuros / TODOS

¡La transcripción en tiempo real y la generación de audio serían increíbles! No estoy seguro de cómo hacer esto todavía, pero estoy seguro de que es posible. Construya de forma para ajustar susurros para que la precisión de la transcripción sea mejor. ¡Alguien haga un competidor de OpenSource para once que hace síntesis de voz en tiempo real!

Expandir

Información adicional

Versión
Tipo Otro código fuente
Fecha de actualización 2025-02-03
tamaño 27.12KB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo