JARVIS ChatGPT Download - JARVIS ChatGPT download do código fonte

JARVIS ChatGPT

Outro código-fonte

1.0.0

Baixar

Jarvis-Chatgpt: um assistente de conversação equipado com a voz de Jarvis

Um assistente interativo baseado em voz equipado com uma variedade de vozes sintéticas (incluindo a voz de Jarvis de Ironman)

Imagem de Midjourney Ai

Já sonhou em pedir dicas de sistema hiper-intelligente para melhorar sua armadura? Agora você pode! Bem, talvez não a parte da armadura ... Este projeto explora o OpenAi Whisper, o Openai Chatgpt e o IBM Watson.

Motivação do projeto:

Muitas vezes as idéias vêm no pior momento e desaparecem antes de você ter tempo para explorá -las melhor. O objetivo deste projeto é desenvolver um sistema capaz de fornecer dicas e opiniões em quase-real-time sobre qualquer coisa que você peça. O Ultimate Assistant poderá ser acessado a partir de qualquer microfone autorizado dentro de sua casa ou telefone, ele deve funcionar constantemente em segundo plano e, quando convocado, deve ser capaz de gerar respostas significativas (com uma voz foda), além de interagir com o PC ou um servidor e salvar/ler/escrever arquivos que podem ser acessados posteriormente. Ele deve ser capaz de executar pesquisas, reunir material da Internet (extrair conteúdo das páginas HTML, transcrever vídeos do YouTube, encontrar trabalhos científicos ...) e fornecer resumos que podem ser usados como contexto para tomar decisões informadas. Além disso, pode interagir com alguns gadgets externos (IoT), mas isso é extra.

Demonstração:

2023-04-11.23-20-03_TRIM.MP4

14 de julho de 2023 Atualização: modo de pesquisa

Posso compartilhar o primeiro rascunho do modo de pesquisa. Essa modalidade era pensada para as pessoas que frequentemente lidam com trabalhos de pesquisa.

Mude para o modo de pesquisa dizendo 'Mudar para o modo de pesquisa'
Inicialize um novo espaço de trabalho como o seguinte: 'Inicialize um novo espaço de trabalho sobre aplicações de fibra de carbono na indústria de naves espaciais' . Um espaço de trabalho é uma pasta que coleta e organiza os resultados da pesquisa. Este protocolo é subdividido em 3 sub-rotinas:
1. Identificação do papel central: use a API da Scholar Semântica para identificar alguns artigos fortemente relevantes;
2. Expansão central: para cada artigo, encontra algumas sugestões e mantenha apenas as sugestões que parecem ser semelhantes a pelo menos 2 papel;
3. Expansão de refy: use o pacote de sugestões de refy para ampliar os resultados;
Encontre sugestões como: 'Encontre sugestões sililares do papel com título ...'
Download: 'Baixe o artigo com título ...'
Consulte seu banco de dados como: 'Qual é o autor do artigo com título ...?' 'Quais são as condições experimentais definidas para o papel com título ...?'

PS: Este modo não é super estável e precisa ser trabalhado em

PPS: Este projeto será descontinuado por algum tempo, pois estarei trabalhando na minha tese até 2024. No entanto, já existem tantas coisas que podem ser melhoradas, então voltarei!

O que você precisará:

ISENÇÃO DE RESPONSABILIDADE:
O projeto pode consumir seu crédito OpenAI, resultando em cobrança indesejada;
Não assumo a responsabilidade por nenhuma acusação indesejada;
Considere definir limitações no consumo de crédito na sua conta OpenAI;

Uma conta OpenAI e chave da API; (Verifique as perguntas frequentes abaixo para as alternativas)
Conta Picovoice e um AccessKey GRATUITO; (opcional)
Conta do Elevenlabs e chave de API gratuita (opcional) ;
Langchain API Keys for Web Surfing (notícias, clima, Serpapi, Google-Serp, Google-Search ... todos são gratuitos)
ffmpeg;
Ambiente Virtual Python (Python> = 3,9 e <3,10);
Algum crédito para gastar no ChatGPT (você pode obter três meses de uso gratuito ao se inscrever no OpenAI) (sugerido) ;
Versão CUDA> = 11.2;
Uma conta da IBM Cloud para explorar seus modelos de texto para fala em nuvem (tutorial) (opcional) ;
Uma (razoavelmente) conexão rápida à Internet (a maior parte do código se baseia na API para que uma conexão mais lenta possa resultar em mais tempo para responder);
microfone e alto -falante;
Motor gráfico capaz de CUDA (minha versão da tocha: 2.0 e CUDA V11.7 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 );
Paciência?

Você pode confiar na nova setup.bat que fará a maioria das coisas para você.

Visão geral do GitHub

Script principal que você deve executar: openai_api_chatbot.py Se desejar usar a versão mais recente da API OpenAI dentro da pasta Demos, você encontrará algumas orientações para os pacotes usados no projeto, se tiver erros, você poderá verificar esses arquivos primeiro para direcionar o problema. Principalmente é armazenado na pasta Assistant: get_audio.py armazena todas as funções para lidar com interações com microfones, tools.py voice.py Agents.py lide a parte Langchain do sistema (aqui você pode adicionar ou remover ferramentas dos kits de ferramentas dos agentes)
Os scripts restantes são suplementares à geração de voz e não devem ser editados.

Tutorial de instalação

Instalação automática

Você pode executar setup.bat se estiver executando no Windows/Linux. O script executará todas as etapas da instalação manual em sequência. Consulte os que, caso o procedimento falhe.
A instalação automática também executará o Vicuna Instalação (Vicuna Instalation Guide)

Instalação manual

Etapa 1: Instalação, Contas, APIs ...

Ambiente

Faça um novo ambiente virtual vazio com o Python 3.8 e ative -o (. Venv_name scripts ativate);
pip install -r venv_requirements.txt ; Isso pode levar algum tempo; Se você encontrar conflitos em pacotes específicos, instale -os manualmente sem o ==<version> ;
Instale manualmente pytorch de acordo com sua versão CUDA;
Copie e cole os arquivos que você encontrará na pasta whisper_edits na pasta whisper do seu ambiente (. Venv lib site-packages whisper ) Essas edições adicionarão apenas um atributo ao modelo de sussurro para acessar sua dimensão mais facilmente;
instalar tts;
Execute o script e verifique tudo está funcionando (ele deve baixar alguns modelos) (você pode executar alternativamente demos/tts_demo.py );
Renomeie ou exclua a pasta TTS e faça o download do assistente e outros scripts deste repositório
Instale Vicuna seguindo as instruções na pasta Vicuna ou executando:
cd Vicuna
call vicuna.ps1
Instruções manuais o instruirá a seguir o Guia de Instalação Vicuna
Cole todas as suas chaves no arquivo env.txt e renomeie -o para .env (sim, remova a extensão txt)
Verifique tudo funciona (seguindo)

Cheques

Verifique se o seu mecanismo gráfico e a versão CUDA são compatíveis com o pytorch executando torch.cuda.is_available() e torch.cuda.get_device_name(0) dentro de Pyhton; .
executar tests.py . Essa tentativa de executar operações básicas que podem levantar erros;
[Aviso] Verifique as perguntas frequentes abaixo se você tiver erros;
Você pode verificar as fontes de erro executando demos na pasta demos;

Etapa 2: Suporte ao idioma

Para ter as respostas em seu idioma, você deve primeiro verificar se o seu idioma é suportado pelo gerador de fala em https://cloud.ibm.com/docs/text-topeech?topic=Text-topeech-Voices ;
Se for suportado, adicione ou altere os idiomas dentro VirtualAssistant.__init__() ;

Lembre -se: o sussurro carregado é o médio. Se tiver um desempenho ruim no seu idioma, atualize para o maior no __main__() em whisper_model = whisper.load_model("large") ; Mas espero que sua memória GPU seja grande da mesma forma.

Etapa 3: Running ( `openai_api_chatbot.py` ):

Ao executar, você verá muitas informações sendo exibidas. Estou constantemente me esforçando para melhorar a legibilidade da execução, todo o projeto é uma enorme beta, perdoa pequenas variações das telas abaixo. Enfim, é isso que acontece em termos gerais quando você atinge 'run':

As inicializações preliminares ocorrem, você deve ouvir um carrilhão quando o assistente estiver pronto;
Ao aguardar as palavras desencadeadas é exibido, você precisará dizer Jarvis para convocar o assistente. Neste ponto, uma conversa começará e você poderá falar em qualquer idioma que desejar (se seguiu a etapa 2). A conversa será encerrada quando você 1) dizer uma palavra de parada 2) diga algo com uma palavra (como 'ok') 3) quando você para de fazer perguntas por mais de 30 segundos

Depois que a palavra mágica é dita, a palavra escuta ... deve aparecer. Neste ponto, você pode fazer sua pergunta. Quando terminar, espere (3 segundos) para que a resposta seja enviada;
O script converterá o áudio gravado em texto usando o Whisper;
O texto será analisado e uma decisão será tomada. Se o assistente acreditar que precisa tomar alguma ação para responder (como procurar uma conversa passada), os agentes Langchain farão um plano e usarão sua ferramenta para responder.
Além disso, o script expandirá o chat_history com sua pergunta, ele enviará uma solicitação com a API e atualizará o histórico assim que receber uma resposta completa do ChatGPT (isso pode levar até 5 a 10 segundos, considere explicitamente pedir uma resposta curta se estiver com pressa);
A função say() executará a duplicação de voz para falar com a voz de Jarvis/alguém; Se o argumento não estiver em inglês, o IBM Watson enviará a resposta de um de seus bons modelos de texto para fala. Se tudo falhar, as funções dependerão do pyttsx3, que é uma alternativa rápida, mas não tão legal;

Quando qualquer uma das palavras -chave STOP for dita, o script solicitará que o ChatGPT dê um título à conversa e salve o bate -papo em um arquivo .txt com o formato 'currentDate_title.txt';
O assistente voltará a dormir;

Eu fiz algumas solicitações e encerrei a conversa

Palavras -chave:

Para parar ou salvar o bate -papo, basta dizer 'obrigado' em algum momento;
Para convocar Jarvis Voice, apenas diga 'Jarvis' em algum momento;

Não é o ideal que eu conheço, mas funciona por enquanto

História:

atualmente trabalhando em:

Estender ferramentas de processamento de documentos
Encontre uma alternativa grátis para agentes de Langchain

seguindo:

Corrigindo o bug de comprimento de bate -papo (quando o bate -papo é muito longo, ele não pode ser processado pelo Chatgpt 3.5 Turbo)
expandindo a memória
Relatórios de acidente
Refinar os recursos

esperando o chatgpt4 para:

Adicione entrada multimodal (ou seja, "você acha que 'this' [segurando um avião de papel] poderia voar" -> câmera -> chatgpt4 -> "Você deve melhorar a ponta das asas")
Estender a memória do projeto a imagens, PDFs, papéis ...

Verifique o UpdateHistory.md do projeto para obter mais informações.

Divirta-se!

Erros e perguntas frequentes

Categorias: Instale, Geral, Tempo de Execução

Instalação: Eu tenho pacotes conflitantes ao instalar Venv_requiements.txt , o que devo fazer?

Certifique -se de ter a versão Python correta (3.7) no .venv (> python -versão com o ambiente virtual ativado).
Tente editar os Venv_ReQuirements.txt e remover os requisitos de versão das dependências incriminadas.
Remova direto o pacote do arquivo txt e instale -os manualmente depois.

Instale: Eu encontro um erro ao executar o OpenAI_API_CHATBOT.PY dizendo: TypeError: LoadLibrary () Argumento 1 Deve ser STR, não nenhum, o que há de errado?

O problema é sobre sussurro. Você deve reinstalá-lo manualmente com pip install whisper-openai

Instalação: Não consigo importar 'OpenAi.Embingdings_Utils'

Tente pip install --upgrade openai .
Isso acontece porque o OpenAI elevou seus requisitos mínimos. Eu tive esse problema e resolvido baixando manualmente o incorpeddings_utils.py dentro ./<your_venv>/lib/site-packages/openai/

3. Se o problema persistir com `` `datalib`` ', levantar um problema e fornecerei o arquivo 4.

Instale: Encontro o ModuleNotFoundError de erro: nenhum módulo chamado '<algum módulo>'

Os requisitos não são atualizados a cada compromisso. Embora isso possa gerar erros, você pode instalar rapidamente os módulos que faltavam, ao mesmo tempo em que mantém o ambiente limpo de conflitos quando eu tento novos pacotes (e tento muitos deles)

Tempo de execução: encontro alguma memória de OOM ao carregar o modelo de sussurro, o que isso significa?

Isso significa que o modelo que você selecionou é grande demais para a memória do dispositivo CUDA. Infelizmente, não há muito que você possa fazer sobre isso, exceto carregar um modelo menor. Se o modelo menor não o satisfazer, convém falar 'mais claro' ou fazer com que os prompts mais longos permitam que o modelo preveja com mais precisão o que você está dizendo. Isso parece inconveniente, mas, no meu caso, melhorou bastante minha língua inglesa :)

Tempo de execução: Tokens máximos de comprimento para chatgpt-3.5-turbo é 4096, mas recebido ... tokens.

Este ainda é um bug presente, não espere ter longas conversas com seu assistente, pois simplesmente terá memória suficiente para lembrar toda a conversa em algum momento. Uma correção está em desenvolvimento, pode consistir em adotar uma abordagem de 'janelas deslizantes', mesmo que possa causar repetição de alguns conceitos.

General: Terminei meu crédito/demonstração do Openai, o que posso fazer?

SOMENTE ONLINE. O preço não é tão ruim e você pode pagar alguns dólares por mês, já que os preços dependem do uso (com testes pesados, acabei consumindo o equivalente a ~ 4 dólares por mês durante meu teste gratuito). Você pode definir limites para o seu consumo mensal de tokens.
Use um modo híbrido em que as tarefas com maior crédito sejam executadas localmente gratuitamente e o restante é realizado online.
Instale o Vicuna e execute o modo offline apenas com desempenho limitado.

Geral: Por quanto tempo este projeto será atualizado?

No momento (abril de 2023), estou trabalhando quase sem parar nisso. Provavelmente vou fazer uma pausa no verão porque estarei trabalhando na minha tese.

Se você tiver dúvidas, pode entrar em contato comigo levantando um problema e farei o possível para ajudar o mais rápido possível.

Gianmarco Guarnier

Expandir

Informações adicionais