Download LLaMA Omni - LLaMA Omni download de código fonte

LLaMA Omni

Outro código-fonte

1.0.0

Baixar

? LLAMA-OMNI: Interação da fala perfeita com grandes modelos de linguagem

Autores: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui MA, Shaoleei Zhang, Yang Feng*

Llama-omni é um modelo de fala baseado na instrução LLAMA-3.1-8B. Ele suporta interações de fala de baixa e alta qualidade, gerando simultaneamente as respostas de texto e fala com base nas instruções de fala.

Destaques

Construído na instrução LLAMA-3.1-8B, garantindo respostas de alta qualidade.
Interação da fala de baixa latência com uma latência tão baixa quanto 226ms.
Geração simultânea de respostas de texto e fala.
♻️ treinado em menos de 3 dias usando apenas 4 GPUs.

Demo.MP4

Instalar

Clone este repositório.

 clone git https://github.com/ictnlp/llama-omnicd llama-omni

Instale pacotes.

 conda create -n llama -omni python = 3.10
O CONDA Ativa a llama-omni
pip install pip == 24.0
pip install -e.

Instale fairseq .

 clone git https://github.com/pytorch/fairseqcd Fairseq
pip install -e. -Não-Build-isolation

Instale flash-attention .

 pip install flash-attn--não-build-isolation

Início rápido

Faça o download do modelo Llama-3.1-8B-Omni do? Huggingface.
Faça o download do modelo Whisper-large-v3 .

 Importar sussurro
Model = Whisper.load_model ("Large-V3", Download_root = "Models/Speech_Encoder/")

Faça o download do vocoder Hifi-Gan baseado na unidade.

 wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/g_00500000 -p vocoder
wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/config.json -p vocoder/

Demo Gradio

Inicie um controlador.

 python -m omni_speech.serve.Controller -Host 0.0.0.0 --port 10000

Inicie um servidor da Web Gradio.

 python -m omni_speech.serve.gradio_web_server-Conntroller http: // localhost: 10000 --port 8000-model-list-mode recluad-vocoder/vocoder/g_00500000-vocoder vocoder/config.json

Inicie um trabalhador modelo.

 python -m omni_speech.serve.model_worker-HOST 0.0.0.0-Controller http: // localhost: 10000 --port 40000-worker http: // lochost: 40000-Model-Path llama-3.1-8b-omni -Modelo-name llama-3.1-8b-omni--s2s

Visite http: // localhost: 8000/e interaja com o llama-3.1-8b-omni!

NOTA: Devido à instabilidade do streaming de reprodução de áudio em Gradio, implementamos apenas a síntese de áudio de streaming sem ativar o AutoPlay. Se você tiver uma boa solução, fique à vontade para enviar um PR. Obrigado!

Inferência local

Para executar a inferência localmente, organize os arquivos de instrução de fala de acordo com o formato no diretório omni_speech/infer/examples e consulte o script a seguir.

 bash omni_speech/infer/run.sh omni_speech/infer/exemplos

LICENÇA

Nosso código é lançado sob a licença Apache-2.0. Nosso modelo é destinado apenas a fins de pesquisa acadêmica e não pode ser usada para fins comerciais.

Você é livre para usar, modificar e distribuir esse modelo em ambientes acadêmicos, desde que as seguintes condições sejam atendidas:

Uso não comercial : o modelo não pode ser usado para fins comerciais.
Citação : se você usar este modelo em sua pesquisa, cite o trabalho original.

Restrição de uso comercial

Para qualquer consulta de uso comercial ou para obter uma licença comercial, entre em contato com [email protected] .

Agradecimentos

Llava: a base de código que criamos.
SLAM-LLM: emprestamos algum código sobre o codificador de fala e o adaptador de fala.

Citação

Se você tiver alguma dúvida, não hesite em enviar um problema ou entre em contato com [email protected] .

Se nosso trabalho for útil para você, cite como:

@article{fang-etal-2024-llama-omni,
  title={LLaMA-Omni: Seamless Speech Interaction with Large Language Models},
  author={Fang, Qingkai and Guo, Shoutao and Zhou, Yan and Ma, Zhengrui and Zhang, Shaolei and Feng, Yang},
  journal={arXiv preprint arXiv:2409.06666},
  year={2024}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-08
tamanho 6.02MB
Vindo de Github

Aplicativos Relacionados

node llama cpp

2024-11-11
llama models

2024-11-10
LLaMA Factory

2024-11-02
Código Lhama

2023-10-30
Modelo grande Code Llama

2023-08-25
Lhama 2

2023-08-17

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos