LLaMA Omni Descargar - Descargar código fuente LLaMA Omni Descargar

LLaMA Omni

Otro código fuente

1.0.0

Descargar

? Llama-OMNI: interacción del habla sin problemas con modelos de idiomas grandes

Autores: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui MA, Shaolei Zhang, Yang Feng*

Llama-AMNI es un modelo de habla y lenguaje basado en Llama-3.1-8b-Instructo. Apoya las interacciones del habla de baja latencia y alta calidad, generando simultáneamente las respuestas de texto y del habla basadas en las instrucciones del habla.

Reflejos

Construido en LLAMA-3.1-8B-INSTRUST, asegurando respuestas de alta calidad.
Interacción del habla de baja latencia con una latencia tan baja como 226 ms.
Generación simultánea de respuestas de texto y habla.
♻️ entrenado en menos de 3 días usando solo 4 GPU.

demo.mp4

Instalar

Clon este repositorio.

 Git clon https://github.com/ictnlp/llama-omnicd llama-oMni

Instalar paquetes.

 conda create -n llama -oMni python = 3.10
conda activar llama-omni
PIP Instale PIP == 24.0
PIP install -e.

Instalar fairseq .

 Git clone https://github.com/pytorch/fairseqcd fairseq
PIP install -e. --No-construcción-isolación

Instale flash-attention .

 PIP Instalar flash-Attn-No-build-isolation

Comienzo rápido

Descargue el modelo Llama-3.1-8B-Omni de? Huggingface.
Descargue el modelo Whisper-large-v3 .

 IMPORTA DE IMPORTA
modelo = whisper.load_model ("grande-v3", download_root = "modelos/speech_encoder/")

Descargue el Vocoder Hifi-Gan basado en la unidad.

 wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/g_00500000 -p Vocoder//
wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/config.json -p Vocoder//

Demostración de Gradio

Iniciar un controlador.

 python -m omni_speech.serve.controller --host 0.0.0.0 --port 10000

Iniciar un servidor web de Gradio.

 python -m omni_speech.serve.gradio_web_server --controller http: // localhost: 10000 --port 8000 -model-list-Mode recoad-Vocoder Vocoder/G_00500000-Vocoder-CFG Vocoder/config.json

Lanzar un trabajador modelo.

 python -m omni_speech.serve.model_worker --host 0.0.0.0 --controller http: // localhost: 10000 --port 40000 --worker http: // localhost: 40000--Model-path Llama-3.1-8b-MEMNI --Modelo-Name Llama-3.1-8B-OMNI--S2S

Visite http: // localhost: 8000/e interactúe con Llama-3.1-8b-OMNI!

Nota: Debido a la inestabilidad de la transmisión de reproducción de audio en Gradio, solo hemos implementado la síntesis de audio de transmisión sin habilitar la autoplay. Si tiene una buena solución, no dude en enviar un PR. ¡Gracias!

Inferencia local

Para ejecutar la inferencia localmente, organice los archivos de instrucciones de voz de acuerdo con el formato en el directorio omni_speech/infer/examples , luego consulte el siguiente script.

 bash omni_speech/infer/run.sh omni_speech/infer/ejemplos

LICENCIA

Nuestro código se publica bajo la licencia Apache-2.0. Nuestro modelo está destinado solo a fines de investigación académica y no puede usarse para fines comerciales.

Usted es libre de usar, modificar y distribuir este modelo en entornos académicos, siempre que se cumplan las siguientes condiciones:

Uso no comercial : el modelo no se puede utilizar para ningún fin de comercio.
Cita : si usa este modelo en su investigación, cite el trabajo original.

Restricción de uso comercial

Para cualquier consulta de uso comercial o para obtener una licencia comercial, comuníquese con [email protected] .

Expresiones de gratitud

Llava: la base de código en la que construimos.
SLAM-LLM: Tomamos prestado algún código sobre el codificador del habla y el adaptador de habla.

Citación

Si tiene alguna pregunta, no dude en enviar un problema o comunicarse con [email protected] .

Si nuestro trabajo es útil para usted, cite como:

@article{fang-etal-2024-llama-omni,
  title={LLaMA-Omni: Seamless Speech Interaction with Large Language Models},
  author={Fang, Qingkai and Guo, Shoutao and Zhou, Yan and Ma, Zhengrui and Zhang, Shaolei and Feng, Yang},
  journal={arXiv preprint arXiv:2409.06666},
  year={2024}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-08
tamaño 6.02MB
Proviene de Github

Aplicaciones relacionadas

node llama cpp

2024-11-11
llama models

2024-11-10
LLaMA Factory

2024-11-02
Code Llama

2023-10-30
Código Llama modelo grande

2023-08-25
Llama 2

2023-08-17

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
Sunamu

Otro código fuente

Release 2.2.0
MySchedule.py

Otro código fuente

Updates to the fetching of week codes
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo