Descarga multimedia gpt - Descarga del código fuente multimedia gpt

multimedia gpt

Otro código fuente

1.0.0

Descargar

Este repositorio no se mantiene activamente ya que hay proyectos corporativos recientes que comparten nuestra visión, como TaskMatrix, AutoGPT y HuggingGPT, que se benefician de un mayor esfuerzo de equipo y una mejor gestión.

GPT multimedia

Multimedia GPT conecta su OpenAI GPT con visión y audio. Ahora puede enviar imágenes, grabaciones de audio y documentos pdf utilizando su clave API de OpenAI y obtener una respuesta en formato de texto e imagen. Actualmente estamos agregando soporte para videos. Todo es posible gracias a un administrador rápido inspirado y construido sobre Microsoft Visual ChatGPT.

Modelos

Además de todos los modelos básicos de visión mencionados en Microsoft Visual ChatGPT, Multimedia GPT es compatible con OpenAI Whisper y OpenAI DALLE. Esto significa que ya no necesitarás tus propias GPU para el reconocimiento de voz y la generación de imágenes (¡aunque todavía puedes hacerlo!)

El modelo de chat base se puede configurar como cualquier OpenAI LLM , incluidos ChatGPT y GPT-4. Por defecto utilizamos text-davinci-003 .

Le invitamos a bifurcar este proyecto y agregar modelos que sean adecuados para su propio caso de uso. Una forma sencilla de hacerlo es a través de llama_index. Tendrá que crear una nueva clase para su modelo en model.py y agregar un método de ejecución run_<model_name> en multimedia_gpt.py . Consulte run_pdf para ver un ejemplo.

Manifestación

En esta demostración, ChatGPT se alimenta con una grabación de una persona contando la historia de Cenicienta.

Instalación

 # Clone this repository
git clone https://github.com/fengyuli2002/multimedia-gpt
cd multimedia-gpt

# Prepare a conda environment
conda create -n multimedia-gpt python=3.8
conda activate multimedia-gptt
pip install -r requirements.txt

# prepare your private OpenAI key (for Linux / MacOS)
echo " export OPENAI_API_KEY='yourkey' " >> ~ /.zshrc
# prepare your private OpenAI key (for Windows)
setx OPENAI_API_KEY “ < yourkey > ”

# Start Multimedia GPT!
# You can specify the GPU/CPU assignment by "--load", the parameter indicates which foundation models to use and 
# where it will be loaded to. The model and device are separated by '_', different models are separated by ','.
# The available Visual Foundation Models can be found in models.py
# For example, if you want to load ImageCaptioning to cuda:0 and whisper to cpu 
# (whisper runs remotely, so it doesn't matter where it is loaded to)
# You can use: "ImageCaptioning_cuda:0,Whisper_cpu"

# Don't have GPUs? No worry, you can run DALLE and Whisper on cloud using your API key!
python multimedia_gpt.py --load ImageCaptioning_cpu,DALLE_cpu,Whisper_cpu       

# Additionally, you can configure the which OpenAI LLM to use by the "--llm" tag, such as 
python multimedia_gpt.py --llm text-davinci-003  
# The default is gpt-3.5-turbo (ChatGPT).

Planes

Este proyecto es un trabajo experimental y no se implementará en un entorno de producción. Nuestro objetivo es explorar el poder de las indicaciones.

TODO

Admite OpenAI Whisper para reconocimiento de voz, agregado a la configuración predeterminada
Admite OpenAI DALLE para generación de imágenes, agregado a la configuración predeterminada
Admite OpenAI DALLE para edición de imágenes
Agregue un interruptor de línea de comandos entre los backends ChatGPT y GPT-4
Implementar una función que extraiga fotogramas clave de un vídeo.

Problemas conocidos

DALLE solo acepta imágenes .png cuadradas; necesita una solución alternativa
PDFReader (de llama_index) requiere una versión superior de langchain, que no es compatible con la forma en que se implementa visual chatGPT

Partidarios

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-11-29
tamaño 5.17MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
La última versión de GPT cine y televisión.

2023-10-30

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo