multimedia gpt Download - multimedia gpt Quellcode herunterladen

multimedia gpt

Anderer Quellcode

1.0.0

Herunterladen

Dieses Repository wird nicht aktiv gepflegt, da es aktuelle Unternehmensprojekte gibt, die unsere Vision teilen, wie z. B. TaskMatrix, AutoGPT und HuggingGPT, die von einer größeren Teamarbeit und einem besseren Management profitieren.

Multimedia-GPT

Multimedia-GPT verbindet Ihr OpenAI-GPT mit Bild und Audio. Sie können jetzt Bilder, Audioaufnahmen und PDF-Dokumente mit Ihrem OpenAI-API-Schlüssel senden und eine Antwort sowohl im Text- als auch im Bildformat erhalten. Wir fügen derzeit Unterstützung für Videos hinzu. Möglich wird alles durch einen Prompt-Manager, der auf Microsoft Visual ChatGPT basiert und darauf basiert.

Modelle

Zusätzlich zu allen in Microsoft Visual ChatGPT erwähnten Vision Foundation-Modellen unterstützt Multimedia GPT OpenAI Whisper und OpenAI DALLE! Das bedeutet, dass Sie für die Spracherkennung und Bilderzeugung keine eigenen GPUs mehr benötigen (obwohl Sie dies weiterhin tun können!)

Das Basis-Chat-Modell kann als jedes OpenAI-LLM konfiguriert werden, einschließlich ChatGPT und GPT-4. Wir verwenden standardmäßig text-davinci-003 .

Sie können dieses Projekt gerne forken und Modelle hinzufügen, die für Ihren eigenen Anwendungsfall geeignet sind. Eine einfache Möglichkeit, dies zu tun, ist llama_index. Sie müssen in model.py eine neue Klasse für Ihr Modell erstellen und in multimedia_gpt.py eine Runner-Methode run_<model_name> hinzufügen. Ein Beispiel finden Sie unter run_pdf .

Demo

In dieser Demo wird ChatGPT mit einer Aufnahme einer Person gefüttert, die die Geschichte von Aschenputtel erzählt.

Installation

 # Clone this repository
git clone https://github.com/fengyuli2002/multimedia-gpt
cd multimedia-gpt

# Prepare a conda environment
conda create -n multimedia-gpt python=3.8
conda activate multimedia-gptt
pip install -r requirements.txt

# prepare your private OpenAI key (for Linux / MacOS)
echo " export OPENAI_API_KEY='yourkey' " >> ~ /.zshrc
# prepare your private OpenAI key (for Windows)
setx OPENAI_API_KEY “ < yourkey > ”

# Start Multimedia GPT!
# You can specify the GPU/CPU assignment by "--load", the parameter indicates which foundation models to use and 
# where it will be loaded to. The model and device are separated by '_', different models are separated by ','.
# The available Visual Foundation Models can be found in models.py
# For example, if you want to load ImageCaptioning to cuda:0 and whisper to cpu 
# (whisper runs remotely, so it doesn't matter where it is loaded to)
# You can use: "ImageCaptioning_cuda:0,Whisper_cpu"

# Don't have GPUs? No worry, you can run DALLE and Whisper on cloud using your API key!
python multimedia_gpt.py --load ImageCaptioning_cpu,DALLE_cpu,Whisper_cpu       

# Additionally, you can configure the which OpenAI LLM to use by the "--llm" tag, such as 
python multimedia_gpt.py --llm text-davinci-003  
# The default is gpt-3.5-turbo (ChatGPT).

Pläne

Dieses Projekt ist eine experimentelle Arbeit und wird nicht in einer Produktionsumgebung bereitgestellt. Unser Ziel ist es, die Kraft der Aufforderung zu erforschen.

TODOs

Unterstützt OpenAI Whisper für die Spracherkennung, zur Standardkonfiguration hinzugefügt
Unterstützt OpenAI DALLE für die Bildgenerierung, zur Standardkonfiguration hinzugefügt
Unterstützen Sie OpenAI DALLE für die Bildbearbeitung
Fügen Sie einen Befehlszeilenschalter zwischen ChatGPT- und GPT-4-Backends hinzu
Implementieren Sie eine Funktion, die Schlüsselbilder aus einem Video extrahiert

Bekannte Probleme

DALLE akzeptiert nur quadratische PNG-Bilder – es ist eine Umgehung erforderlich
PDFReader (von llama_index) erfordert eine höhere Version von Langchain, die nicht mit der Implementierung von Visual ChatGPT kompatibel ist