TaskMatrix conecta ChatGPT y una serie de modelos de Visual Foundation para permitir enviar y recibir imágenes durante el chat.
Vea nuestro artículo: Visual ChatGPT: hablar, dibujar y editar con modelos de Visual Foundation
¡Ahora TaskMatrix admite GroundingDINO y segmenta cualquier cosa! Gracias @jordddan por sus esfuerzos. Para el caso de edición de imágenes, GroundingDINO
se usa primero para ubicar cuadros delimitadores guiados por el texto dado, luego se usa segment-anything
para generar la máscara relacionada y, finalmente, se usa difusión estable en pintura para editar la imagen según la máscara.
python visual_chatgpt.py --load "Text2Box_cuda:0,Segmenting_cuda:0,Inpainting_cuda:0,ImageCaptioning_cuda:0"
find xxx in the image
o segment xxx in the image
. xxx
es un objeto. ¡TaskMatrix devolverá el resultado de la detección o segmentación!¡Ahora TaskMatrix puede admitir chino! Gracias a @ Wang-Xiaodong1899 por sus esfuerzos.
¡Te proponemos la idea de plantilla en TaskMatrix!
template_model = True
Gracias a @ShengmingYin y @thebestannie por proporcionar un ejemplo de plantilla en la clase InfinityOutPainting
(ver el siguiente gif)
python visual_chatgpt.py --load "Inpainting_cuda:0,ImageCaptioning_cuda:0,VisualQuestionAnswering_cuda:0"
extend the image to 2048x1024
en TaskMatrix.InfinityOutPainting
, TaskMatrix puede extender fácilmente imágenes a cualquier tamaño mediante la colaboración con los modelos básicos existentes ImageCaptioning
, Inpainting
y VisualQuestionAnswering
, sin necesidad de capacitación adicional .¡TaskMatrix necesita el esfuerzo de la comunidad! ¡Anhelamos su contribución para agregar funciones nuevas e interesantes!
Por un lado, ChatGPT (o LLM) sirve como una interfaz general que proporciona una comprensión amplia y diversa de una amplia gama de temas. Por otro lado, los Foundation Models actúan como expertos en el dominio al proporcionar un conocimiento profundo en dominios específicos. Al aprovechar el conocimiento general y profundo , nuestro objetivo es construir una IA que sea capaz de manejar diversas tareas.
# clone the repo
git clone https://github.com/microsoft/TaskMatrix.git
# Go to directory
cd visual-chatgpt
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirements.txt
pip install git+https://github.com/IDEA-Research/GroundingDINO.git
pip install git+https://github.com/facebookresearch/segment-anything.git
# prepare your private OpenAI key (for Linux)
export OPENAI_API_KEY={Your_Private_Openai_Key}
# prepare your private OpenAI key (for Windows)
set OPENAI_API_KEY={Your_Private_Openai_Key}
# Start TaskMatrix !
# You can specify the GPU/CPU assignment by "--load", the parameter indicates which
# Visual Foundation Model to use and where it will be loaded to
# The model and device are separated by underline '_', the different models are separated by comma ','
# The available Visual Foundation Models can be found in the following table
# For example, if you want to load ImageCaptioning to cpu and Text2Image to cuda:0
# You can use: "ImageCaptioning_cpu,Text2Image_cuda:0"
# Advice for CPU Users
python visual_chatgpt.py --load ImageCaptioning_cpu,Text2Image_cpu
# Advice for 1 Tesla T4 15GB (Google Colab)
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,Text2Image_cuda:0"
# Advice for 4 Tesla V100 32GB
python visual_chatgpt.py --load "Text2Box_cuda:0,Segmenting_cuda:0,
Inpainting_cuda:0,ImageCaptioning_cuda:0,
Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,
Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,
InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,
SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,
Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,
NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"
Aquí enumeramos el uso de memoria GPU de cada modelo de base visual, puedes especificar cuál te gusta:
Modelo de cimentación | Memoria GPU (MB) |
---|---|
Edición de imágenes | 3981 |
InstruirPix2Pix | 2827 |
Texto2Imagen | 3385 |
Subtítulos de imágenes | 1209 |
Imagen2Canny | 0 |
CannyText2Imagen | 3531 |
Imagen2Linea | 0 |
LíneaTexto2Imagen | 3529 |
Imagen2Hed | 0 |
HedText2Imagen | 3529 |
Imagen2garabato | 0 |
ScribbleText2Imagen | 3531 |
Imagen2Pose | 0 |
PoseTexto2Imagen | 3529 |
Imagen2Seg | 919 |
SegText2Imagen | 3529 |
Imagen2Profundidad | 0 |
ProfundidadTexto2Imagen | 3531 |
Imagen2Normal | 0 |
TextoNormal2Imagen | 3529 |
VisualPreguntaRespondiendo | 1495 |
Apreciamos el código abierto de los siguientes proyectos:
Abrazando la cara LangChain Difusión estable ControlNet InstructPix2Pix CLIPSeg BLIP
Para obtener ayuda o problemas con el uso de TaskMatrix, envíe un problema de GitHub.
Para otras comunicaciones, comuníquese con Chenfei WU ([email protected]) o Nan DUAN ([email protected]).
Marcas comerciales Este proyecto puede contener marcas comerciales o logotipos de proyectos, productos o servicios. El uso autorizado de las marcas comerciales o logotipos de Microsoft está sujeto y debe seguir las Pautas de marcas y marcas comerciales de Microsoft. El uso de marcas comerciales o logotipos de Microsoft en versiones modificadas de este proyecto no debe causar confusión ni implicar patrocinio de Microsoft. Cualquier uso de marcas comerciales o logotipos de terceros está sujeto a las políticas de dichos terceros.
Los modelos recomendados en este repositorio son solo ejemplos, utilizados para investigaciones científicas que exploran el concepto de automatización de tareas y evaluación comparativa con el artículo publicado en Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. Los usuarios pueden reemplazar los modelos en este Repo según sus necesidades de investigación. Al utilizar los modelos recomendados en este repositorio, debe cumplir con las licencias de estos modelos respectivamente. Microsoft no será responsable de ninguna infracción de derechos de terceros que resulte del uso de este repositorio. Los usuarios aceptan defender, indemnizar y eximir a Microsoft de todos los daños, costos y honorarios de abogados en relación con cualquier reclamo que surja de este Repo. Si alguien cree que este Repo infringe sus derechos, notifique al propietario del proyecto por correo electrónico.