Descarga TroL - Descarga del código fuente TroL

TroL

Otro código fuente

1.0.0

Descargar

Trol: transversal de capas para grandes modelos de lenguaje y visión [ARXIV]

EZGIF-3-E30B467E05

Noticias

Gracias al personal de Huggingface, podemos usar ZerogPu gratuito (NVIDIA A100) para cada usuario, pero hay consultas limitadas, por lo que si las inferencias están atascadas, espere unos minutos. (La velocidad de demostración local es mucho más más rápida que este espacio de GPU en línea).

Trol-1.8b ahora está disponible en los modelos de Huggingface. (Readme de demostración local incluido)
Trol-3.8b ahora está disponible en los modelos de Huggingface. (Readme de demostración local incluido)
TROL-7B ahora está disponible en los modelos de Huggingface. (Readme de demostración local incluido)
La demostración del trol en línea ahora está disponible en los espacios de la cara de abrazos. (Puede elegir el tamaño del modelo)

Código oficial de implementación de Pytorch para realizar la parte técnica del recorrido de las capas (trol) para mejorar numerosos rendimientos de lenguaje de visión con un tamaño de modelo eficiente. Este código se desarrolla desde cero. Así que he estado tratando de mejorar la lectura y la simplicidad del código, en comparación con Llava, que tiene un código estructurado de manera relativamente compleja.

Imágenes resaltadas

Figura 1. Capa de Trol. Nueva propagación.

Figura 2. Estructura del mezcla de trol.

Figura 3. Actuaciones en numerosos tamaños de modelo.

Figura 4. Comparación con LLVM de código cerrado.

Figura 5. Investigar dónde ocurre principalmente las capas (reutilizaciones de capas).

Resultados

LLVM de código abierto con tamaño de modelo estándar

LLVMS	Sqa-img	PAPA	Mete	MMB	Mathvista	Semilla-img	Mm-vet	Llava-W
Yi-vl-6b	71.7	82.5	1915	64.2	29.7	67.5	32.1	51.9
Llava-next-7b	70.1	86.5	1851	69.6	34.6	70.2	43.9	72.3
Mm1-7b	72.6	86.6	1858	72.3	35.9	70.9	42.1	-
Trol-1.8b	87.5	88.6	2038	76.1	45.4	69.0	45.1	69.7
Trol-3.8b	90.8	86.5	1980	79.2	55.1	70.5	51.1	76.6
Trol-7b	92.8	87.8	2308	51.8	75.3	54.7	92.8	87.1

LLVM de código abierto con tamaños de modelo grandes

LLVMS	Ai2d	Chartqa	Mete	MMB	Mathvista	Mm-vet	Llava-W
Intervl1.5-40B	79.0	68.0	2175	82.2	47.7	48.9	-
Intervl1.5-26b	80.7	83.8	2188	82.2	53.5	62.8	-
Mm1-30b	-	-	2069	75.1	39.4	48.7	-
Minigemina-34b	-	-	2105	79.6	38.9	53.0	-
Minigemini-hd-34b	-	-	2141	80.6	43.3	59.3	-
Llava-next-34b	74.9	68.7	2030	79.3	46.0	57.4	88.8
Llava-next-8b	71.6	69.5	1972	72.1	37.5	-	80.1
Llava-next-72b	77.4	77.0	2159	80.5	46.6	-	89.2
Llava-next-1110b	80.4	80.4	2201	80.5	49.0	-	90.4
Trol-1.8b	68.9	64.0	2038	76.1	45.4	45.1	69.7
Trol-3.8b	73.6	73.8	1980	79.2	55.1	51.1	76.6
Trol-7b	78.5	71.2	2308	83.5	51.8	54.7	92.8

LLVM de código cerrado

LLVMS	Sqa-img	Ai2d	Chartqa	Mete	MMB	Mathvista	Semilla-img	Mmstar
Qwen-vl-plus	71.6	75.9	78.1	2183	67.0	43.3	72.7	39.7
Gemini-pro	80.1	73.9	74.1	1933	73.6	45.2	70.7	41.6
GPT-4V	84.6	78.2	78.5	1927	77.0	49.9	69.1	46.1
Trol-1.8b	87.5	68.9	64.0	2038	76.1	45.4	69.0	45.5
Trol-3.8b	90.8	73.6	73.8	1980	79.2	55.1	70.5	46.5
Trol-7b	92.8	78.5	71.2	2308	83.5	51.8	75.3	51.3

Descripción del conjunto de datos de sintonización de instrucciones visuales para Trol

Total: 2273830 (2.3m)

 ------------------------------* Imagen del mundo real: 755k* Texto del mundo real: 143k* Documento y gráfico y diagrama & Sign & Symbol: 627k* Matemáticas: 747k
    - Matemáticas con visión: 180k
    - Matemáticas solo con texto: 566k
------------------------------

- ShareGPT4V-Caption [sin SAM] (91021, 91k)
-ShareGPT4V-Instrucción [sin pocas muestras de OCR-VQA] (664703, 664K)
- Allava4v-text (143000, 143k)
- Minigemini-Instrucción [Docvqa, Chartqa, DVQA, AI2D] (27670, 27k)
- DocDownstream (574268, 574k)
- Docreson (25877, 25k)
- Gllava-Align (60252, 60k)
- Gllava-Qa (117205, 117k)
- MathVision (3040, 3k)
- Mathinstruct [TextonlyDataSet] (262040, 262k)
- Mathplus [TextonlyDataSet] (304754, 304k)

Recopilamos los siguientes nueve conjuntos de datos. Para los minigemini, usamos selectivamente muestras de datos solo para DOCVQA, CACHQA, DVQA y AI2D. Por lo tanto, no es necesario que descargue todas las muestras de datos para minigemini.

ShareGPT4V [enlace]
Allava4v-text [enlace]
Minigemini [enlace]
Docdownstream [enlace]
Docreson [enlace]
Gllava [enlace]
MathVision [enlace]
Mathinstruct [enlace]
Mathplus [enlace]

Diseño del conjunto de datos reunido

 Trol_dataset_path
├── llava # sharegpt4v│ └── llava_prain
                  │ └── Imágenes
                  ├── Coco # sharegpt4v│ └── Train2017
                   ├── sam # sharegpt4v│ └── imágenes
                  ├── GQA # sharegpt4v│ └── Imágenes
                  ├── OCR_VQA # shareGPT4V│ └── Imágenes
                  ├── Textvqa # sharegpt4v│ └── Train_images
                    ├── vg # sharegpt4v│ ├── vg_100k
                 │ └── VG_100K_2
                   ├── share_textvqa # sharegpt4v│ └── Imágenes
                  ├── Web-Celebrity # shareGPT4V│ └── Imágenes
                  ├── Web-landmark # sharegpt4v│ └── Imágenes
                  ├── Wikiart # sharegpt4v│ └── Imágenes
                  ├── share_textvqa # sharegpt4v│ └── Imágenes
                  ├── Docvqa # Minigemini│ └── Imágenes
                  ├── Chartqa # Minigemini│ └── Tren
                   │ └── Imágenes
                  ├── dvqa # minigemini│ └── imágenes
                  ├── Ai2d # minigemini│ └── Imágenes
                  ├── IMGS # DOCDOWNSTREAM & DOCTRONS│ └── CHARTQA
│ └── Due_Benchmark
│ └── Forma profunda
│ └── Docvqa
│ └── Infographicsvqa
│ └── Kleistercharity
│ └── Tabfact
│ └── WikititableCuestions
│ └── TextCaps
│ └── Textvqa
│ └── VisualMrc
├── Geo3k # gllava |   └─ ─ Tren
├── Geoqa_Plus # gllava├─ Images # MathVision | ├── shareGPT4V_INSTRUCT_GPT4-VISION_CAP100K.JSON # shareGPT4V-Caption├_div2k.json  Evol-Instructo-GPT4-TURBO-143K. json # allava4v-text├── tran.jsonl # docdownstream├── detallado_explanation.jsonl # docreson├── minigemini_instruction.json # minigemini-instruction├── gllava_align.parquet # gllava-align. Qa├── MathVision.Parquet # MathVision├── Mathinstruct.json # Mathinstruct└── Mathplus.Parquet # Mathplus

Puntos de referencia de evaluación

Estos son la lista de conjuntos de datos de evaluación. Si los descarga completamente, el conjunto de datos debe colocarse en la carpeta mediante el siguiente diseño del directorio.

Q-Bench [enlace]
Sqa-img [enlace]
Ai2d [enlace]
Chartqa [enlace]
Semilla [enlace]
Papa [Enlace]
HallusionBench [enlace]
Mme [enlace]
Mathvista [enlace]
MMB [enlace]
Mm-vet [enlace]
Llava-W [enlace]
Mmstar [enlace]
Mathverse [enlace]
VisualWebbench [enlace]

Diseño del directorio del conjunto de datos de evaluación

 Evaluación_dataset_path
├── llvisionqa-qbench # Q-bench├── Scienceqa # sqa-img├── ai2d # ai2d├── chartqa # chartqa├├ sement-bench # semilla-img├── Pope # Pope├─ HallusionBench # HallusionBench├── mme_benchmark_release_version # mme├── mathvista # mathvista├── mmbench # mmb├─: mm-vet # mm-vet├── llava-bench-in-the-wild # llava banco en el silvestre en el silvestre en el silvestre en el silvestre en el silvestre en el silvestre en el silvestre en el silvestre ─ Mmstar # mmstar├── Mathverse # Mathverse└── Visualwebbench # VisualWebbench

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-17
tamaño 1.64MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo