¡El equipo OpenCompass del Laboratorio de Inteligencia Artificial Sinan de Shanghai y ModelScope lanzaron conjuntamente una importante actualización de la plataforma multimodal de competencia de modelos grandes Compass Multi-Modal Arena! La plataforma tiene como objetivo proporcionar a los usuarios una plataforma conveniente para experimentar y comparar varios modelos grandes multimodales convencionales y, en última instancia, ayudar a los usuarios a encontrar el modelo que mejor satisfaga sus necesidades. El editor de Downcodes le presentará en detalle esta interesante actualización.
El equipo OpenCompass del Laboratorio de Inteligencia Artificial Sinan de Shanghai y ModelScope anunciaron recientemente que su plataforma de evaluación de modelos grandes Compass Arena se sometió a una actualización importante y lanzó una nueva sección de competencia multimodal de modelos grandes Compass Multi-Modal Arena. Esta nueva sección proporciona una plataforma para que los usuarios experimenten y comparen los efectos de una variedad de grandes modelos multimodales convencionales, ayudando a los usuarios a encontrar el modelo que mejor se adapte a sus necesidades.
El sitio web oficial y la página ModelScope de Compass Multi-Modal Arena se han abierto al público, proporcionando una interfaz simple y fácil de usar. Los usuarios pueden cargar imágenes e ingresar preguntas, y el sistema organizará dos modelos grandes multimodales anónimos. para generar respuestas basadas en el contenido de entrada. Los usuarios realizan valoraciones subjetivas en función de la calidad del contenido generado, eligiendo el modelo que creen que funciona mejor. Una vez completada la evaluación, el usuario puede ver el nombre de cada modelo.
La plataforma también tiene un banco de preguntas especial incorporado, que es conveniente para los usuarios cuando cargar imágenes es inconveniente. El banco de preguntas se centra en tareas visuales subjetivas de preguntas y respuestas, como la comprensión de memes, la apreciación de obras de arte y la apreciación de fotografías. Este diseño tiene como objetivo evaluar el rendimiento y la experiencia del usuario de grandes modelos multimodales en tareas subjetivas.
Sitio web oficial de Compass Multimodal Arena
https://opencompass.org.cn/arena?type=multimodal
Página de ModelScope:
https://modelscope.cn/studios/opencompass/CompassArena
Página de HuggingFace
https://huggingface.co/spaces/opencompass/CompassArena
Enlace de código abierto de la herramienta de evaluación multimodal OpenCompass:
https://github.com/open-compass/VLMEvalKit
Con todo, la actualización de Compass Multi-Modal Arena proporciona una plataforma nueva y conveniente para la evaluación y selección de modelos grandes multimodales, que merece la atención y la experiencia del usuario. ¡Esperamos continuar con las actualizaciones de esta plataforma en el futuro para brindar más sorpresas a los usuarios!