El campo de la inteligencia artificial siempre se ha comprometido a permitir que las máquinas comprendan el complejo mundo físico. Recientemente, los equipos de investigación de la Universidad Renmin de China, la Universidad de Publicaciones y Telecomunicaciones de Beijing, y Shanghai AI Lab han desarrollado tecnología Ref-AVS para proporcionar nuevas soluciones para este problema. La tecnología REF-AVS integra una variedad de información modular, como la división de objetos de video, la división de referencia y la segmentación audiovisual a través del inteligente método de fusión multimodo, para que el sistema de IA pueda comprender con mayor precisión las instrucciones del lenguaje natural, y en el complejo audiovisual audiovisual audiovisual En la escena, el objeto objetivo se encuentra con precisión, rompiendo las limitaciones de la IA anterior en la comprensión de múltiples modos.
En el campo de la inteligencia artificial, dejar que las máquinas entiendan mundos físicos complejos como los humanos siempre han sido un gran desafío. Recientemente, un equipo de investigación compuesto por instituciones como la Universidad Renmin de China, la Universidad de Publicaciones y Telecomunicaciones de Beijing, y Shanghai AI Lab propuso un avance de tecnología-Ref-AVS, lo que trajo una nueva esperanza para resolver este problema.
El núcleo de la tecnología REF-AVS es su método único de fusión de modo múltiple. Integra inteligentemente una variedad de información modular, como la segmentación de objetos de video (VOS), la segmentación de referencia de objetos de video y la segmentación audiovisual (AVS). Esta innovadora integración permite que el sistema AI no solo maneje los objetos que son fuertes, sino que también identifican los objetos que no sonan sino que igualmente importantes en el escenario. Este avance le permite a la IA comprender con mayor precisión las instrucciones descritas por los usuarios a través del lenguaje natural, y localizar con precisión objetos específicos en escenas audiovisuales complejas.
Para apoyar la investigación y verificación de la tecnología REF-AVS, el equipo de investigación ha creado un conjunto de datos a gran escala llamado Ref-AVS Bench. Este conjunto de datos contiene 40,020 marcos de video, que cubren 6.888 objetos y 20,261 se refiere a representantes. Cada marco de video está equipado con las marcas detalladas de nivel de audio y píxeles correspondientes. Este rico y diverso conjunto de datos proporciona una base sólida para la investigación multimodalismo, y ha abierto nuevas posibilidades para la investigación en campos relacionados en el futuro.
En una serie de estrictos experimentos cuantitativos y cualitativos, la tecnología REF-AVS ha mostrado un rendimiento sobresaliente. Especialmente en el subconjunto visto, el rendimiento de REF-AVS supera otros métodos existentes, lo que prueba completamente su poderosa capacidad de segmentación. Lo que es más notable es que los resultados de las pruebas en los subconjuntos invisibles y nulos verificaron aún más la excelente capacidad de generalización de la tecnología REF-AVS y la robustez de la referencia del aire, que es esencial para escenarios prácticos de aplicación.
El éxito de la tecnología REF-AVS no solo ha atraído una atención generalizada en el mundo académico, sino que también abrió un nuevo camino para futuras aplicaciones prácticas. Podemos prever que esta tecnología desempeñará un papel importante en muchos campos, como el análisis de video, el procesamiento de imágenes médicas, la conducción autónoma y la navegación robótica. Por ejemplo, en el campo de la medicina, REF-AVS puede ayudar a los médicos a interpretar con mayor precisión las imágenes médicas complejas; Y ejecutar instrucciones verbales humanas.
Los resultados de esta investigación se han mostrado en ECCV2024, y los documentos relacionados y la información del proyecto también se han hecho público, proporcionando un valioso aprendizaje y explorando recursos para investigadores y desarrolladores interesados en este campo. Esta actitud abierta no solo refleja el espíritu académico del equipo de investigación científica china, sino que también promueve el rápido desarrollo de todo el campo de la IA.
La aparición de la tecnología Ref-AVS ha dado un paso importante en la inteligencia artificial en la comprensión de los modos múltiples. No solo muestra la capacidad innovadora del equipo de investigación científica china en el campo de la inteligencia artificial, sino que también representa un plan más inteligente y natural para el futuro de la interacción humana -computadora. Con la mejora continua y la aplicación de esta tecnología, tenemos razones para esperar que el futuro sistema de IA entienda y se adapte mejor al complejo mundo de los humanos y traiga cambios revolucionarios a todos los ámbitos de la vida.
Dirección de tesis: https: //arxiv.org/abs/2407.10957
Página de inicio del proyecto:
https://gewu-lab.github.io/ref-avs/
En resumen, el advenimiento de la tecnología REF-AVS ha traído nuevos avances al campo de la comprensión multimodal de inteligencia artificial. Esta tecnología promoverá la inteligencia artificial en la dirección de una interacción más inteligente y natural, lo que brinda más conveniencia a la sociedad humana.