Alibaba lança modelo de inferência multimodal QVQ-72B! As habilidades visuais e linguísticas são melhoradas, problemas complexos podem ser resolvidos facilmente

Autor：Eve Cole Data da Última Atualização：2024-12-27 16:16:01

O recém-lançado modelo de raciocínio multimodal QVQ-72B da Alibaba é construído com base no Qwen2-VL-72B e apresenta excelente desempenho em raciocínio visual, matemática e problemas científicos. Ele pode fundir linguagem e informações visuais, realizar raciocínio em várias etapas e resolver problemas complexos. É especialmente notável na derivação de relações causais em problemas físicos e raciocínio matemático complexo, reduzindo significativamente a taxa de erro e fornecendo etapas claras de resolução de problemas. O QVQ-72B também demonstra capacidade eficiente e precisa de extrair informações importantes no processamento de relatórios técnicos e análises de gráficos complexos, e possui recursos precisos de reconhecimento de detalhes de imagem. Ele pode ser aplicado em áreas como monitoramento inteligente e direção autônoma.

O QVQ-72B fez um grande avanço no campo da IA multimodal. Suas poderosas capacidades de raciocínio fornecem novas ideias e ferramentas para resolver problemas complexos, injetando um novo impulso na atualização inteligente de vários setores. O teste online e os links de introdução detalhados são: https://huggingface.co/spaces/Qwen/QVQ-72B-preview e https://qwenlm.github.io/blog/qvq-72b-preview/. Acredita-se que o surgimento do QVQ-72B promoverá a aplicação e o desenvolvimento da tecnologia de inteligência artificial em mais campos.