Yann LeCun expressou recentemente seus insights sobre a direção do desenvolvimento da IA no Fórum Econômico Mundial. Ele enfatizou as limitações dos modelos generativos atuais no processamento de vídeo e apontou que a IA futura precisa fazer previsões no espaço abstrato em vez do espaço de pixels. Isto desencadeou uma reflexão aprofundada sobre a arquitetura e a direção do desenvolvimento dos modelos de IA e também indica que a investigação em IA enfrentará novos desafios e oportunidades. O artigo enfoca os difíceis problemas encontrados no processamento de vídeo e os novos métodos e tecnologias necessários para resolver esses problemas.
Yann LeCun, vencedor do Prêmio Turing e cientista-chefe de IA da Meta, apontou no Fórum Econômico Mundial que os modelos generativos não são adequados para processar vídeos e que a IA precisa fazer previsões em um espaço abstrato. À medida que os dados de texto na Internet se esgotam, os investigadores de IA estão a voltar a sua atenção para os vídeos e a perceber que a compreensão das relações causais é crucial para futuros sistemas de IA. Portanto, novos modelos devem aprender a prever no espaço de representação abstrata, e não no espaço de pixels. A dificuldade no processamento de vídeo reside na complexidade do espaço de pixels, por isso são necessárias novas arquiteturas para processar entradas de vídeo e fazer previsões em espaços de representação abstrata. Para resolver os difíceis problemas no processamento de vídeo, novos métodos e tecnologias científicas precisam ser criados para permitir que os sistemas de IA utilizem informações como os humanos.O ponto de vista de LeCun aponta o caminho para pesquisas futuras no campo da IA, colocando novos desafios em termos de escassez de dados e compreensão da causalidade, e também indica que a tecnologia de IA se desenvolverá numa direção mais inteligente e compreensiva. No futuro, romper as limitações do espaço de pixels e fazer previsões no espaço abstrato se tornará um ponto de avanço importante na pesquisa em IA.