A equipe Wu Jiajun da Universidade de Stanford desenvolveu uma tecnologia inovadora - "linguagem de cena", que pode gerar automaticamente modelos 3D realistas com apenas uma frase ou imagem. Esta tecnologia combina três tipos de informação: programa, texto e vetor incorporado, e transforma a descrição da linguagem natural em cena visual, proporcionando aos designers e desenvolvedores de jogos uma conveniência sem precedentes. O editor de Downcodes irá levá-lo a ter uma compreensão profunda desta tecnologia incrível, explorar seus princípios básicos, perspectivas de aplicação e direções de desenvolvimento futuro, e revelar como ela transforma cenas legais de filmes de ficção científica em realidade.
Você ainda se lembra daquelas cenas 3D legais em filmes de ficção científica? Vastos universos, castelos de fantasia, cidades futuras... Agora, você pode criar facilmente essas cenas! A tecnologia permite gerar automaticamente um modelo 3D realista apenas descrevendo a cena em uma frase, o que é uma ótima notícia para designers e desenvolvedores de jogos!
O que exatamente é a linguagem da cena?
Imagine que você está tentando descrever o misterioso monólito Ahu Akiwi na Ilha de Páscoa. Você diria: "Há uma fileira de sete estátuas Moai ali, voltadas para a mesma direção." Mas se a outra pessoa não souber o que são as estátuas Moai, você terá que explicar: "As estátuas Moai são figuras humanas de pedra sem." pernas, mas cada uma parece um pouco diferente.”
Este exemplo nos diz que para descrever completamente uma cena são necessários pelo menos três tipos de informação:
Informações estruturais: Por exemplo, “uma fileira de sete estátuas de pedra” pode ser descrita por um programa semelhante a uma linguagem de programação;
Semântica da categoria: por exemplo, “estátua Moai” pode ser resumida em palavras;
Detalhes da instância: por exemplo, a forma, a cor e a textura específicas de cada estátua de pedra são difíceis de descrever em palavras, mas podem ser identificadas por meio de imagens.
A linguagem da cena é a fusão perfeita desses três tipos de informação. Ela contém três elementos principais:
Programa: Use sintaxe semelhante à linguagem de programação para definir a relação hierárquica e o layout espacial dos objetos na cena, como a disposição das estátuas Moai;
Texto: Utilize linguagem natural para descrever a semântica da categoria de cada objeto, como “Moai”;
Vetores de incorporação: Vetores gerados por uma rede neural são usados para capturar as características visuais de cada objeto, como a aparência única de cada estátua de pedra.
O mais incrível é que a linguagem da cena pode ser gerada automaticamente por meio de modelos de linguagem pré-treinados. Você só precisa inserir uma descrição de texto ou uma imagem, e o modelo pode inferir automaticamente o programa, o texto e os vetores de incorporação e, em seguida, usar vários renderizadores! para gerar cenas 3D de alta qualidade.
Quais são as vantagens da linguagem de cena?
Em comparação com a representação gráfica de cena tradicional, as linguagens de cena são capazes de gerar cenas mais complexas e realistas, e a estrutura da cena pode ser controlada e editada com precisão. Por exemplo, você pode modificar as propriedades de um objeto na cena, adicionar um novo objeto ou até mesmo alterar o estilo de toda a cena com uma frase de instruções.
Quais são as aplicações da linguagem de cenário?
A linguagem de cena tem amplas perspectivas de aplicação na área de geração e edição de cenas 3D, como:
Gerar cenas 3D a partir de texto: Insira uma descrição de texto e a cena 3D correspondente será gerada automaticamente, como “um castelo no topo de uma montanha, cercado por densas florestas”;
Gere cenas 3D a partir de fotos: insira uma foto e você poderá reconstruir a cena 3D da foto, por exemplo, gerar um modelo 3D de sala de estar baseado em uma foto de sala de estar;
Geração de cena 4D: podem ser geradas cenas 4D que contêm informações de dimensão de tempo, como simular a rotação de uma turbina eólica;
Edição de cena: Ao modificar os programas, o texto ou os vetores incorporados da linguagem da cena, é possível realizar uma edição precisa da cena, como alterar a cor, a posição ou o tamanho dos objetos.
A direção futura do desenvolvimento da linguagem da cena?
A linguagem de cenário ainda está nos estágios iniciais de desenvolvimento e ainda há muito espaço para desenvolvimento no futuro, como:
Capacidades de geração mais poderosas: podem gerar cenas mais complexas e realistas, como contendo mais detalhes e elementos interativos mais ricos;
Método de edição mais conveniente: você pode usar uma linguagem mais natural e intuitiva para editar cenas, como usar controle de voz ou gestos;
Campos de aplicação mais amplos: Pode ser usado em realidade virtual, realidade aumentada, desenvolvimento de jogos, produção de filmes e outros campos.
Página inicial do projeto: https://ai.stanford.edu/~yzzhang/projects/scene-language/
Endereço do artigo: https://arxiv.org/abs/2410.16770
Em suma, a tecnologia de "linguagem de cena" trouxe mudanças revolucionárias no campo da geração e edição de cenas 3D. Sua conveniência, eficiência e poderosos recursos de geração fazem com que ela tenha possibilidades ilimitadas no futuro. Acredito que com o desenvolvimento contínuo da tecnologia, a "linguagem cênica" desempenhará um papel importante em mais campos e criará um mundo virtual mais vívido e realista para nós.