À medida que a primeira obra-prima de jogo AAA nacional "Black Myth: Wukong" se tornou popular em todo o mundo, o mercado de poder de computação espacial que realiza a conexão perfeita entre o mundo físico e o mundo virtual por trás dele rapidamente se tornou o novo favorito da capital mercado. Sob a onda de grandes modelos, surgiram enormes demandas por poder computacional.
Ao mesmo tempo, a construção de infra-estruturas para apoiar a melhoria do poder computacional também atraiu a atenção da indústria. Desde 2024, os grandes modelos de IA entraram no primeiro ano de aplicação. Cada vez mais bancos comerciais continuaram a aumentar o investimento na construção de infra-estruturas de grandes modelos. As capacidades de arquitectura de modelos multimodais estão a tornar-se uma direcção chave para o layout das instituições financeiras.
A tendência de grandes modelos multimodais é destacada
Com a melhoria contínua das capacidades dos grandes modelos, desde 2024, os bancos e outras instituições financeiras aumentaram a aplicação de cenários e a construção ecológica de grandes modelos de IA.
Recentemente, vários bancos listados divulgaram o progresso na construção de grandes plataformas de modelo de IA em seus relatórios anuais. O relatório semestral do China Merchants Bank mostra que o banco reforçou a construção sistemática de grandes modelos linguísticos e fez esforços abrangentes em áreas como infra-estruturas, plataformas de raciocínio e formação, algoritmos e modelos, estruturas de desenvolvimento de aplicações e aplicações de cenários. Melhorar continuamente a construção da plataforma interna de experiência de grandes modelos, fortalecer a comunicação profunda com mais de 100 empresas de grandes modelos da cadeia ecológica, promover a construção ecológica interna e externa de grandes modelos e acelerar a aplicação de tecnologias de ponta, como IA grandes modelos da empresa.
O China Construction Bank deixou claro no seu relatório semestral que continuará a promover a construção e aplicação de modelos financeiros em grande escala e a capacitar totalmente 79 cenários de negócios bancários em seis setores principais: finanças corporativas, finanças pessoais, ativos de capital gestão, gestão de riscos, canais de tecnologia e gestão abrangente.
O relatório semestral do Ping An Bank apontou que no primeiro semestre do ano, ele desenvolveu de forma independente uma grande plataforma aberta de modelo e fortaleceu a construção de capacidades básicas, como plataforma de poder de computação, grande base de modelo, desenvolvimento de grande modelo e integração de operação ( Ops), agente e plataforma de desenvolvimento de aplicativos.
Na Conferência de Ecologia Financeira Digital CMB Pujiang de 2024, Zhou Tianhong, gerente geral do Departamento de Tecnologia da Informação e diretor de informação designado do China Merchants Bank, disse que os grandes modelos se tornarão o maior fator que afeta a sociedade humana e mudarão profundamente a economia e a sociedade das pessoas. e métodos de vida no futuro; os bancos também explorarão ativamente a aplicação de grandes cenários de modelos e continuarão a acelerar a implementação de aplicações de tecnologia de ponta, como grandes modelos de IA.
A construção de infraestruturas de grandes modelos de IA e a exploração de aplicações de cenários estão a tornar-se focos-chave do layout da tecnologia financeira dos bancos.
Yu Wujie, vice-gerente geral do Departamento de Tecnologia da Informação da Sede do China Merchants Bank, revelou que o banco estabeleceu um laboratório no final de 2017 e começou a realizar pesquisas em vários aspectos, como fala, linguagem, visão e imagens através do estudo de tecnologias tradicionais. "Desde o lançamento do ChatGPT no final de 2022, os bancos investiram mais recursos na área de grandes modelos. Agora, o China Merchants Bank fez da construção de infraestrutura e das aplicações de cenários uma direção de investimento fundamental."
Ao mesmo tempo, Yu Wujie também destacou que o atual modelo de grande linguagem tem a capacidade de compreensão, uma certa capacidade de geração e capacidade de raciocínio lógico preliminar, mas ainda não atingiu o estágio de raciocínio lógico complexo e derivação de princípios. Ao nível da aplicação de cenários na indústria financeira, Yu Wujie acredita que o desenvolvimento de grandes modelos passou por três fases: na primeira fase, muitos produtos digitais foram produzidos e grandes capacidades de modelos foram sobrepostas aos produtos para melhorar a eficiência dos processos de negócio existentes; Na segunda fase, as capacidades da IA são naturalmente integradas nas aplicações geradas, optimizando o processo do sistema de atendimento ao cliente, permitindo que os clientes obtenham serviços financeiros por si próprios, o grande modelo irá remodelar tudo, incluindo o sistema operacional subjacente, modelo organizacional, divisão de processos de trabalho, etc., trazendo um impacto mais profundo e essencial.
A julgar pela prática de aplicação de grandes modelos em instituições financeiras, a indústria actual está geralmente na primeira e na segunda fase. É importante notar que, à medida que entramos na fase de desenvolvimento de grandes modelos de IA, a aplicação de grandes modelos apresenta requisitos mais elevados para a construção de infra-estruturas de grandes modelos empresariais.
Liu Zhaoyang, especialista sênior em algoritmos da Alibaba Cloud Bailian Large Model Platform, disse que existem várias direções que podem ser exploradas no desenvolvimento de tecnologia de modelos grandes. Entre elas, um para todos os modelos multimodais que suportam linguagem, voz e imagem. a entrada ao mesmo tempo é uma tendência importante. Este é um conjunto de Um paradigma técnico capaz de processar entrada e saída multimodal, como texto, imagens e vídeos, incluindo compreensão e geração de imagens.
De acordo com o último "Relatório de Pesquisa de Desenvolvimento de Tecnologia de Modelo de Linguagem Grande de Inteligência Artificial (2024)" divulgado, os futuros grandes modelos prestarão mais atenção à fusão e processamento de dados multimodais e tenderão a melhorar as capacidades de aprendizagem adaptativa e de transferência. algoritmos são usados para melhorar a transparência, permitindo que grandes modelos de linguagem compreendam e se adaptem melhor a ambientes de aplicação prática complexos e mutáveis.
No entanto, Wang Guangrun, cientista-chefe da Tuoyuan Intelligence, destacou que a maioria dos modelos multimodais atuais são baseados na arquitetura técnica de 7 anos atrás. Embora esses modelos tenham feito alguns progressos, eles ainda apresentam muitas deficiências, como a alta. custos de treinamento e inferência, propenso a alucinações, não é bom em planejamento de longo prazo e incapaz de concluir tarefas complexas de forma independente.
Wang Guangrun revelou que, em resposta a estes problemas, a Tuoyuan Intelligence propôs ideias inovadoras para remodelar a base de grandes modelos multimodais através de uma nova arquitetura técnica. “Esta arquitectura inovadora não só reduz significativamente os custos de formação e teste de grandes modelos, mas também reduz significativamente o limiar para as pequenas e médias empresas entrarem na era dos grandes modelos, promovendo assim a equalização da tecnologia.”
Construção de infraestrutura de computação acelera
O desenvolvimento e a aplicação de grandes modelos são altamente dependentes de um poderoso suporte de poder computacional. Liu Zhaoyang disse que o poder da computação é o recurso mais escasso nesta era. Na era atual, o poder da computação se tornará basicamente a maior pedra angular para o desenvolvimento de todas as empresas ou para o desenvolvimento da inteligência artificial.
Gao Wen, acadêmico da Academia Chinesa de Engenharia, diretor do Laboratório Pengcheng e professor da Cátedra Boya na Universidade de Pequim, enfatizou que o desenvolvimento de modelos como o GPT depende de big data, grandes modelos e grande poder de computação; é o elemento central da competitividade nacional e da construção do poder computacional A rede de energia é crucial e precisa resolver desafios como o fornecimento de energia computacional central, conexões de comunicação e agendamento de energia computacional para promover o desenvolvimento e aplicação da IA.
Neste contexto, cada vez mais empresas líderes continuam a aumentar o investimento na construção de infra-estruturas em grande escala.
Chen Xi, vice-gerente geral do Departamento de Tecnologia da Informação da Sede do China Merchants Bank, revelou que o banco também está atualmente acelerando a construção de uma plataforma de IA em nuvem para fornecer os recursos básicos e uma plataforma de serviço modelo necessária para aplicações de negócios de IA, com foco em o cluster de formação e o cluster de inferência. Construção de infra-estruturas informáticas.
Chen Xi disse que os “três anos para a nuvem” mencionados anteriormente foram uma nuvem abrangente. Com o surgimento de grandes modelos, a proporção de computação inteligente se tornará cada vez maior, e não se trata apenas da atualização da infraestrutura, mas também envolve. desenvolvimento de nível superior.
Liu Zhaoyang destacou que depois que a GPT começar a reservar grandes modelos de Transformer em 2020 ou 2021, tanto o número e a escala dos grandes modelos, bem como a demanda por poder de computação e dados dos grandes modelos por trás deles, mostrarão um crescimento exponencial significativo. tendência.
Sob essa tendência, os modelos grandes também trazem maiores desafios ao suporte do poder computacional.
Zhou Wei, arquiteto-chefe da Kunlun Core Financial, apontou que a taxa de crescimento dos requisitos de potência de computação para modelos grandes é muito maior do que a taxa de crescimento do próprio hardware, que é ao mesmo tempo a chamada Lei de Moore; o contexto de competição entre a China e os Estados Unidos, especialmente os chips domésticos ainda são. Haverá problemas com o pescoço preso. "Portanto, de modo geral, o fornecimento global de poder de computação não está satisfeito com a atual demanda de software."
Além disso, Zhou Wei também disse que a forma de avaliar se um determinado poder de computação pode atender à demanda depende não apenas do poder de computação em si, mas também de indicadores abrangentes. Na opinião de Zhou Wei, agora é geralmente aceito que o poder da computação não é um simples indicador, como um simples cálculo de números de ponto flutuante ou frequência principal ou número de núcleo. É um valor abrangente de diferentes capacidades de hardware em computação, armazenamento e comunicação.
Zhou Wei enfatizou que, para atender às necessidades de pré-treinamento de grandes modelos ou ajuste fino do poder de computação, diferentes poderes de computação devem ser usados como um conjunto heterogêneo de recursos de computação mistos e tarefas de treinamento, tarefas de inferência e Agente, Rag.
Ao mesmo tempo que reforçam o investimento na construção de infra-estruturas de poder computacional, algumas instituições financeiras também começaram a prestar atenção à melhoria das capacidades de inovação dos talentos da tecnologia financeira para ajudar ainda mais a construção de grandes modelos de IA e a exploração de práticas de aplicação.
Zhou Tianhong disse que olhando para o futuro, seguindo a era do vapor, a era da eletricidade e a era da informação, a sociedade humana está prestes a entrar na era inteligente; somente o florescimento das aplicações tecnológicas pode promover o desenvolvimento geral da "IA + finanças".
Gao Xulei, diretor do Escritório de Desenvolvimento Financeiro Digital da Sede do China Merchants Bank, também revelou que o banco lançou o Programa de Aprendizagem de Finanças Digitais de Pujiang para aumentar a frequência e densidade das trocas e se esforçar para criar direções mais inovadoras. Na opinião de Gao Xulei, a inovação não ocorre isoladamente, mas floresce na intersecção de ideias, experiências e cultura num ambiente adequado. "Na onda das finanças digitais, todos são testemunhas, participantes e criadores. Espero que todas as instituições financeiras possam estudar conjuntamente as leis de desenvolvimento das finanças digitais, experimentar modelos e métodos inovadores e promover conjuntamente o desenvolvimento e a aplicação de tecnologias de ponta tecnologias financeiras digitais."