O projeto arquitetônico de grandes modelos de linguagem (LLM) está passando por mudanças profundas e o domínio da arquitetura Transformer enfrenta desafios. Para enfrentar esse desafio, a Liquid AI, startup incubada pelo MIT, lançou um framework inovador chamado STAR (Synthesis of Tailored Architectures), que visa gerar e otimizar automaticamente a arquitetura do modelo de IA. A estrutura STAR usa algoritmos evolutivos e tecnologia de codificação hierárquica para sintetizar e otimizar arquiteturas de modelos com base em requisitos específicos de desempenho e hardware, mostrando vantagens significativas tanto em eficiência quanto em desempenho.
A estrutura STAR utiliza algoritmos evolutivos e sistemas de codificação numérica para automatizar a geração e otimização de arquiteturas de modelos de inteligência artificial. A equipe de pesquisa da Liquid AI observou que a abordagem de design do STAR difere do design de arquitetura tradicional ao empregar uma técnica de codificação hierárquica chamada “Genoma STAR” para explorar um amplo espaço de design de arquiteturas potenciais. Através da combinação e mutação do genoma, a STAR é capaz de sintetizar e otimizar arquiteturas que atendem a requisitos específicos de desempenho e hardware.
Em testes direcionados à modelagem de linguagem autoregressiva, o STAR mostrou desempenho superior em relação aos tradicionais modelos Transformer++ otimizados e híbridos. Em termos de qualidade de otimização e tamanho do cache, a arquitetura evoluída do STAR reduz o tamanho do cache em até 37% em comparação ao modelo híbrido e atinge uma redução de 90% em comparação ao Transformer tradicional. Esta eficiência não sacrifica o desempenho preditivo do modelo, mas em alguns casos supera os concorrentes.
A pesquisa também mostra que a arquitetura do STAR é altamente escalável. Um modelo evolutivo STAR que escala de 125 milhões de parâmetros a 1 bilhão de parâmetros tem um desempenho tão bom ou melhor que o Transformer++ existente e os modelos híbridos em benchmarks padrão, ao mesmo tempo que reduz significativamente o raciocínio sobre os requisitos de cache.
Liquid AI disse que o conceito de design do STAR incorpora os princípios de sistemas dinâmicos, processamento de sinal e álgebra linear numérica para construir um espaço de busca de unidade de computação flexível. Uma característica distintiva do STAR é o seu design modular, que permite codificar e otimizar arquiteturas em vários níveis, proporcionando aos pesquisadores a oportunidade de obter insights sobre combinações eficazes de componentes arquitetônicos.
A Liquid AI acredita que os recursos eficientes de síntese de arquitetura do STAR serão aplicados em vários campos, especialmente em cenários onde a qualidade e a eficiência computacional precisam ser equilibradas. Embora a Liquid AI não tenha anunciado implantação comercial específica ou planos de preços, os resultados de sua pesquisa marcam um grande avanço no campo do design de arquitetura automatizada. À medida que o campo da IA continua a evoluir, estruturas como o STAR podem desempenhar um papel importante na formação da próxima geração de sistemas inteligentes.
Blog oficial: https://www.liquid.ai/research/automated-architecture-synthesis-via-targeted-evolution
Em suma, a estrutura STAR da Liquid AI fornece um novo método automatizado para o design de arquitetura de modelos de IA. Seus avanços em eficiência e desempenho são de grande importância e fornecem novas possibilidades para o desenvolvimento de futuros sistemas de IA. O design modular e a escalabilidade da estrutura também proporcionam amplas perspectivas de aplicação em diferentes campos.