Na interseção da ciência e da tecnologia, os gráficos, como uma ferramenta poderosa para expressar relacionamentos complexos, estão se tornando cada vez mais o foco dos pesquisadores. Os gráficos desempenham um papel indispensável no projeto molecular químico ou na análise de redes sociais. No entanto, como gerar gráficos de maneira eficiente e flexível é sempre um problema muito desafiador. Recentemente, uma equipe de pesquisa na Tufts University, Northeastern University e Cornell University colaborou para lançar um modelo autoregressivo chamado Graph Grep Gerative pré-treinado Transformer (G2PT), com o objetivo de redefinir como os gráficos são gerados e representados.
Diferentemente dos modelos tradicionais de geração de gráficos que dependem da matriz de adjacência, o G2PT apresenta um método de tokenização baseado em sequência. Este método faz pleno uso da escassez do gráfico, decompondo o gráfico em conjuntos de nó e conjuntos de borda, melhorando significativamente a eficiência da computação. A inovação do G2PT é que ele pode gerar gradualmente gráficos como está em linguagem natural e concluir toda a construção de gráficos prevendo o próximo token. Pesquisas mostram que essa representação serializada não apenas reduz o número de tokens, mas também melhora a qualidade da geração.
A adaptabilidade e escalabilidade do G2PT são impressionantes. Com a tecnologia de ajuste fino, demonstra excelente desempenho em tarefas como geração de gráficos orientada a objetivos e previsão de atributos de gráfico. Por exemplo, no design de medicamentos, o G2PT pode gerar mapas moleculares com propriedades físico -químicas específicas. Além disso, ao extrair a incorporação de gráficos de modelos pré-treinados, o G2PT também mostra superioridade em conjuntos de dados de previsão de atributos moleculares múltiplos.
Em experimentos comparativos, o G2PT teve um desempenho significativamente melhor do que os modelos de última geração existentes em vários conjuntos de dados de referência. Seu desempenho foi altamente reconhecido em termos de geração de validade, exclusividade e correspondência das distribuições de atributos moleculares. Os pesquisadores também analisaram o impacto da escala de modelo e dados no desempenho da geração.
Embora o G2PT demonstre recursos excelentes em várias tarefas, os pesquisadores também apontaram que a sensibilidade à ordem de geração pode significar que diferentes domínios gráficos requerem diferentes estratégias de otimização de pedidos. Espera -se que pesquisas futuras explorem mais projetos de sequência mais gerais e expressivos.
O surgimento do G2PT não apenas trouxe métodos inovadores para o campo da geração de gráficos, mas também estabeleceu uma base sólida para a pesquisa e aplicação de campos relacionados. Com o avanço contínuo da tecnologia, o G2PT deve realizar seu potencial em mais campos e promover o desenvolvimento adicional da tecnologia de geração de gráficos.