Alinhamento incrível de modelos de difusão
A coleção de artigos incríveis sobre o alinhamento de modelos de difusão.
Se você estiver interessado no alinhamento de modelos de difusão, consulte nosso artigo de pesquisa "Alinhamento de modelos de difusão: fundamentos, desafios e futuro", que é a primeira pesquisa sobre este tópico que temos conhecimento.
Esperamos aproveitar a aventura de explorar modelos de alinhamento e difusão com mais pesquisadores. Correções e sugestões são bem-vindas.
Técnicas de alinhamento de modelos de difusão
RLHF
- ImageReward: Aprendendo e avaliando as preferências humanas para geração de texto em imagem. NeuroIPS 2023, [pdf]
- DPOK: Aprendizado por reforço para ajuste fino de modelos de difusão de texto para imagem, NeurIPS 2023, [pdf]
- Alinhando modelos de texto para imagem usando feedback humano. arXiv 2023, [pdf]
- Alinhando modelos de difusão de texto para imagem com retropropagação de recompensa. arXiv 2023, [pdf]
- Ajuste direto de modelos de difusão em recompensas diferenciáveis. ICLR 2024, [pdf]
- PRDP: Predição de diferença de recompensa proximal para ajuste fino de recompensa em larga escala de modelos de difusão. CVPR 2024, [pdf]
- Ajuste fino on-line eficiente de feedback de modelos de difusão. ICML 2024, [pdf]
- Ajuste fino de modelos de difusão em tempo contínuo como controle regularizado por entropia. arXiv 2024, [pdf]
- Compreendendo o ajuste fino de modelos de difusão com base na aprendizagem por reforço: um tutorial e uma revisão. arXiv 2024, [pdf]
- Alinhando modelos de difusão em poucas etapas com aprendizagem por diferença de recompensa densa. arXiv 2024, [pdf]
DPO
- Alinhamento do modelo de difusão usando otimização de preferência direta. CVPR 2024, [pdf]
- Usando feedback humano para ajustar modelos de difusão sem qualquer modelo de recompensa. CVPR 2024, [pdf]
- Uma visão densa de recompensa no alinhamento da difusão de texto para imagem com preferência. ICML 2024, [pdf]
- Ajuste fino de auto-reprodução de modelos de difusão para geração de texto para imagem. NeuroIPS 2024, [pdf]
- Alinhando modelos de difusão otimizando a utilidade humana. arXiv 2024, [pdf]
- Otimização de preferência com reconhecimento de etapas: alinhando preferência com desempenho de eliminação de ruído em cada etapa. arXiv 2024, [pdf]
- Ajustando o modelo de difusão destilada em timestep usando otimização de amostra em pares. arXiv 2024, [pdf]
- Otimização de preferência classificada escalonável para geração de texto para imagem. arXiv 2024, [pdf]
- Priorize as etapas de eliminação de ruído no alinhamento de preferências do modelo de difusão por meio da estimativa explícita de distribuição sem ruído. arXiv 2024, [pdf]
Alinhamento implícito sem treinamento
- Otimizando prompts para geração de texto para imagem. NeuroIPS 2023, [pdf]
- RePrompt: Edição automática de prompts para refinar a arte geradora de IA em direção a expressões precisas. CHI 2023, [pdf]
- Melhorando a consistência de texto para imagem por meio da otimização automática de prompts. TMLR 2024, [pdf]
- Otimização dinâmica de prompt para geração de texto para imagem. CVPR 2024, [pdf]
- ReNO: Aprimorando modelos de texto para imagem em uma etapa por meio da otimização de ruído baseada em recompensa. NeuroIPS 2024, [pdf]
- Rumo a um melhor alinhamento de geração de texto para imagem por meio da modulação de atenção. arXiv 2024, [pdf]
- Nem todos os ruídos são criados igualmente: seleção e otimização de ruído de difusão. arXiv 2024, [pdf]
- Orientação livre de derivativos em modelos de difusão contínua e discreta com decodificação baseada em valores suaves. arXiv 2024, [pdf]
- Alinhamento de tempo de inferência de modelos de difusão com otimização direta de ruído. arXiv 2024, [pdf]
Alinhamento além dos modelos de difusão de texto para imagem
- Alinhando trajetórias de otimização com modelos de difusão para geração de design restrito. NeuroIPS 2023, [pdf]
- AlignDiff: Alinhando diversas preferências humanas por meio do modelo de difusão personalizável por comportamento. ICLR 2024, [pdf]
- HIVE: Aproveitando o feedback humano para edição visual instrucional. CVPR 2024, [pdf]
- InstructVideo: Instruindo Modelos de Difusão de Vídeo com Feedback Humano. CVPR 2024, [pdf]
- DreamReward: geração de texto para 3D com preferência humana. arXiv 2024, [pdf]
- O alinhamento é fundamental para a aplicação de modelos de difusão à retrossíntese. arXiv 2024, [pdf]
- Alinhamento de difusão de vídeo por meio de gradientes de recompensa. arXiv 2024, [pdf]
- Alinhando modelos de difusão de moléculas com reconhecimento de alvo com otimização de energia exata. arXiv 2024, [pdf]
- VideoRepair: Melhorando a geração de texto para vídeo por meio de avaliação de desalinhamento e refinamento localizado. arXiv 2024, [pdf]
Benchmarks e avaliação
- DALL-Eval: investigando as habilidades de raciocínio e os preconceitos sociais dos transformadores generativos de texto para imagem. ICCV 2023, [pdf]
- Pontuação de preferência humana: melhor alinhamento dos modelos de texto para imagem com a preferência humana. ICCV 2023, [pdf]
- ImageReward: Aprendendo e avaliando as preferências humanas para geração de texto em imagem. NeuroIPS 2023, [pdf]
- Pick-a-Pic: um conjunto de dados aberto de preferências do usuário para geração de texto em imagem. NeuroIPS 2023, [pdf]
- LLMScore: Revelando o poder de grandes modelos de linguagem na avaliação de síntese de texto para imagem. NeuroIPS 2023, [pdf]
- VPGen e VPEval: Programação Visual para Geração e Avaliação de Texto para Imagem. NeuroIPS 2023, [pdf]
- Pontuação de preferência humana v2: uma referência sólida para avaliar as preferências humanas de síntese de texto para imagem. arXiv 2023, [pdf]
- GenEval: uma estrutura focada em objeto para avaliar o alinhamento de texto para imagem. Conjuntos de dados e benchmarks NeurIPS 2023, [pdf]
- Avaliação holística de modelos de texto para imagem. NeuroIPS 2023, [pdf]
- Recompensa social: avaliando e aprimorando a IA generativa por meio do feedback de milhões de usuários de uma comunidade criativa on-line. ICLR 2024, [pdf]
- Feedback humano rico para geração de texto em imagem. CVPR 2024, [pdf]
- Aprendendo a preferência humana multidimensional para geração de texto para imagem. CVPR 2024, [pdf]
- Modelos multimodais de grandes linguagens fazem com que os modelos geradores de texto para imagem se alinhem melhor. NeuroIPS 2024, [pdf]
- Medindo a similaridade de estilo em modelos de difusão. arXiv 2024, [pdf]
Fundamentos do Alinhamento Humano
Modelagem de preferência
- Análise de classificação de projetos de blocos incompletos: I. O método de comparações pareadas. Biometrika 1952, [pdf]
- Comportamento de escolha individual. John Wiley 1959, [pdf]
- A análise de permutações. Jornal da Royal Statistical Society. Série C (Estatística Aplicada) 1975, [pdf]
- Aprendendo a classificar com preferência particionada: estimativa rápida para o modelo Plackett-Luce. AISTATS 2021, [pdf]
- Modelos de preferência humana para funções de recompensa de aprendizagem. arXiv 2022, [pdf]
- Além das preferências no alinhamento de IA. arXiv 2024, [pdf]
RLHF
- Treinamento de modelos de linguagem para seguir instruções com feedback humano. NeuroIPS 2022, [pdf]
- IA constitucional: inocuidade do feedback da IA. arXiv 2022, [pdf]
- RRHF: Classifique as respostas para alinhar modelos de linguagem com feedback humano sem lágrimas. NeuroIPS 2023, [pdf]
- RAFT: FineTuning classificado como prêmio para alinhamento de modelo de base generativa. TMLR 2024, [pdf]
- RLAIF vs. RLHF: Dimensionando a aprendizagem por reforço a partir de feedback humano com feedback de IA. ICML 2024, [pdf]
- De volta ao básico: revisitando a otimização do estilo REINFORCE para aprender com feedback humano em LLMs. ACL 2024, [pdf]
DPO
- Otimização de preferência direta: seu modelo de linguagem é secretamente um modelo de recompensa. NeuroIPS 2023, [pdf]
- Otimização de classificação de preferência para alinhamento humano. AAAI 2024, [pdf]
- Um paradigma teórico geral para compreender a aprendizagem a partir das preferências humanas. AISTAS 2024, [pdf]
- KTO: Alinhamento de Modelo como Otimização Teórica do Prospecto. ICML 2024, [pdf]
- LiPO: Otimização de preferência listwise por meio do aprendizado para classificar. arXiv 2024, [pdf]
- ORPO: Otimização de Preferência Monolítica sem Modelo de Referência. arXiv 2024, [pdf]
Potenciais desafios e oportunidades de alinhamento de difusão
- Leis de escalonamento para otimização excessiva do modelo de recompensa. ICML 2023, [pdf]
- O problema do alinhamento de uma perspectiva de aprendizagem profunda. ICLR 2024, [pdf]
- Além do KL reverso: generalizando a otimização de preferência direta com diversas restrições de divergência. ICLR 2024, [pdf]
- Nash aprendendo com o feedback humano. ICML 2024, [pdf]
- Aprendizagem de preferência iterativa com feedback humano: unindo teoria e prática para RLHF sob restrição KL. ICML 2024, [pdf]
- Recompensa densa gratuitamente na aprendizagem por reforço com feedback humano. ICML 2024, [pdf]
- Posição: Um Roteiro para o Alinhamento Pluralista. ICML 2024, [pdf]
- Avaliando a fragilidade do alinhamento de segurança por meio de podas e modificações de baixa classificação. ICML 2024, [pdf]
- MaxMin-RLHF: Alinhamento com diversas preferências humanas. ICML 2024, [pdf]
- Recompensas no contexto: alinhamento multiobjetivo de modelos básicos com ajuste dinâmico de preferências. ICML 2024, [pdf]
- Aprendizagem do modelo de recompensa versus otimização direta de políticas: uma análise comparativa da aprendizagem a partir das preferências humanas. ICML 2024, [pdf]
- Otimização generalizada de preferências: uma abordagem unificada para alinhamento offline. ICML 2024, [pdf]
- Alinhamento Humano de Grandes Modelos Linguísticos através da Otimização de Preferências Online. ICML 2024, [pdf]
- Compreendendo a dinâmica de aprendizagem do alinhamento com o feedback humano. ICML 2024, [pdf]
- Posição: A escolha social deve orientar o alinhamento da IA ao lidar com o feedback humano diversificado. ICML 2024, [pdf]
- O DPO é superior ao PPO para alinhamento LLM? Um estudo abrangente. ICML 2024, [pdf]
- BOND: Alinhando LLMs com Destilação Best-of-N. arXiv 2024, [pdf]
- Confrontando a superotimização de recompensas para modelos de difusão: uma perspectiva de preconceitos indutivos e de primazia, [pdf]
Citando
Se você achar a lista de artigos útil para sua pesquisa, fique à vontade para citar nosso artigo de pesquisa sobre este tópico!
@article{liu2024alignment,
title = {Alignment of Diffusion Models: Fundamentals, Challenges, and Future},
author = {Liu, Buhua and Shao, Shitong and Li, Bao and Bai, Lichen, and Xu, Zhiqiang and Xiong, Haoyi and Kwok, James and Helal, Sumi and Xie, Zeke},
journal = {arXiv preprint arXiv 2024.07253},
year = {2024}
}