Reading_groups Download - Reading_groups Download do código -fonte

Reading_groups

Outro código-fonte

1.0.0

Baixar

Recursos para tópicos quentes relacionados a modelos de idiomas pré-treinados em larga escala

O poder da computação : muitas evidências mostram que os avanços no aprendizado de máquina são amplamente impulsionados pela computação, não pela pesquisa, consulte "a lição amarga" e muitas vezes há fenômenos de emergência e homogeneização. Estudos mostraram que o uso da computação de inteligência artificial duplica a cada 3,4 meses, enquanto a melhoria da eficiência só dobra a cada 16 meses. Entre eles, a quantidade de cálculo é impulsionada principalmente pelo poder da computação, enquanto a eficiência é impulsionada pela pesquisa. Isso significa que o crescimento da computação historicamente dominou os avanços no aprendizado de máquina e em seus subcampos. Isso é ainda mais comprovado pelo surgimento do GPT-4. Apesar disso, ainda precisamos prestar atenção se haverá uma arquitetura mais subvertida no futuro, como o S4. A maioria dos hotspots atuais de pesquisa da PNL é baseada em LLM mais avançado (~ 100b, $ 10^{23} $ Flops). Em particular, o ChatGPT usa menos do que os cálculos de pré-treinamento (4,9+60 petaflops/s-dias vs 3640 petaflops/s-dias) e feedback humano (US $ 500k, 20k horas, 13+33+31k, em comparação com o GPT- 3 US $ 12.000 mil, ele lançou seus recursos de diálogo Model GPT e se tornou popular. Portanto, esta biblioteca rastreia e classifica artigos relacionados ao modelo de linguagem pré-treinado em larga escala LLM, que nos permite entender a fronteira e ver claramente a direção. Obviamente, além da [Big Computing Power Technology Foundation], existem outros aspectos: [inovação na Big Model Technology], [aprimorado na qualidade do big data], [Aberto da Inovação Ecológica], [colaboração próxima da equipe], [forte recursos de engenharia] etc.

Para mais documentos de tópicos da LLM, consulte aqui e aqui.

Documentos ( categoria aproximada )

Treinamento, teste e otimização de modelos
Aplicativos e LLM+
Análise de princípios
Melhorias tecnológicas
Pesquisa e conjuntos de dados

recurso

Cursos LLM
Imagens importantes
Demoção LLM
Blogs importantes e artigos auto-selecionados
Treinamento, raciocínio, ferramentas de aplicação (não compiladas)

Treinamento e otimização de grandes modelos

【Testes no GPT-4, Limitação】 Faíscas de Inteligência Geral Artificial: Experiências iniciais com GPT-4

Cartão modelo
Vídeo

【Documentos de instrução, incluindo SFT, PPO, etc., um dos artigos mais importantes】 Modelos de linguagem de treinamento para seguir as instruções com feedback humano

【Supervisão escalável: como os humanos podem continuar melhorando seus modelos depois que seus modelos excedem suas próprias tarefas? 】 Medir o progresso da supervisão escalável para grandes modelos de linguagem

Modelos de auto-crítica para ajudar os avaliadores humanos
Definição: A capacidade de fornecer supervisão confiável ao modelo na forma de rótulos, sinais de recompensa ou críticas que permanecerão eficazes após o cometer o modelo a obter uma ampla gama de desempenho em nível humano.
A tecnologia de supervisão escalável pode melhorar a capacidade e o alinhamento dos modelos (ou seja, aplicar e atingir metas da maneira como os humanos esperam).
Se pudermos encontrar um paradigma de aprendizado supervisionado com base no modelo existente (nível acima de não especialistas, em especialistas) que pode melhorar a correção das respostas do modelo, podemos entender melhor o modelo de maneira alguma depender de especialistas. Sistema especialista.
Outra idéia de perspectiva é solicitar o modelo usando várias dicas e estratégias e aceitar apenas as respostas dadas pelo modelo em uma base consistente e razoável de evidências. Mas a tecnologia desse ângulo pode não ser suficientemente escalável. Obviamente, qualquer tecnologia que possa resolver esses desafios com alta confiabilidade pode representar avanços importantes na supervisão escalável.
Soluções existentes: Que os modelos existentes ajudem os seres humanos na obtenção de conhecimento para permitir que os seres humanos produzam supervisão de alta qualidade.

【Definição de alinhamento, produzido por DeepMind】 Alinhamento de agentes de linguagem

Um assistente de idioma geral como laboratório de alinhamento

[Artigo retrô, modelo pesquisado usando CCA+] Melhorando os modelos de linguagem recuperando de trilhões de tokens

Modelos de linguagem de ajuste fino de preferências humanas

Treinar um assistente útil e inofensivo com o aprendizado de reforço com o feedback humano

【Grande modelo em chinês e inglês, excedendo o GPT-3】 GLM-130B: um modelo pré-treinado bilíngue aberto

【Otimização de destino pré-treinamento】 UL2: Unificando paradigmas de aprendizado de idiomas

【Os novos benchmarks, bibliotecas de modelos e novos métodos do Alinhamento】 Aprendizagem de reforço (não) para processamento de linguagem natural?: Benchmarks, linhas de base e blocos de construção para otimização de políticas de linguagem natural

【MLM sem as tags [Mask] através da tecnologia】 Deficiência de representação na modelagem de linguagem mascarada

【Texto para o treinamento de imagem alivia as necessidades do vocabulário e resiste a certos ataques】 Modelagem de idiomas com pixels

Lexmae: Pré-Treinamento de Léxico-Bottlenecked para Recuperação em larga escala

Incoder: um modelo generativo para preenchimento e síntese de código

[Pesquise imagens relacionadas a texto para o modelo de idioma pré-treinamento] Modelagem de idiomas visualmente com agente

Um modelo de linguagem auto-terminante não monotônica

【Comparação e ajuste fino do feedback negativo através do ProPT Design】 cadeia de retrospectiva alinha modelos de linguagem com feedback

Artigos relacionados: A sabedoria da retrospectiva torna os modelos de idiomas melhores seguidores de instrução

【Modelo de pardal】 Melhorando o alinhamento de agentes de diálogo por meio de julgamentos humanos direcionados

[Use pequenos parâmetros do modelo para acelerar o processo de treinamento de um modelo grande (não começando do zero)] Aprendendo a cultivar modelos pré -traidos para treinamento de transformadores eficientes

[Modelo de fusão de conhecimento semi-paramétrico de MOE para múltiplas fontes de conhecimento] Conhecimento em Contexto: Rumo a modelos de linguagem semi-paramétricos conhecedores

[Método de mescla

[É muito inspirador que o mecanismo de pesquisa substitua a arquitetura geral da FFN no transformador (× 2,54 tempo) para dissociar o conhecimento armazenado em parâmetros do modelo] Modelo de linguagem com memória plug-in knowldge

【Gerar automaticamente dados de ajuste de instrução para treinamento GPT-3】 Auto-instrução: alinhando o modelo de linguagem com instruções auto-geradas

【Dados semelhantes a Yizhong Wang que geram automaticamente instruções, destinadas a T0】 Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano
Julgamentos de aceitação do modelo de idioma nem sempre são robustos ao contexto
Supernaturalinstructions: generalização por meio de instruções declarativas em tarefas de NLP de 1600+
(Flan-T5-COT) 【Cot Tuning Fine】 Modelos de linguagem de instrução de escala Finetuned

- imagem

Para modelos de linguagem mascarada dependentes condicionalmente

【Calibre iterativamente, os corretores independentes gerados imperfeitamente, o artigo de acompanhamento de Sean Weleck】 Gerando sequências aprendendo a se auto-corrigir

Previsão: o feedback da IA substituirá em breve o feedback do usuário humano para atualizações do modelo
Para aumentar o chatbot de domínio aberto com feedback humano
Idéias semelhantes 1. Ai constitucional: inovação do feedback da IA
Idéias semelhantes 2. Descobrindo comportamentos de modelo de linguagem com avaliações escradas por modelo
Aplicação: [OpenAI] resumindo recursivamente os livros com feedback humano

[Aprendizagem contínua: adicione um Propt para a nova tarefa, e o Propt da tarefa anterior e o grande modelo permanecem inalterados] Pronhos progressivos: aprendizado contínuo para modelos de idiomas sem esquecer

[EMNLP 2022, Atualização contínua do modelo] MEMPROMPT: Edição rápida assistida pela memória com feedback do usuário

【Nova arquitetura neural (folnet), que contém viés de indução lógica de primeira ordem】 Representações de idiomas de aprendizado com viés lógico indutivo

Ganlm: pré-treinamento do codificador com um discriminador auxiliar

Model Modelo de idioma pré-treinamento com base em modelos de espaço de estado, excedendo Bert】 Pré-tremendo sem atenção

[Considere o feedback humano durante o pré-treinamento] Modelos de idiomas pré-treinamento com preferências humanas

[Modelo de lhama de código aberto da Meta, 7B-65B, treina mais modelos pequenos rotulados do que o normal, alcançando o desempenho ideal sob vários orçamentos de inferência] Llama: modelos de linguagem de fundação abertos e eficientes

[Ensinar grandes modelos de idiomas a se auto-restabelecer e explicar o código gerado através de um pequeno número de exemplos, mas eles foram usados assim agora] Ensinando grandes modelos de idiomas a se auto-debugar

Uma série de trabalhos e ferramentas publicadas sobre a capacidade de autocorreção de grandes modelos de idiomas, babyagi, auto-GPT
Idéias semelhantes: 0. [O modelo registra e reflete sobre os erros que você cometeu] Reflexão: um agente autônomo com memória dinâmica e auto-reflexão
Idéias semelhantes: 1. [Os modelos iteram através da comunicação e da correção iterativa da saída um do outro] Dera: aprimorando grandes conclusão de modelos de linguagem com agentes de resolução habilitados para diálogo

Quão longe os camelos podem ir? Explorando o estado de instrução em recursos abertos

Lima: menos é mais para o alinhamento

【Árvore da pensamento, cada vez mais como o AlphaGo】 Solução de problemas deliberados com grandes modelos de linguagem

Aplicativos e LLM+

【O método de raciocínio em várias etapas para aplicar a ICL é muito inspirador】 React: sinergizando raciocínio e atuação em modelos de linguagem

【Usar LLM sozinho não é suficiente para criar um aplicativo verdadeiramente poderoso, e o poder real aparecerá quando o LLM for combinado com outras fontes de computação ou conhecimento]
【Ferramentas】 Langchain - Construindo aplicações com LLMs através da composibilidade
【Pesquisa】 Modelos de idiomas aumentados: uma pesquisa
Ferramentas de ferramentas
Idéias semelhantes 0. Talm: modelos de linguagem aumentada de ferramentas
Idéias semelhantes 1.
Pensamentos semelhantes 2. Lambada: encadeamento para trás para raciocínio automatizado em linguagem natural
Idéias semelhantes 3. [Selecionar e raciocinar] Inferência de seleção: Explorando grandes modelos de linguagem para raciocínio lógico interpretável
Idéias semelhantes 4. Modelos de idiomas como modelos de agentes
Pensamentos semelhantes 5. O impulsionamento é a programação: uma linguagem de consulta para grandes modelos de linguagem
Idéias semelhantes 6. 【Neurips 22 '】 Modelo de linguagem Cascades
Idéias semelhantes 7. Art: Raciocínio automático de várias etapas e uso de ferramentas para modelos de idiomas grandes
Agentes generativos: simulacra interativo do comportamento humano

【O COT gera diretamente o código do programa e, em seguida, permite que o Execute do Intretador Python】 Programa de Pensamentos de Pontuação: Defentrangendo o Computação do Raciocínio para Tarefas de Raciocínio Numérico

Artigos relacionados: [EMNLP 22 '] Modelos de idiomas de código são poucos alunos do senso comum
【Heng Ji Group】 Code4Struct: Geração de código para previsão estruturada de poucos tiro da linguagem natural Pal: modelos de idiomas auxiliados pelo programa
【Qing Lyu, Chris Callison-Burch Group】 Raciocínio fiel da cadeia de pensamento

[Big Model gera diretamente o contexto de evidência] gerar em vez de recuperar: modelos de idiomas grandes são geradores de contexto fortes

【Modelo de escrita com 4 operações específicas】 Parer: um modelo de linguagem colaborativa

【Combinando Python, executores SQL e grandes modelos】 Modelos de linguagem de ligação em linguagens simbólicas

[Recuperar o código de geração de documentos] DocPropting: Gerando código recuperando os documentos

[Haverá muitos artigos em aterramento+LLM na próxima série] LLM-Planner: Planejamento fundamentado de poucos tiro para agentes incorporados com grandes modelos de idiomas

Faça o que eu puder, não como eu disse: linguagem de aterramento em possibilidades robóticas
https://say-can.github.io/

【Generação auto -iterativa (verificada usando dados de treinamento Python)】 Modelos de idiomas podem se ensinar a programar melhor

Artigos relacionados: especializar modelos de linguagem menores para raciocínio em várias etapas
Estrela: Raciocínio de bootstrapping com raciocínio, do Neurips 22 (Gere dados COT para o ajuste fino do modelo), causando uma série de artigos de berço que ensinam pequenos modelos.
Idéias semelhantes [destilação de conhecimento] Ensinando pequenos modelos de idiomas à razão e aprendizagem, destilando o contexto
Idéias semelhantes Kaist e Xiang Ren Grupos ([Raciocínio de Cot (Professor)] Pinto: Raciocínio de idiomas fiel usando justificativas geradas, etc.) e modelos de idiomas grandes estão raciocinando professores
ETH [Cot Data Trains Decomposição de problemas e modelos de solução de problemas separadamente] Destilando recursos de raciocínio de várias etapas de modelos de linguagem grandes em modelos menores por meio de decomposições semânticas

【Deixe os modelos pequenos aprenderem habilidades de berço】 Destilação de aprendizado no contexto: transferindo a capacidade de aprendizado de poucas fotos dos modelos de linguagem pré-treinados

【Big Model Ensine Modelo Pequeno Modelo】 Modelos de linguagem grandes são os professores de raciocínio

[O Big Model gera evidências (recitação) e depois realiza pequenas amostras de proposta de livro fechado e resposta] Modelos de linguagem agentada por recitação

[Métodos de linguagem natural de raciocínio indutivo] Modelos de idiomas como raciocínio indutivo

[O GPT-3 é usado para anotação de dados (como classificação emocional)] O GPT-3 é um bom anotador de dados?

【Modelos para aumento de dados com base no treinamento de multitarefa para menos amostra de dados de dados】 knowda: modelo de mistura de conhecimento all-in-one para aumento de dados em PNs de baixo recurso

【Trabalho de planejamento processual, não está interessado no tempo】 Planejamento processual neuro-simbólico com senso de senso comum.

[Objetivo: gerar artigos de fato corretos para consultas, aterrando em grandes corpus da web

【Combinando os resultados do simulador de física externa no contexto】 Olhos da Mente: Raciocínio do Modelo de Linguagem Aumentado através da simulação

[Recupere a tarefa de aprimorar o COT para fazer o conhecimento intensivo] Recuperação de intercalação com o raciocínio da cadeia de pensamentos para perguntas de várias etapas intensivas em conhecimento

【Contraste o conhecimento potencial (binário) no modelo de linguagem de reconhecimento não supervisionado】 Descobrir conhecimento latente em modelos de linguagem sem supervisão

[Grupo Percy Liang, mecanismo de pesquisa confiável, apenas 51,5% das sentenças geradas são totalmente suportadas por citações] Avaliando verificabilidade em mecanismos de pesquisa generativos

Promoção de pontia progressiva melhora o raciocínio em grandes modelos de idiomas

Auto-alinhamento orientado a princípios de modelos de linguagem do zero com supervisão humana mínima

Julgando LLM-AS-A-JUDGE COM MT-BANCE E ARENA DE CHATBOT

Análise de princípios

[Na minha opinião, é um dos artigos mais importantes. Treinamento e a largura e a profundidade dos detalhes da arquitetura, como a largura e a profundidade.

[Um dos outros artigos mais importantes, Chinchilla, em computação limitada, o modelo ideal não é o maior modelo, mas um modelo menor treinado com mais dados (60-70b)] treinamento de modelos de linguagem grande computados e ideais

[Quais metas de arquitetura e otimização ajudam a generalização zero-amostra] Que arquitetura de modelos de idiomas e objetivos pré-treinos funcionam melhor para a generalização zero?

【Grokking “Epifany” Learning Process Memorization-> Formação do circuito-> Limpeza】 Medidas de progresso para grocking via interpretação mecanicista

[Investigar as características do modelo baseado em busca e descobriu que ambos são de raciocínio limitado] pode recuperar os modelos de linguagem agente-agente?

A idéia de pesquisa + LLM é a próxima direção, mas não é a única resposta.
[Análise e pesquisa sobre quando usar conhecimento externo, ou seja, a troca entre conhecimento externo e conhecimento de parâmetros] grandes modelos de linguagem com memória de trabalho controlável
Rethink Search: Fazendo especialistas em domínio de diletentes
Resposta de perguntas atribuídas: Avaliação e modelagem para modelos de linguagem grandes atribuídos

[Estrutura de avaliação de interação de idiomas humano-AI] Avaliando a interação do modelo em linguagem humana

Artigos semelhantes que medem a utilidade humana de justificativas de texto livre em colaboração humana-AI

Que algoritmo de aprendizado é o aprendizado no contexto?

[Use a ICL para aprender a previsão de ação após o aprendizado de reforço, realmente inteligente] Aprendizagem de reformador no contexto com destilação de algoritmo

【Edição de modelos, este é um tópico quente】 Memória de edição em massa em um transformador

[A sensibilidade do modelo ao contexto irrelevante, adicionando informações irrelevantes aos exemplos no prompt e adicionando instruções que ignoram o contexto irrelevante resolvido parcialmente] modelos de linguagem grandes podem ser facilmente distraídos por contexto irrelevante

【O berço zero-shot mostrará preconceitos e toxicidade sob questões sensíveis】 No segundo pensamento, não vamos pensar passo a passo!

【O berço do grande modelo tem recursos de linguagem cruzada】 Modelos de idiomas são motivos multilíngues de cadeia de pensamento

[Quanto menor a confusão de diferentes seqüências rápidas, melhor o desempenho] Promotos desmistificantes nos modelos de idiomas por meio da estimativa de perplexidade

[Tarefa de resolução de implicação binária de modelos grandes, essa sugestão é difícil e não há fenômeno de escala]. Benchmark_tasks/ Impicity)

【Aumentação baseada em complexidade para raciocínio em várias etapas

Objetivo: Melhorar a utilidade do próprio COT está intimamente relacionado à análise do utilitário COT
[Selecione uma única amostra após geração e depois selecione uma combinação] Seleção de explicação usando dados não marcados para aprendizado no contexto
【Cadeia de pensamento automática solicitando grandes modelos de linguagem
[Faça um ajuste secundário à explicação da geração do berço, use um módulo de refinador com parâmetros + otimização de entropia de informação] Regeneração de explicação por meio de gargalos de informações

O que importa na poda estruturada de modelos de linguagem generativa?

[DataSet Ambibench, Ambiguidade de tarefas: o modelo RLHF de escala tem o melhor desempenho em tarefas desambiguações. Ajuste fino é mais útil do que poucos acumulação】 Ambiguidade de tarefas em humanos e modelos de idiomas

【Teste GPT-3, incluindo memória, calibração, preconceito, etc.】 Avanndo o GPT-3 a ser confiável

[Estudo da OSU que parte do COT é eficaz para o desempenho] para entender a solicitação da cadeia de pensamentos: um estudo empírico do que importa

Pensamentos semelhantes1 Explicações complementares para a aprendizagem eficaz no contexto (UT Austin, Xi Ye, Greg Durrett)
Texto e padrões de pensamento2 similares: para uma cadeia de pensamento eficaz, é preciso dois para o tango

[Pesquisa sobre o modelo entre linguagem de avisos discretos] pode ser solicitado a extração de informações discretas generalizar entre os modelos de idiomas?

【A taxa de memória é uma relação linear logarítmica com o tamanho do modelo, o comprimento do prefixo e a taxa de repetição no treinamento】 Quantificando memorização em modelos de linguagem neural

【É muito inspirador, decomponha o problema em sub-perguntas por meio da iteração do GPT e responda】 Medindo e estreitando a lacuna de composicionalidade nos modelos de linguagem

[Se ou quando a pesquisa será eficaz para a leitura em respostas passo a passo, zero amostras e baixos recursos são eficazes] Quando as decomposições ajudam para a leitura de máquinas?
Idéias semelhantes Promoção de menos a mais permite raciocínio complexo em modelos de linguagem grandes
Idéias semelhantes solicitando sucessivas para decompor questões complexas

[Teste análogo do GPT-3 semelhante às questões de inteligência dos funcionários públicos] Raciocínio analógico emergente em grandes modelos de linguagem

Treinamento de texto curto, teste de texto longo, avaliação da adaptabilidade do comprimento da variável do modelo】 Um transformador de comprimento extrapolável

[Quando não confiar em modelos de linguagem: investigando eficácia e limitações de memórias paramétricas e não paramétricas

【ICL é outra forma de atualização de gradiente】 Por que o GPT pode aprender no contexto?

Artigos relacionados: Transformers Learn In-Context by Gradient Descent

GPT-3 é um psicopata? Avaliando grandes modelos de linguagem de uma perspectiva psicológica

[Pesquisa sobre o processo de treinamento do modelo OPT em diferentes tamanhos e descobriu que a confusão é um indicador de trajetórias de treinamento de ICL] de treinamento de modelos de linguagem em escalas

[EMNLP 2022, o corpus inglês puro pré-treinado contém outros idiomas, e os recursos de linguagem cruzada do modelo podem vir de vazamento de dados] A contaminação da linguagem ajuda

[Substituir anteriores semânticos e usar informações no Propt é uma capacidade de surto] Modelos de linguagem maiores fazem aprendizado no contexto de maneira diferente

【EMNLP 2022 Resultados】 Qual modelo de idioma para treinar se você tiver um milhão de horas de GPU?

Melhorias tecnológicas (como tecnologia de geração, engenharia imediata, indicadores, credibilidade etc.)

[Apresentando a tecnologia CFG durante o raciocínio melhora muito a capacidade de conformidade de instruções de modelos pequenos] Fique no tópico com orientação sem classificador

【Treine seu próprio modelo de lhama com o GPT-4 do OpenAI, e só posso dizer que eu admiro você】 Instruções Tuning com GPT-4

Reflexão: um agente autônomo com memória dinâmica e auto-reflexão

【Aprendizado imediato de estilo personalizado, OPT】 Sotts extensíveis para modelos de idiomas

[Acelerando a decodificação de grandes modelos, usando o consenso direto entre modelos pequenos e modelos grandes a serem usados várias vezes por vez, afinal, a entrada será muito lenta se for longa] acelerando o grande modelo de linguagem decodificação com amostragem especializada

[Use o prompt Soft para reduzir o declínio na capacidade da ICL causada por ajuste fino, ajustando o primeiro estágio, ajustando o segundo estágio] Preservando a capacidade de aprendizado no contexto em um modelo de grande idioma.

【Tarefas de análise semântica, métodos de seleção de amostras de ICL, Codex e T5-Large】 Diversidades Diviações Melhoram a generalização da composição do contexto

【Um novo método de otimização para geração de texto】 Modelos de geração de linguagem de adaptação sob distância de variação total

[Estimativa de incerteza da geração condicional, usando agrupamentos semânticos combinados com várias saídas de amostragem para estimar a entropia de aglomerados] incerteza semântica: invariâncias linguísticas para estimativa de incerteza na geração de linguagem natural

Artigos relacionados: 1. Modelos de idiomas (principalmente) sabem o que eles sabem
Artigos relacionados: 2. Ensinar modelos para expressar sua incerteza em palavras
Artigos relacionados: 3. [Como a expressão da linguagem afeta a calibração e a precisão e qual método de expressão é o melhor? 】 Navegando pela área cinzenta: expressões de excesso de confiança e incerteza em modelos de linguagem
Artigos relacionados: 4. Reduzindo a excesso de confiança dos agentes de conversação através da calibração linguística
Metanálise de calibração: a calibração de uma grande mudança de modelo devido ao tamanho do modelo, à arquitetura do modelo, às diferentes instruções, aos diferentes contextos e ao domínio da tarefa?
Qual é o método ideal de calibração para geração de diálogo de domínio aberto? Como melhorar o desempenho da calibração do modelo, ajuste fino, RLHF, ajuste de instrução?
Os grandes modelos são realmente calibrados para entender o problema, em vez de obter uma boa avaliação de credibilidade por meio de viés estatístico? É como os humanos que há enganos, sabendo que você não entende, mas fingindo que você sabe? Como avaliar isso?
Se o grande modelo tiver uma boa calibração, o que podemos fazer a seguir, como podemos aplicá -lo a aplicativos como geração de diálogo?

Ajuste: melhorando as habilidades de aprendizado zero de modelos de linguagem menores

【Muito inspirador, método de geração de texto sob restrições de texto livre】 Geração de texto controlável com restrições de linguagem

[Ao gerar previsões, use a similaridade para selecionar a frase em vez de token softmax] modelagem de linguagem mascarada não paramétrica

[Método da ICL para texto longo] As janelas de contexto paralelo melhoram o aprendizado no contexto de grandes modelos de linguagem

【Amostra de modelo InstructGPT gerando ICL por si só】 Auto-criação de grandes modelos de linguagem para QA de domínio aberto

【Mecanismos de transferência e atenção permitem que a ICL digite mais amostras de anotação】 Condução estruturada: dimensionando o aprendizado no contexto para 1.000 exemplos

Calibração de momento para geração de texto

【Dois métodos de seleção de amostras de ICL, experimentos com base em OPT e GPTJ】 Curadoria de dados cuidadosa estabiliza o aprendizado no contexto

【Análise dos indicadores de avaliação de Mauve (Pillutla et al.)】 Sobre a utilidade de incorporações, aglomerados e cordas para avaliação de geração de texto

Promptgator: Recuperação densa de poucos tiros de 8 exemplos

[Três sapateiros, Zhuge liang] A autoconsistência melhora o raciocínio da cadeia de pensamentos em modelos de linguagem

【Use o conhecimento como uma referência para os parecleds】 Repensando com recuperação: Faithful Language Model Inferência

[Inverter, entrada e etiqueta geram instruções para condições] Adivinhe a instrução!

【Auto-verificação de derivação reversa da LLM】 Modelos de linguagem grandes são motivos com auto-verificação

【Métodos de pesquisa - Cenários de segurança sob o processo de geração de evidências】 FOVATE, atributo e racionalizar: Rumo a IA segura e confiável

[Estimativa de confiança de fragmentos extraídos por informações geradas por texto com base na pesquisa de feixes] Como a pesquisa de feixe melhora a estimativa de confiança no nível da altura na marcação generativa de sequência?

SPT: Ajuste rápido semi-paramétrico para o aprendizado de várias tarefas

【Uma discussão sobre resumo extraído de rótulo de ouro】 resumo de texto com expectativa Oracle

【Método de detecção de ood com base na distância marciana】 Detecção fora da distribuição e geração seletiva para modelos de linguagem condicional

[Módulo de atenção integra o prompt para prever o nível da amostra] Modelo Ensemble em vez de fusão rápida: um método de transferência de conhecimento específico para amostra para um ajuste rápido de poucos anos

【Prompt para várias tarefas por decomposição e destilação em um prompt】 A ajuste imediato de várias tarefas permite o aprendizado de transferência com eficiência de parâmetro

[Os indicadores de avaliação do texto gerado passo a passo podem ser usados como tópico para compartilhar na próxima vez] Roscoe: um conjunto de métricas para marcar raciocínio passo a passo

[A probabilidade de sequência de calibração melhora a geração de linguagem condicional]

【Método de ataque de texto com base na otimização do gradiente】 TEXTGRADOR: Avaliação de robustez em PNL por otimização orientada a gradiente

[Modelagem GMM Limites de classificação de decisão da ICL para calibrar] Calibração prototípica para aprendizado de poucos modelos de linguagem

【Problema de reescrita e método de agregação de ICL baseado em gráfico】 Pergunte-me qualquer coisa: uma estratégia simples para solicitar modelos de linguagem

[Banco de dados para selecionar bons candidatos como ICLs de piscinas de exemplo não anotadas] Anotação seletiva torna os modelos de idiomas melhores alunos de poucos anos

PromptBoosting: Classificação de texto de caixa preta com dez passes para a frente

Ataques de backdoor guiados por atenção contra transformadores

【Máscara de máscara imediata Seleção de etiqueta automática】 Modelos de idiomas pré-treinados podem ser totalmente aprendizes de tiro zero

[Compressa o comprimento do vetor de entrada FID e reordená-lo ao produzir para a classificação de documentos de saída] FID-LIGHT: Geração de texto de recuperação eficiente e eficaz, geração de texto

【Explicação sobre a geração de grandes modelos】 pinto: raciocínio de linguagem fiel usando justificativas geradas por motivos solicitados

【Encontre um subconjunto de impactos pré-treinamento】 Orca: interpretar modelos de idiomas solicitados por meio de localização, apoiando evidências no oceano de dados pré-trepingos

[Projeto imediato, destinado à instrução, gera a primeira etapa e a filtragem de classificação de dois estágios] Modelos de idiomas grandes são engenheiros de prompt em nível humano

Conhecimento desaprendendo para mitigar riscos de privacidade em modelos de idiomas

Editando modelos com aritmética de tarefas

[Não insira instruções e amostras sempre, converta-as em módulos com eficiência de parâmetro,] Dica: Ajuste da instrução HyperNetwork para generalização eficiente de tiro zero

[Método de geração de exibição ICL sem seleção de amostra manual] Z-ICL: Zero Shot In Context Learning with Pseudo-Demonsronstrations

[Instrução e texto de tarefas geram incorporação] Um incorporador, qualquer tarefa: INCLIMENTOS DE TEXTO DE INSTRUÇÃO FINETUNED

【Big Model Ensine

[Problema de inconsistência entre a segmentação de palavras e o destino do modelo de geração de extração de informações] Assuntos de consistência da tokenização para modelos generativos em tarefas extrativas de PNL

Parsel: Uma estrutura de linguagem natural unificada para raciocínio algorítmico

[Seleção de amostras de ICL, seleção de primeira fase e classificação de segunda fase] Aprendizagem no contexto auto-adaptável

[Leitura intensiva, método de seleção não supervisionado por prontidão legível, em direção ao primeiro ajuste de prompt de leitura humana: The Shining é um bom filme de Kubrick, e um bom prompt também

Pesquisa e conjuntos de dados

【Prontoqa DataSet Tests Capacidade de inferência do COT e descobre que a capacidade de planejamento ainda é limitada modelos de idiomas podem (tipo de) motivo: uma análise formal sistemática da cadeia de pensamento

【Conjunto de dados de raciocínio】 wikiwy: respondendo e explicando perguntas de causa e efeito

【Conjunto de dados de raciocínio】 Rua: um raciocínio estruturado e uma explicação de várias tarefas

【Conjunto de dados de raciocínio, comparando o OPT pré-treinamento e ajuste fino, incluindo modelos de ajuste fino da COT】 Alerta: adaptação de modelos de linguagem às tarefas de raciocínio

[Resumo do recente raciocínio da equipe de Zhang Ningyu da Universidade de Zhejiang] Raciocínio com o Modelo de Língua Promoting: Uma Pesquisa

[Resumo da tecnologia e direção de geração de texto da equipe de Xiao Yanghua em Fudan] Aproveitando o conhecimento e o raciocínio para a geração de linguagem natural do tipo humano: uma breve revisão

[Resumo dos recentes artigos de raciocínio, Jie Huang, da UIUC] para o raciocínio em grandes modelos de idiomas: uma pesquisa

【Revisão de tarefas, conjuntos de dados e métodos de raciocínio matemático e DL】 Uma pesquisa de aprendizado profundo para o raciocínio matemático

Uma pesquisa sobre processamento de linguagem natural para programação

DataSet de modelagem de recompensa:

Este conjunto de dados é fornecido por Stiennon et al. Este conjunto de dados possui duas partes: comparação e eixo. Na seção de comparação, foi solicitado ao Annotador Manual que selecione o melhor no resumo dos dois. Na seção do eixo, o anotador manual obtém a qualidade do resumo com base na escala Likert. A parte da comparação possui apenas divisões de treinamento e verificação, enquanto a parte do eixo possui apenas testes e verificação. O resumo usado para treinar modelos de recompensa no artigo vem do conjunto de dados TL; DR. Outros dados de validação e teste são dos conjuntos de dados TL; DR, artigos da CNN e artigos de correio diário. https://huggingface.co/datasets/openai/summarize_from_feedback
Esse conjunto de dados vem de Gangus et al. 3 Um exemplo inclui um par de conversas entre humanos e chatbots. Os humanos preferem uma dessas duas conversas. https://huggingface.co/datasets/anthrópica/hh-rlhf
Este conjunto de dados é de Nakano et al. Cada exemplo no conjunto de dados contém respostas do modelo a um par de perguntas, bem como metadados relacionados. 每个答案都有一个来自人类的偏好分数，可用于确定两个答案中哪个更好。 https://huggingface.co/datasets/openai/webgpt_comparisons
SHP是一个由385K个集体人类对18个不同主题领域的问题/指示的反应的偏好组成的数据集，从烹饪到法律咨询。这些偏好旨在反映一种回答对另一种回答的帮助程度，并打算用于训练RLHF奖励模型和NLG评估模型（例如SteamSHP）。 https://huggingface.co/datasets/stanfordnlp/SHP

Red-teaming数据集，harmless vs. helpful， RLHF +scale更难被攻击（另一个有效的技术是CoT fine-tuning）:

对于什么是成功的攻击，人类之间总体上达成的共识很低。
Meta's Bot Adversarial Dialog dataset https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Anthropic's red-teaming attempts https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/main/red-team-attempts
AI2's RealToxicityPrompts https://huggingface.co/datasets/allenai/real-toxicity-prompts