best_AI_papers_2021 Download - best_AI_papers_2021 Download do código -fonte

best_AI_papers_2021

Outro código-fonte

1.0.0

Baixar

2021: Um ano cheio de artigos de IA incríveis- uma revisão?

Uma lista com curadoria dos últimos avanços na IA por data de lançamento com uma explicação clara de vídeo, link para um artigo mais aprofundado e código.

Enquanto o mundo ainda está se recuperando, a pesquisa não diminuiu seu ritmo frenético, especialmente no campo da inteligência artificial. Mais, muitos aspectos importantes foram destacados este ano, como os aspectos éticos, vieses importantes, governança, transparência e muito mais. A inteligência artificial e nossa compreensão do cérebro humano e seu vínculo com a IA estão em constante evolução, mostrando aplicações promissoras melhorando a qualidade de nossa vida em um futuro próximo. Ainda assim, devemos ter cuidado com a tecnologia que escolhemos aplicar.

"A ciência não pode nos dizer o que devemos fazer, apenas o que podemos fazer".
- Jean-Paul Sartre, ser e nada

Aqui estão os trabalhos de pesquisa mais interessantes do ano, caso você tenha perdido qualquer um deles. Em resumo, é uma lista com curadoria dos últimos avanços na IA e na Ciência dos Dados por data de lançamento com uma explicação clara de vídeo, link para um artigo mais aprofundado e código (se aplicável). Aproveite a leitura!

A referência completa a cada artigo está listada no final deste repositório. Estrela este repositório para se manter atualizado! ️

Manter: Louisfb01

Inscreva -se no meu boletim informativo - as atualizações mais recentes da IA explicadas toda semana.

Sinta -se à vontade para me enviar uma mensagem interessante que eu possa ter perdido para adicionar a este repositório.

Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!

Assista a um 2021 completo em 15 minutos

Se você está interessado em pesquisa em visão computacional, aqui está outro ótimo repositório para você:

Uma lista com curadoria das 10 principais publicações de CV em 2021 com uma explicação clara de vídeo, link para um artigo mais aprofundado e código.

Os 10 principais documentos de visão computacional de 2021

? Se você deseja apoiar meu trabalho e usar a W&B (gratuitamente) para rastrear seus experimentos de ML e tornar seu trabalho reproduzível ou colaborar com uma equipe, você pode experimentá -lo seguindo este guia! Como a maior parte do código aqui é baseada em Pytorch, pensamos que um guia do QuickStart para o uso da W&B no Pytorch seria mais interessante de compartilhar.

Siga este guia rápido, use as mesmas linhas W&B em seu código ou qualquer um dos repositórios abaixo e tenha todas as suas experiências rastreadas automaticamente na sua conta W&B! Não leva mais de 5 minutos para se preparar e mudará sua vida como isso para mim! Aqui está um guia mais avançado para usar varreduras de hyperparameter se estiver interessado :)

? Obrigado a Weights & Baryes por patrocinar este repositório e o trabalho que tenho feito, e graças a qualquer um de vocês que use este link e tente W&B!

A lista completa

Dall · E: geração de texto para imagem zero-tiro do OpenAI [1]
Vogue: Try-On by Stylegan Interpolation Optimization [2]
Taming Transformers para síntese de imagem de alta resolução [3]
Pensando rápido e lento na IA [4]
Detecção e quantificação automáticas de macro-lixo marítimo flutuante em imagens aéreas [5]
Sharf: campos de brilho condicionados a forma de uma única visão [6]
Transformadores adversários generativos [7]
Pedimos à inteligência artificial para criar perfis de namoro. Você deslizaria certo? [8]
Transformador Swin: transformador de visão hierárquica usando janelas deslocadas [9]
Os Gans de imagem atendem à renderização diferenciável para gráficos inversos e renderização neural 3D interpretável [10]
Nets profundos: O que eles já fizeram para a visão? [11]
Natureza Infinita: Vista Perpétua Geração de Cenas Naturais de uma única imagem [12]
Mão neuroprotética portátil e independente com controle de dedos baseado em aprendizado profundo [13]
Relualização total: Aprendendo a Relight Retratos para substituição de fundo [14]
LASR: Aprendendo a reconstrução de formas articuladas de um vídeo monocular [15]
Melhorando o aprimoramento do fotorrealismo [16]
Destaque: um detector de DeepFake de alto desempenho de alto desempenho [17]
Tradução de imagem fotorrealista de alta resolução em tempo real: uma rede de tradução de pirâmide Laplaciana [18]
Barbershop: composição de imagem baseada em GaN usando máscaras de segmentação [19]
TextStylebrush: transferência de estética de texto de um único exemplo [20]
Animando fotos com campos de movimento euleriano [21]
CVPR 2021 Best Paper Award: Giraffe - Geração controlável de imagem [22]
Github Copilot & Codex: Avaliando grandes modelos de linguagem treinados no código [23]
Apple: reconhecendo as pessoas em fotos através do aprendizado de máquina privado no dispositivo [24]
Síntese de imagem e edição com equações diferenciais estocásticas [25]
Esboce seu próprio gan [26]
O piloto automático de Tesla explicou [27]
StyleClip: Manipulação orientada por texto de imagens de estilo de estilo [28]
Timelens: interpolação de quadros de vídeo baseada em eventos [29]
Geração diversificada de um único vídeo tornado possível [30]
Precipitação hábil agora usando modelos generativos profundos de radar [31]
O problema do garfo de coquetéis: separação de áudio de três hastes para trilhas sonoras do mundo real [32]
Adote: Aproxima a renderização diferenciável de ponto de pixel [33]
(Estilo) Clipdraw: conteúdo e estilo de acoplamento na síntese de texto para desenho [34]
Swinir: Restauração da imagem usando o transformador SWIN [35]
Editgan: Edição de imagem semântica de alta precisão [36]
Citynerf: Construindo Nerf na City Scale [37]
CLIPCAP: Prefixo de clipe para legenda de imagem [38]
Referências de papel

Dall · E: geração de texto para imagem zero-tiro do OpenAI [1]

O OpenAI treinou com sucesso uma rede capaz de gerar imagens a partir de legendas de texto. É muito parecido com o GPT-3 e o Image GPT e produz resultados surpreendentes.

Explicação de vídeo curto:
Leia curta: Dall · E: geração de texto para imagem explicada
Papel: geração de texto para imagem zero-tiro
Código: Código e mais informações para o VAE discreto usado para Dall · e

Vogue: Try-On by Stylegan Interpolation Optimization [2]

O Google usou uma arquitetura modificada Stylegan2 para criar uma sala de encaixe on-line, onde você pode experimentar automaticamente as calças ou camisas que deseja usar apenas uma imagem sua.

Explicação de vídeo curto:
Leia curta: a sala de encaixe online movida a IA: Vogue
Papel: Vogue: Try-On by Stylegan Interpolation Optimization

Taming Transformers para síntese de imagem de alta resolução [3]

TL; DR: Eles combinaram a eficiência de Gans e abordagens convolucionais com a expressividade dos transformadores para produzir um método poderoso e eficiente em termos de tempo para a síntese de imagem de alta qualidade guiada semanticamente.

Explicação de vídeo curto:
Leia curta: combinando a expressividade dos transformadores com a eficiência da CNN para síntese de imagem de alta resolução
Papel: Taming Transformers para síntese de imagem de alta resolução
Código: Toming Transformers

Pensando rápido e lento na IA [4]

Inspirando -se nas capacidades humanas em direção a uma IA e 10 perguntas mais gerais e confiáveis para a comunidade de pesquisa de IA.

Explicação de vídeo curto:
Leia curta: Terceira onda de IA | Pensando rápido e lento
Papel: Pensando rápido e lento na IA

Detecção e quantificação automáticas de macro-lixo marítimo flutuante em imagens aéreas [5]

Odei Garcia-Garin et al. Da Universidade de Barcelona, desenvolveram um algoritmo profundo baseado em aprendizado, capaz de detectar e quantificar lixo flutuante a partir de imagens aéreas. Eles também fizeram um aplicativo orientado para a Web, permitindo que os usuários identificassem essas roupas, chamadas macro-lixo marítimo flutuantes, ou FMML, dentro de imagens da superfície do mar.

Explicação de vídeo curto:
Leia curta: um software de IA capaz de detectar e contar resíduos de plástico no oceano
Artigo: Detecção e quantificação automáticas da macro-lixo flutuante em imagens aéreas: Introdução de uma nova abordagem de aprendizado profundo conectado a um aplicativo da Web em R, Poluição Ambiental
Clique aqui para o código

Sharf: campos de brilho condicionados a forma de uma única visão [6]

Imagine como seria legal tirar a foto de um objeto e tê -lo em 3D para inserir no filme ou videogame que você está criando ou em uma cena 3D para uma ilustração.

Explicação de vídeo curto:
Leia curta: sharf: tire uma foto de um objeto da vida real e crie um modelo 3D
Papel: Sharf: campos de brilho condicionados a forma de uma única visão
Clique aqui para o código

Transformadores adversários generativos [7]

Eles basicamente aproveitam o mecanismo de atenção dos transformadores na poderosa arquitetura Stylegan2 para torná -la ainda mais poderosa!

Explicação de vídeo curto:
Leia curta: Gansformers: Geração de cenas com transformadores adversários generativos
Papel: Transformadores adversários generativos
Clique aqui para o código

Inscreva-se no meu boletim semanal e mantenha-se atualizado com novas publicações na IA para 2022!

Pedimos à inteligência artificial para criar perfis de namoro. Você deslizaria certo? [8]

Você deslizaria para a direita em um perfil de IA? Você pode distinguir um humano real de uma máquina? É isso que este estudo revela o uso de pessoas criadas pela IA em aplicativos de namoro.

Explicação de vídeo curto:
Leia curta: você deslizaria para o perfil de IA?
Papel: Pedimos à inteligência artificial para criar perfis de namoro. Você deslizaria certo?
Clique aqui para o código

Transformador Swin: transformador de visão hierárquica usando janelas deslocadas [9]

Os transformadores substituirão os CNNs na visão computacional? Em menos de 5 minutos, você saberá como a arquitetura do transformador pode ser aplicada à visão computacional com um novo artigo chamado Swin Transformer.

Explicação de vídeo curto:
Leia curta: Os transformadores substituirão os CNNs na visão computacional?
Papel: Transformador Swin: Transformador de visão hierárquica usando janelas deslocadas
Clique aqui para o código

Os Gans de imagem atendem à renderização diferenciável para gráficos inversos e renderização neural 3D interpretável [10]

Esse modelo promissor chamado Ganverse3D precisa apenas de uma imagem para criar uma figura 3D que possa ser personalizada e animada!

Explicação de vídeo curto:
Leia curta: Crie modelos 3D a partir de imagens! Ganverse3d e Nvidia Omniverse
Artigo: Gans de imagem atendem à renderização diferenciável para gráficos inversos e renderização neural 3D interpretável

Nets profundos: O que eles já fizeram para a visão? [11]

"Compartilharei abertamente tudo sobre redes profundas para aplicações de visão, seus sucessos e as limitações que temos que abordar".

Explicação de vídeo curto:
Leia curta: Qual é o estado da IA na visão computacional?
Papel: Redes profundas: O que eles já fizeram para a visão?

Natureza Infinita: Vista Perpétua Geração de Cenas Naturais de uma única imagem [12]

O próximo passo para a síntese de visualização: geração perpétua de visão, onde o objetivo é tirar uma imagem para voar nela e explorar a paisagem!

Explicação de vídeo curto:
Leia curta: Natureza Infinita: Voe para uma imagem e explore a paisagem
Artigo: Natureza Infinita: Vista perpétua Geração de cenas naturais de uma única imagem
Clique aqui para o código
Demoção colab

Mão neuroprotética portátil e independente com controle de dedos baseado em aprendizado profundo [13]

Com esta interface nervosa movida a IA, o amputado pode controlar uma mão neuroprotética com destreza e intuitividade parecidas com o tipo real.

Explicação de vídeo curto:
Leia curta: Um amputado com uma mão movida a IA! ?
Papel: Mão neuroprotética portátil e independente com controle de dedos baseados em aprendizado profundo

Relualização total: Aprendendo a Relight Retratos para substituição de fundo [14]

Recuse corretamente qualquer retrato com base na iluminação do novo fundo que você adicionar. Você já quis mudar o pano de fundo de uma foto, mas parece realista? Se você já tentou isso, já sabe que não é simples. Você não pode simplesmente tirar uma foto sua em sua casa e mudar o plano de fundo para uma praia. Parece ruim e não é realista. Qualquer pessoa apenas dirá "isso é photoshopado" em um segundo. Para filmes e vídeos profissionais, você precisa da iluminação e dos artistas perfeitos para reproduzir uma imagem de alta qualidade, e isso é super caro. Não há como você fazer isso com suas próprias fotos. Ou você pode?

Explicação de vídeo curto:
Leia curta: iluminação realista em diferentes origens
Papel: Relações Total: Aprender a Religir Retratos para Substituição de Bandenchas

LASR: Aprendendo a reconstrução de formas articuladas de um vídeo monocular [15]

Gere modelos 3D de humanos ou animais que se deslocam apenas de um pequeno vídeo como entrada. Este é um novo método para gerar modelos 3D de seres humanos ou animais que se deslocam apenas de um pequeno vídeo como entrada. De fato, ele realmente entende que essa é uma forma estranha, que pode se mover, mas ainda precisa permanecer apegado, pois este ainda é um "objeto" e não apenas muitos objetos juntos ...

Explicação de vídeo curto:
Leia curta: Reconstrução 3D articulada de vídeos
Papel: LASR: Aprendendo a reconstrução de formas articuladas de um vídeo monocular
Clique aqui para o código

Melhorando o aprimoramento do fotorrealismo [16]

Esta IA pode ser aplicada ao vivo ao videogame e transformar cada quadro para parecer muito mais natural. Os pesquisadores da Intel Labs acabaram de publicar este artigo chamado aprimoramento do aprimoramento do fotorrealismo. E se você acha que isso pode ser "apenas mais um GaN", tirando uma foto do videogame como uma entrada e mudando -o após o estilo do mundo natural, deixe -me mudar de idéia. Eles trabalharam nesse modelo por dois anos para torná -lo extremamente robusto. Ele pode ser aplicado ao vivo ao videogame e transformar todos os quadros para parecer muito mais naturais. Imagine as possibilidades em que você pode se esforçar muito menos no gráfico do jogo, torná -lo super estável e completo e depois melhorar o estilo usando este modelo ...

Explicação de vídeo curto:
Leia curta: ai é o futuro do design de videogame? Melhorando o aprimoramento do fotorrealismo
Papel: Aprimorando o aprimoramento do fotorrealismo
Clique aqui para o código

Destaque: um detector de DeepFake de alto desempenho de alto desempenho [17]

Como identificar uma falsa profunda em 2021. A tecnologia do Exército dos EUA, usando inteligência artificial, para encontrar deepfakes.

Enquanto parecem que sempre estiveram lá, o primeiro Deepfake realista não apareceu até 2017. Ele passou da primeira semelhança de imagens falsas geradas automaticamente para a cópia idêntica de alguém de alguém em vídeos, com som.

A realidade é que não podemos mais ver a diferença entre um vídeo ou imagem real e um Deepfake. Como podemos dizer o que é real do que não é? Como os arquivos de áudio ou os arquivos de vídeo podem ser usados no tribunal como prova se uma IA puder gerá -los completamente? Bem, este novo artigo pode fornecer respostas a essas perguntas. E a resposta aqui pode ser novamente o uso da inteligência artificial. O ditado "eu vou acreditar quando o verei" pode mudar em breve para "Eu acreditarei quando a IA me disser para acreditar ..."

Explicação de vídeo curto:
Leia curta: Como identificar uma falsa profunda. Avanço da tecnologia do Exército dos EUA (2021)
Papel: DeFakehop: um detector de DeepFake de alto desempenho de alto desempenho

Tradução de imagem fotorrealista de alta resolução em tempo real: uma rede de tradução de pirâmide Laplaciana [18]

Aplique qualquer estilo à sua imagem 4K em tempo real usando esta nova abordagem baseada em aprendizado de máquina!

Explicação de vídeo curto:
Leia curta: Tradução de imagem fotorrealista de alta resolução em tempo real
Papel: Tradução de imagem fotorrealista de alta resolução em tempo real: uma rede de tradução de pirâmide de Laplacia
Clique aqui para o código

Barbershop: composição de imagem baseada em GaN usando máscaras de segmentação [19]

Este artigo não é sobre uma nova tecnologia em si. Em vez disso, trata -se de uma aplicação nova e emocionante de Gans. De fato, você viu o título, e não foi o clickbait. Esta IA pode transferir seu cabelo para ver como seria antes de se comprometer com a mudança ...

Explicação de vídeo curto:
Leia curta: Barbershop: Experimente diferentes penteados e cores de cabelo de fotos (Gans)
Papel: Barbershop: Composição de imagem baseada em GaN usando máscaras de segmentação
Clique aqui para o código

TextStylebrush: transferência de estética de texto de um único exemplo [20]

Este novo modelo da IA do Facebook pode traduzir ou editar texto diretamente na imagem em seu próprio idioma, seguindo o mesmo estilo!

Imagine que você está de férias em outro país onde não fala o idioma. Você quer experimentar um restaurante local, mas o menu deles está no idioma que você não fala. Eu acho que isso não será muito difícil de imaginar, pois a maioria de nós já enfrentou essa situação, se você vê itens ou instruções de menu e não consegue entender o que está escrito. Bem, em 2020, você pegava seu telefone e o Google traduzia o que vê. Em 2021, você nem precisa mais abrir o Google Translate e tentar escrever o que vê um por um para traduzi -lo. Em vez disso, você pode simplesmente usar esse novo modelo pelo Facebook AI para traduzir todos os textos da imagem em seu próprio idioma ...

Explicação de vídeo curto:
Leia curta: Traduza ou edite o texto de imagens que imitam o estilo: textStylebrush
Papel: textstylebrush: transferência de estética de texto de um único exemplo
Clique aqui para o código

Se você também quiser ler mais trabalhos de pesquisa, recomendo que você leia meu artigo, onde compartilho minhas melhores dicas para encontrar e ler mais trabalhos de pesquisa.

Animando fotos com campos de movimento euleriano [21]

Este modelo tira uma foto, entende quais partículas devem estar se movendo e as anima realisticamente em um loop infinito enquanto conservava o restante da foto ainda criando vídeos de aparência incrível como este ...

Explicação de vídeo curto:
Leia curta: Crie vídeos realistas de loop de animação a partir de fotos
Papel: Animando fotos com campos de movimento euleriano
Clique aqui para o código

CVPR 2021 Best Paper Award: Giraffe - Geração controlável de imagem [22]

Usando uma arquitetura GAN modificada, eles podem mover objetos na imagem sem afetar o plano de fundo ou os outros objetos!

Explicação de vídeo curto:
Leia curta: CVPR 2021 Best Paper Award: Giraffe - Geração de imagem controlável
Papel: Giraffe: Representando cenas como campos de recursos neurais generativos composicionais
Clique aqui para o código

Github Copilot & Codex: Avaliando grandes modelos de linguagem treinados no código [23]

Descubra como esse novo modelo do OpenAI gera código das palavras!

Explicação de vídeo curto:
Leia curta: Novo gerador de código do OpenAI: Github Copilot (e Codex)
Artigo: Avaliando grandes modelos de linguagem treinados no código
Clique aqui para o código

Apple: reconhecendo as pessoas em fotos através do aprendizado de máquina privado no dispositivo [24]

Usando vários algoritmos baseados em aprendizado de máquina em particular no seu dispositivo, a Apple permite que você selecione com precisão e organize suas imagens e vídeos no iOS 15.

Explicação de vídeo curto:
Leia curta: Como a Apple Fotos reconhece pessoas em fotos particulares usando o aprendizado de máquina
Papel: Reconhecendo as pessoas em fotos através de aprendizado de máquina privado no dispositivo

Síntese de imagem e edição com equações diferenciais estocásticas [25]

Diga adeus às arquiteturas complexas de GaN e transformadores para geração de imagens! Este novo método de Chenling Meng et al. Da Universidade de Stanford e da Universidade Carnegie Mellon, podem gerar novas imagens a partir de quaisquer entradas baseadas em usuários. Até pessoas como eu com zero habilidades artísticas agora podem gerar belas imagens ou modificações a partir de esboços rápidos ...

Explicação de vídeo curto:
Leia curta: Síntese de imagem e edição de Sketches: SDEDIT. Não é necessário mais treinamento tedioso!
Papel: Síntese de imagem e edição com equações diferenciais estocásticas
Clique aqui para o código
Demoção colab

Esboce seu próprio gan [26]

Torne o treinamento GANS mais fácil para todos, gerando imagens após um esboço! De fato, com esse novo método, você pode controlar as saídas do seu GaN com base no tipo mais simples de conhecimento que você pode fornecer: esboços desenhados à mão.

Explicação de vídeo curto:
Leia curta: Torne o treinamento GANS mais fácil para todos: Gere imagens após um esboço
Papel: Esboce seu próprio gan
Clique aqui para o código

O piloto automático de Tesla explicou [27]

Se você se pergunta como um carro da Tesla pode não apenas ver, mas também navegar pelas estradas com outros veículos, este é o vídeo que você estava esperando. Há alguns dias, foi o primeiro dia de Tesla ai em que Andrej Karpathy, o diretor da IA da Tesla, e outros apresentaram como o piloto automático de Tesla funciona desde a aquisição de imagens através de suas oito câmeras até o processo de navegação nas estradas.

Explicação de vídeo curto:
Leia curta: explicou o piloto automático de Tesla

StyleClip: Manipulação orientada por texto de imagens de estilo de estilo [28]

A IA pode gerar imagens, então, usando muita força cerebral e tentativa e erro, os pesquisadores podem controlar os resultados seguindo estilos específicos. Agora, com este novo modelo, você pode fazer isso usando apenas texto!

Explicação de vídeo curto:
Leia curta: manipular imagens reais com texto - uma IA para artistas criativos! StyleClip explicou
Papel: StyleClip: Manipulação orientada por texto de imagens de estilo de estilo.
Clique aqui para o código
Demoção colab

Timelens: interpolação de quadros de vídeo baseada em eventos [29]

Os timelens podem entender o movimento das partículas entre os quadros de um vídeo para reconstruir o que realmente aconteceu a uma velocidade, mesmo nossos olhos não podem ver. De fato, alcança resultados que nossos telefones inteligentes e nenhum outro modelos poderiam alcançar antes!

Explicação de vídeo curto:
Leia curta: Como fazer vídeos de câmera lenta com AI!
Papel: Timelens: Interpolação de quadros de vídeo baseada em eventos
Clique aqui para o código

Inscreva-se no meu boletim semanal e mantenha-se atualizado com novas publicações na IA para 2022!

Geração diversificada de um único vídeo tornado possível [30]

Você já quis editar um vídeo?

Remova ou adicione alguém, altere o plano de fundo, faça com que dure um pouco mais ou altere a resolução para ajustar uma proporção específica sem comprimir ou esticá -la. Para aqueles que já publicaram campanhas de propaganda, certamente queriam ter variações de seus vídeos para testes de AB e ver o que funciona melhor. Bem, esta nova pesquisa de Niv Haim et al. Pode ajudá -lo a fazer tudo isso em um único vídeo e em HD!

De fato, usando um vídeo simples, você pode executar quaisquer tarefas que acabei de mencionar em segundos ou alguns minutos para vídeos de alta qualidade. Você pode basicamente usá -lo para qualquer aplicativo de manipulação de vídeo ou geração de vídeo que tenha em mente. Até supera os Gans de todas as maneiras e não usa pesquisa sofisticada de aprendizado profundo nem requer um conjunto de dados enorme e impraticável! E o melhor é que essa técnica é escalável para vídeos de alta resolução.

Explicação de vídeo curto:
Leia curta: Gere variações de vídeo - não é necessário conjunto de dados ou aprendizado profundo!
Papel: geração diversificada de um único vídeo tornado possível
Clique aqui para o código

Precipitação hábil agora usando modelos generativos profundos de radar [31]

O DeepMind acaba de lançar um modelo generativo capaz de superar os métodos de nowcasting amplamente usados em 89% das situações por sua precisão e utilidade avaliadas por mais de 50 meteorologistas especialistas! O modelo deles se concentra na previsão de precipitações nas próximas 2 horas e alcança isso surpreendentemente bem. É um modelo generativo, o que significa que ele gerará as previsões em vez de simplesmente prever. Basicamente, são necessários dados de radar do passado para criar dados futuros de radar. Portanto, usando os componentes de tempo e espacial do passado, eles podem gerar como será em um futuro próximo.

Você pode ver isso como o mesmo que os filtros do Snapchat, levando seu rosto e gerando um novo rosto com modificações. Para treinar um modelo tão generativo, você precisa de um monte de dados dos rostos humanos e do tipo de rosto que deseja gerar. Em seguida, usando um modelo muito semelhante treinado por muitas horas, você terá um poderoso modelo generativo. Esse tipo de modelo geralmente usa arquiteturas GANS para fins de treinamento e, em seguida, usa o modelo gerador de forma independente.

Explicação de vídeo curto:
Leia curta: DeepMind usa a IA para prever previsões meteorológicas mais precisas
Papel: precipitação hábil agora usando modelos generativos profundos de radar
Clique aqui para o código

O problema do garfo de coquetéis: separação de áudio de três hastes para trilhas sonoras do mundo real [32]

Você já se sintonizou em um vídeo ou um programa de TV e os atores eram completamente inaudíveis, ou a música era muito alta? Bem, esse problema, também chamado de problema de coquetel, pode nunca mais acontecer. A Mitsubishi e a Universidade de Indiana acabaram de publicar um novo modelo, bem como um novo conjunto de dados abordando essa tarefa de identificar a trilha sonora certa. Por exemplo, se pegarmos o mesmo clipe de áudio, apenas corremos com a música muito alta, você pode simplesmente subir ou descer a faixa de áudio que deseja dar mais importância ao discurso do que a música.

O problema aqui está isolando qualquer fonte de som independente de uma cena acústica complexa, como uma cena de cinema ou um vídeo do YouTube, onde alguns sons não são bem equilibrados. Às vezes, você simplesmente não consegue ouvir alguns atores por causa da música tocando ou explosões ou outros sons ambientais em segundo plano. Bem, se você isolar com sucesso as diferentes categorias em uma trilha sonora, isso significa que você também pode aumentar ou baixar apenas uma delas, como recusar a música um pouco para ouvir todos os outros atores corretamente. É exatamente isso que os pesquisadores alcançaram.

Explicação de vídeo curto:
Leia curta: isolar voz, música e efeitos sonoros com ai
Papel: The Cocktail Fork Problem: Separação de áudio de três hastes para trilhas sonoras do mundo real
Clique aqui para o código

Adote: Aproxima a renderização diferenciável de ponto de pixel [33]

Imagine que você deseja gerar um modelo 3D ou simplesmente um vídeo fluido de um monte de fotos que você tirou. Bem, agora é possível! Não quero dar muito, mas os resultados são simplesmente incríveis e você precisa conferir sozinho!

Explicação de vídeo curto:
Leia curta: AI sintetiza vídeos suaves de algumas imagens!
Artigo: Adote: Aproxima a renderização de ponto de um pixel diferenciável
Clique aqui para o código

(Estilo) Clipdraw: conteúdo e estilo de acoplamento na síntese de texto para desenho [34]

Você já sonhou em tirar o estilo de uma foto, como esse estilo legal de desenho Tiktok à esquerda e aplicá -la a uma nova foto de sua escolha? Bem, eu fiz, e nunca foi tão fácil de fazer. De fato, você pode até conseguir isso apenas a partir de texto e pode experimentá -lo agora com esse novo método e o notebook do Google Colab disponível para todos (consulte referências). Basta tirar uma foto do estilo que você deseja copiar, digite o texto que deseja gerar, e esse algoritmo gerará uma nova foto a partir dele! Basta olhar para os resultados acima, um grande passo à frente! Os resultados são extremamente impressionantes, especialmente se você considerar que eles foram feitos de uma única linha de texto!

Explicação de vídeo curto:
Leia curta: síntese de texto para o desenho com controle artístico | Clipdraw & styleclipdraw
Papel (ClipDraw): Clipdraw: Explorando a síntese de texto para desenhar através de codificadores de imagem de linguagem
Papel (StyleClipDraw): StyleClipDraw: conteúdo e estilo de acoplamento na síntese de texto para desenho
Demoção de clipdraw colab
Demonstração de StyleClipdraw Colab

Swinir: Restauração da imagem usando o transformador SWIN [35]

Você já teve uma imagem de que realmente gostou e só conseguiu encontrar uma pequena versão que parecia com essa imagem abaixo à esquerda? Quão legal seria se você pudesse tirar essa imagem e fazê -la parecer duas vezes tão boa? É ótimo, mas e se você pudesse torná -lo quatro ou oito vezes mais alta definição? Agora estamos falando, basta olhar para isso.

Aqui, aumentamos a resolução da imagem em um fator de quatro, o que significa que temos quatro vezes mais pixels de altura e largura para obter mais detalhes, fazendo com que pareça muito mais suave. A melhor coisa é que isso é feito em alguns segundos, completamente automaticamente, e funciona com praticamente qualquer imagem. Ah, e você pode até usá -lo com uma demonstração que eles disponibilizaram ...

Explicação de vídeo curto:
Leia curta: Swinir: Restauração da imagem usando o transformador Swin
Papel: Swinir: Restauração da imagem usando o transformador SWIN
Clique aqui para o código
Demonstração

Editgan: Edição de imagem semântica de alta precisão [36]

Controle qualquer recurso de rascunhos rápidos e ele apenas editará o que você deseja manter o restante da imagem da mesma forma! Edição de imagem SOTA do modelo Sketches baseado em Gans da Nvidia, MIT e Uoft.

Explicação de vídeo curto:
Leia curta: NVIDIA Editgan: Edição de imagem com controle total de esboços
Papel: Editgan: Edição de imagem semântica de alta precisão
Clique aqui para o código (será lançado em breve)

Citynerf: Construindo Nerf na City Scale [37]

O modelo é chamado Citynerf e cresce de Nerf, que eu já cobri no meu canal. O NERF é um dos primeiros modelos que usam campos de radiação e aprendizado de máquina para construir modelos 3D a partir de imagens. Mas o NERF não é tão eficiente e funciona para uma única escala. Aqui, o Citynerf é aplicado a imagens de satélite e no nível do solo ao mesmo tempo para produzir várias escalas de modelo 3D para qualquer ponto de vista. Em palavras simples, eles trazem Nerf para a escala da cidade. Mas como?

Explicação de vídeo curto:
Leia curta: Citynerf: modelagem 3D em escala da cidade!
Papel: Citynerf: Construindo Nerf na City Scale
Clique aqui para o código (será lançado em breve)

CLIPCAP: Prefixo de clipe para legenda de imagem [38]

Vimos a IA gerar imagens de outras imagens usando Gans. Em seguida, houve modelos capazes de gerar imagens questionáveis usando o texto. No início de 2021, o Dall-E foi publicado, vencendo todas as tentativas anteriores de gerar imagens da entrada de texto usando clipe, um modelo que vincula imagens ao texto como um guia. Uma tarefa muito semelhante chamada Legending de imagem pode parecer realmente simples, mas é, de fato, igualmente complexa. É a capacidade de uma máquina gerar uma descrição natural de uma imagem. É fácil simplesmente marcar os objetos que você vê na imagem, mas é outro desafio entender o que está acontecendo em uma única imagem bidimensional, e esse novo modelo faz isso extremamente bem ...

Explicação de vídeo curto:
Leia curta: Nova Legenda da imagem SOTA: Clipcap
Papel: CLIPCAP: Prefixo de clipe para legenda de imagem
Clique aqui para o código
Clique aqui para a demonstração do Colab

Se você gostaria de ler mais trabalhos e ter uma visão mais ampla, aqui está outro ótimo repositório para você, cobrindo 2020: 2020: um ano cheio de documentos incríveis de IA- uma revisão e fique à vontade para se inscrever na minha newsletter semanal e manter-se atualizado -Date com novas publicações na IA para 2022!

Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!

Referências de papel

[1] A. Ramesh et al., Geração de texto para imagem zero, 2021. Arxiv: 2102.12092

[2] Lewis, Kathleen M et al., (2021), Vogue: Try-On by Stylegan Interpolation Optimization.

[3] Taming Transformers para síntese de imagem de alta resolução, Esser et al., 2020.

[4] Pensando rápido e lento em IA, Booch et al., (2020), https://arxiv.org/abs/2010.06002.

[5] Odei Garcia-Garin et al., Detecção e quantificação automáticas de macro-lixo marinho flutuantes em imagens aéreas: introduzindo uma nova abordagem de aprendizado profundo conectado a um aplicativo da Web em R, Poluição Ambiental, https://doi.org/ 10.1016/j.envpol.2021.116490.

[6] Rematas, K., Martin-Brualla, R. e Ferrari, V., “Sharf: Campos de radiação condicionados a formas de uma única exibição”, (2021), https://arxiv.org/abs/2102.08860

[7] Drew A. Hudson e C. Lawrence Zitnick, Transformadores adversários generativos, (2021)

[8] Sandra Bryant et al., “Pedimos à inteligência artificial para criar perfis de namoro. Você passaria a passar certo? ”, (2021), UNSW Sydney Blog.

[9] Liu, Z. et al., 2021, “Transformador Swin: transformador de visão hierárquica usando janelas deslocadas”, Arxiv Preprint https://arxiv.org/abs/2103.14030v1

[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. e Fidler, S., 2020. Image Gans encontram renderização diferenciável para gráficos inversos e interpretáveis e interpretáveis Renderização neural 3D. Arxiv pré -impressão Arxiv: 2010.09125.

[11] Yuille, AL e Liu, C., 2021. Deep Nets: O que eles já fizeram pela visão?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.

[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452

[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.

[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.

[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.

[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.

[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.

[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.

[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.

[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos

[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.

[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).

[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M

[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249

[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , Assim, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.

[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z

[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.

[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.

[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).

[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.

[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734

Expandir

Informações adicionais