Download Top 10 Computer Vision Papers 2020 - Download do código-fonte Top 10 Computer Vision Papers 2020

Top 10 Computer Vision Papers 2020

Código-Fonte de IA

1.0.0

Baixar

Os 10 principais artigos sobre visão computacional de 2020

Os 10 principais artigos de visão computacional em 2020 com demonstrações em vídeo, artigos, códigos e referências de artigos.

Mesmo com tudo o que aconteceu no mundo este ano, ainda tivemos a chance de ver muitas pesquisas incríveis surgindo. Principalmente no campo da inteligência artificial e mais precisamente da visão computacional. Além disso, muitos aspectos importantes foram destacados este ano, como os aspectos éticos, preconceitos importantes e muito mais. A inteligência artificial e a nossa compreensão do cérebro humano e da sua ligação à IA estão em constante evolução, mostrando aplicações promissoras num futuro próximo, que irei certamente abordar.

Aqui estão meus 10 artigos de pesquisa mais interessantes do ano em visão computacional, caso você tenha perdido algum deles. Resumindo, é basicamente uma lista com curadoria dos últimos avanços em IA e currículo com uma explicação clara em vídeo, link para um artigo mais aprofundado e código (se aplicável). Aproveite a leitura e me avise se perdi algum artigo importante nos comentários ou entrando em contato diretamente no LinkedIn!

A referência completa de cada artigo está listada no final deste repositório.

Mantenedor - louisfb01

Sinta-se à vontade para me enviar uma mensagem sobre quaisquer artigos excelentes que perdi para adicionar a este repositório em [email protected]

Marque-me no Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard se você compartilhar a lista!

Assista a um retrocesso completo da visão computacional de 2020 em 5 minutos

Se você estiver interessado em pesquisa de IA, aqui está outro ótimo repositório para você:

Uma lista selecionada dos avanços mais recentes em IA por data de lançamento, com uma explicação clara em vídeo, link para um artigo mais detalhado e código.

2020: um ano cheio de artigos incríveis sobre IA – uma revisão

A lista completa

Sea-thru: um método para remover água de imagens subaquáticas [1]
Políticas de circuitos neurais que permitem autonomia auditável [2]
NeRV: Refletância Neural e Campos de Visibilidade para Reiluminação e Síntese de Visualização [3]
YOLOv4: Velocidade ideal e precisão de detecção de objetos [4]
PULSE: Upsampling de fotos auto-supervisionado por meio de exploração espacial latente de modelos generativos [5]
Imagem GPT - Pré-treinamento generativo de pixels [6]
DeepFaceDrawing: geração profunda de imagens faciais a partir de esboços [7]
PIFuHD: função implícita alinhada a pixels multinível para digitalização humana 3D de alta resolução [8]
RAFT: Transformadas de campo recorrentes de todos os pares para fluxo óptico [9]
Aprendendo transformações espaço-temporais conjuntas para pintura de vídeo [10]
Restauração de fotos antigas por meio de tradução de espaço latente profundo [bônus 1]
Uma tela verde é realmente necessária para retratos em tempo real? [Bônus 2]
DeOldify [Bônus 3]
Referências de papel

Sea-thru: um método para remover água de imagens subaquáticas [1]

Você já se perguntou como seria o oceano sem água? Remova esse tom azul esverdeado das fotos subaquáticas e ainda tenha as cores verdadeiras de um recife de coral? Bem, usando visão computacional e algoritmos de aprendizado de máquina, pesquisadores da Universidade de Haifa conseguiram fazer exatamente isso!

Explicação curta do vídeo:

Esta IA remove a água das imagens subaquáticas! - Leitura curta
Sea-thru: um método para remover água de imagens subaquáticas - O artigo
Clique aqui para obter o código Sea Thru - O Código

Políticas de circuitos neurais que permitem autonomia auditável [2]

Pesquisadores do IST Áustria e do MIT treinaram com sucesso um carro autônomo usando um novo sistema de inteligência artificial baseado no cérebro de pequenos animais, como vermes. Eles conseguiram isso com apenas alguns neurônios capazes de controlar o carro autônomo, em comparação com os milhões de neurônios necessários às populares redes neurais profundas, como Inceptions, Resnets ou VGG. A sua rede foi capaz de controlar completamente um carro utilizando apenas 75 000 parâmetros, compostos por 19 neurónios de controlo, em vez de milhões!

Explicação curta do vídeo:

Um novo sistema inteligente inspirado no cérebro dirige um carro usando apenas 19 neurônios de controle! - Leitura curta
Políticas de circuitos neurais que permitem autonomia auditável - The Paper
Clique aqui para o código NCP - O Código

NeRV: Refletância Neural e Campos de Visibilidade para Reiluminação e Síntese de Visualização [3]

Este novo método é capaz de gerar uma cena tridimensional completa e tem a capacidade de decidir a iluminação da cena. Tudo isso com custos de computação muito limitados e resultados surpreendentes em comparação com abordagens anteriores.

Explicação curta do vídeo:

Gere uma cena 3D completa sob condições de iluminação arbitrárias a partir de um conjunto de imagens de entrada - leitura curta
NeRV: Refletância Neural e Campos de Visibilidade para Reiluminação e Síntese de Visualização - O Artigo
Clique aqui para o código NeRV (em breve) - O Código

YOLOv4: Velocidade ideal e precisão de detecção de objetos [4]

Esta 4ª versão foi introduzida recentemente em abril de 2020 por Alexey Bochkovsky et al. no artigo "YOLOv4: Velocidade ideal e precisão de detecção de objetos". O principal objetivo deste algoritmo era criar um detector de objetos super-rápido e com alta qualidade em termos de precisão.

Explicação curta do vídeo:

O algoritmo YOLOv4 | Introdução ao You Only Look Once, Versão 4 | Detecção de objetos em tempo real - leitura curta
YOLOv4: Velocidade e precisão ideais na detecção de objetos - O artigo
Clique aqui para obter o código Yolo v4 - O Código

PULSE: Upsampling de fotos auto-supervisionado por meio de exploração espacial latente de modelos generativos [5]

Este novo algoritmo transforma uma imagem borrada em uma imagem de alta resolução! Ele pode pegar uma imagem 16x16 de resolução super baixa e transformá-la em um rosto humano de alta definição 1080p! Você não acredita em mim? Então você pode fazer como eu e experimentar em menos de um minuto! Mas primeiro, vamos ver como eles fizeram isso.

Explicação curta do vídeo:

Esta IA faz com que rostos desfocados pareçam 60 vezes mais nítidos – leitura curta
PULSE: Upsampling auto-supervisionado de fotos por meio da exploração espacial latente de modelos generativos - O artigo
Clique aqui para o código PULSE - O Código

Imagem GPT - Pré-treinamento generativo de pixels [6]

Uma boa IA, como a usada no Gmail, pode gerar um texto coerente e finalizar sua frase. Este usa os mesmos princípios para completar uma imagem! Tudo feito em um treinamento não supervisionado e sem necessidade de rótulos!

Explicação curta do vídeo:

Esta IA pode gerar a outra metade de uma imagem usando um modelo GPT – leitura curta
Image GPT - Pré-treinamento generativo de pixels - O artigo
Clique aqui para obter o código GPT da imagem OpenAI - O código

DeepFaceDrawing: geração profunda de imagens faciais a partir de esboços [7]

Agora você pode gerar imagens faciais de alta qualidade a partir de esboços ásperos ou até incompletos, sem nenhuma habilidade de desenho, usando esta nova técnica de tradução de imagem para imagem! Se suas habilidades de desenho forem tão ruins quanto as minhas, você poderá até ajustar o quanto os olhos, a boca e o nariz afetarão a imagem final! Vamos ver se realmente funciona e como eles fizeram isso.

Explicação curta do vídeo:

IA gera rostos reais a partir de esboços! - Leitura curta
DeepFaceDrawing: geração profunda de imagens faciais a partir de esboços - The Paper
Clique aqui para o código DeepFaceDrawing - O Código

PIFuHD: função implícita alinhada a pixels multinível para digitalização humana 3D de alta resolução [8]

Esta IA gera reconstruções 3D de pessoas em alta resolução a partir de imagens 2D! Basta uma única imagem sua para gerar um avatar 3D que se pareça com você, mesmo de costas!

Explicação curta do vídeo:

IA gera reconstruções 3D de pessoas em alta resolução a partir de imagens 2D | Introdução ao PIFuHD - leitura curta
PIFuHD: Função implícita alinhada a pixels multinível para digitalização humana 3D de alta resolução - O artigo
Clique aqui para o código PiFuHD - O Código

RAFT: Transformadas de campo recorrentes de todos os pares para fluxo óptico [9]

O prêmio de melhor artigo ECCV 2020 vai para a equipe de Princeton. Eles desenvolveram um novo modelo treinável ponta a ponta para fluxo óptico. Seu método supera a precisão das arquiteturas de última geração em vários conjuntos de dados e é muito mais eficiente. Eles até disponibilizaram o código para todos em seu Github!

Explicação curta do vídeo:

Prêmio ECCV de Melhor Artigo 2020 | Uma nova arquitetura para fluxo óptico – leitura curta
RAFT: Transformadas de campo recorrentes de todos os pares para fluxo óptico - O artigo
Clique aqui para o código RAFT - O Código

Aprendendo transformações espaço-temporais conjuntas para pintura de vídeo [10]

Esta IA pode preencher os pixels ausentes atrás de um objeto em movimento removido e reconstruir todo o vídeo com muito mais precisão e menos desfoque do que as abordagens atuais de última geração!

Explicação curta do vídeo:

Esta IA grava um vídeo e preenche os pixels que faltam atrás de um objeto! - Leitura curta
Aprendendo transformações espaço-temporais conjuntas para pintura de vídeo - O artigo
Clique aqui para este código de pintura de vídeo - O Código

Restauração de fotos antigas por meio de tradução de espaço latente profundo [bônus 1]

Imagine ter fotos antigas, dobradas e até rasgadas de sua avó quando ela tinha 18 anos em alta definição e sem nenhum artefato. Isso é chamado de restauração de fotos antigas e este artigo acaba de abrir um novo caminho para resolver esse problema usando uma abordagem de aprendizado profundo.

Explicação curta do vídeo:

Restauração de fotos antigas usando aprendizado profundo - leitura curta
Restauração de fotos antigas por meio de tradução de espaço latente profundo - The Paper
Clique aqui para obter o código de restauração de fotos antigas - O código

Uma tela verde é realmente necessária para retratos em tempo real? [Bônus 2]

O tapete humano é uma tarefa extremamente interessante onde o objetivo é encontrar qualquer humano em uma imagem e remover o fundo dela. É muito difícil de conseguir pela complexidade da tarefa, ter que encontrar a pessoa ou pessoas com o contorno perfeito. Neste post, reviso as melhores técnicas usadas ao longo dos anos e uma nova abordagem publicada em 29 de novembro de 2020. Muitas técnicas usam algoritmos básicos de visão computacional para realizar esta tarefa, como o algoritmo GrabCut, que é extremamente rápido, mas não muito preciso.

Explicação curta do vídeo:

Remoção de fundo de alta qualidade sem telas verdes - leitura curta
Uma tela verde é realmente necessária para retratos em tempo real? - O papel
Clique aqui para o código MODNet - O Código

DeOldify [Bônus 3]

DeOldify é uma técnica para colorir e restaurar imagens antigas em preto e branco ou até mesmo filmagens. Ele foi desenvolvido e ainda está sendo atualizado por apenas uma pessoa, Jason Antic. Agora é a forma mais moderna de colorir imagens em preto e branco, e tudo é de código aberto, mas voltaremos a isso em breve.

Explicação curta do vídeo:

Esta IA pode colorir suas fotos em preto e branco com renderizações fotorrealistas completas! (DeOldify) - leitura curta
Clique aqui para o código DeOldify - O Código

Marque-me no Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard se você compartilhar a lista!

Referências de papel

[1] Akkaynak, Derya & Treibitz, Tali. (2019). Sea-Thru: um método para remover água de imagens subaquáticas. 1682-1691. 10.1109/CVPR.2019.00178.

[2] Lechner, M., Hasani, R., Amini, A. et al. Políticas de circuitos neurais que permitem autonomia auditável. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3

[3] PP Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall e JT Barron, "Nerv: refletância neural e campos de visibilidade para reacendimento e síntese de visualização", em arXiv, 2020.

[4] A. Bochkovskiy, C.-Y. Wang e H.-YM Liao, Yolov4: Velocidade ideal e precisão de detecção de objetos, 2020. arXiv:2004.10934 [cs.CV].

[5] S. Menon, A. Damian, S. Hu, N. Ravi e C. Rudin, Pulse: Aumento da resolução de fotos auto-supervisionadas por meio da exploração espacial latente de modelos generativos, 2020. arXiv:2003.03808 [cs.CV].

[6] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan e I. Sutskever, "Pré-treinamento generativo de pixels", em Anais da 37ª Conferência Internacional sobre Aprendizado de Máquina, HD III e A. Singh, Eds., ser. Procedimentos de Pesquisa de Aprendizado de Máquina, vol. 119, Virtual: PMLR, 13–18 de julho de 2020, pp. [On-line].

[7] S.-Y. Chen, W. Su, L. Gao, S. Xia e H. Fu, "DeepFaceDrawing: Geração profunda de imagens faciais a partir de esboços", ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, não. 4, 72:1–72:16, 2020. Disponível:http://proceedings.mlr.press/v119/chen20s.html.

[8] S. Saito, T. Simon, J. Saragih e H. Joo, Pifuhd: Função implícita alinhada a pixels de vários níveis para digitalização humana 3D de alta resolução, 2020. arXiv:2004.00452 [cs.CV].

[9] Z. Teed e J. Deng, Raft: Transformadas de campo recorrentes de todos os pares para fluxo óptico, 2020. arXiv:2003.12039 [cs.CV].

[10] Y. Zeng, J. Fu e H. Chao, Aprendendo transformações espaço-temporais conjuntas para pintura de vídeo, 2020. arXiv:2007.10247 [cs.CV].

[Bônus 1] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao e F. Wen, Restauração de fotos antigas por meio de tradução de espaço latente profundo, 2020. arXiv:2009.07047 [cs. CV].

[Bônus 2] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan e RW Lau, "Uma tela verde é realmente necessária para retratos em tempo real?" ArXiv, vol. abs/2011.11961, 2020.

[Bônus 3] Jason Antic, criador do DeOldify, https://github.com/jantic/DeOldify

Expandir

Informações adicionais