Com a criação de um campo totalmente novo chamado “IA Generativa”, quer você goste do termo ou não, a pesquisa não diminuiu seu ritmo frenético, especialmente a indústria, que viu seu maior boom na implementação de tecnologias de IA de todos os tempos. A inteligência artificial e a nossa compreensão do cérebro humano e da sua ligação à IA estão em constante evolução, mostrando aplicações promissoras que melhorarão a nossa qualidade de vida num futuro próximo. Ainda assim, devemos ter cuidado com a tecnologia que escolhemos aplicar.
"A ciência não pode nos dizer o que devemos fazer, apenas o que podemos fazer."
-Jean-Paul Sartre, O ser e o nada
Aqui está uma lista com curadoria dos avanços mais recentes em IA e ciência de dados por data de lançamento, com uma explicação clara em vídeo, link para um artigo mais detalhado e código (se aplicável). Aproveite a leitura!
A referência completa de cada artigo está listada no final deste repositório. Marque este repositório para se manter atualizado e fique atento para o próximo ano! ️
Mantenedor: louisfb01, também ativo no YouTube e como Podcaster se quiser ver/ouvir mais sobre IA!
Assine meu boletim informativo - As últimas atualizações em IA são explicadas todas as semanas.
Sinta-se à vontade para me enviar uma mensagem com qualquer artigo interessante que eu possa ter esquecido de adicionar a este repositório.
Marque-me no Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard se você compartilhar a lista! E venha conversar conosco em nossa comunidade Learn AI Together Discord!
? Se você quiser apoiar meu trabalho , você pode patrocinar este repositório ou me apoiar no Patreon.
No ano passado, vimos o surgimento da IA generativa para imagens e texto, mais recentemente com ChatGPT. Agora, na primeira semana de 2023, os pesquisadores já criaram um novo sistema para dados de áudio denominado VALL-E.
VALL-E é capaz de imitar a voz de alguém com apenas uma gravação de 3 segundos com maior similaridade e naturalidade de fala do que nunca. ChatGPT é capaz de imitar um escritor humano; VALL-E faz o mesmo com a voz.
Sabemos que a IA pode gerar imagens; agora, vamos editá-los!
Este novo modelo denominado InstructPix2Pix faz exatamente isso; ele edita uma imagem seguindo uma instrução baseada em texto fornecida pelo usuário. Basta olhar para esses resultados incríveis… e isso não vem da OpenAI ou do Google com um orçamento infinito.
É uma publicação recente de Tim Brooks e colaboradores da Universidade da Califórnia, incluindo o prof. Alexei A. Efros, uma figura conhecida na indústria de visão computacional. Como você pode ver, os resultados são simplesmente incríveis.
Recentemente cobrimos um modelo capaz de imitar a voz de alguém chamado VALL-E. Vamos dar um passo adiante na direção criativa com esta nova IA chamada MusicLM. MusicLM permite gerar música a partir de uma descrição de texto.
Não vamos esperar mais e mergulhar de cabeça nos resultados... o que você ouvirá irá surpreendê-lo!
A Runway criou um sistema chamado GEN-1 que pode gravar um vídeo e aplicar um estilo completamente diferente a ele em segundos. O modelo é um trabalho em andamento e tem falhas, mas ainda faz uma transferência de estilo muito legal de uma imagem ou texto para um vídeo, algo que seria impossível alguns anos ou até meses atrás. Ainda mais legal é como funciona...
PaLM-E, a publicação mais recente do Google, é o que eles chamam de modelo de linguagem multimodal incorporado. O que isto significa? Isso significa que é um modelo que consegue entender vários tipos de dados, como textos e imagens dos modelos ViT e PaLM que mencionamos, e é capaz de transformar esses insights em ações a partir da mão da robótica!
Segmentação - é como o equivalente no mundo fotográfico a brincar de detetive. Esse superpoder permite identificar tudo e qualquer coisa em uma imagem, de objetos a pessoas, com precisão perfeita. É um divisor de águas para todos os tipos de aplicações, como veículos autônomos que precisam saber o que está acontecendo ao seu redor, seja um carro ou um pedestre.
Você também definitivamente já sabe sobre prompts. Mas você já ouviu falar em segmentação prompt? É o garoto mais novo do bairro e é muito legal. Com esse novo truque na manga, você pode fazer com que seu modelo de IA segmente o que quiser – e quero dizer, qualquer coisa! Graças ao incrível novo SAM (Segment Anything Model) do Meta, não há limite para o que você pode fazer.
Se você está curioso para saber como a segmentação prompt e o modelo SAM fazem sua mágica, não vai querer perder meu vídeo. Nele, você aprenderá tudo sobre como essa nova tecnologia incrível está mudando o jogo quando se trata de segmentação de imagens. Então sente-se, relaxe e deixe-me levá-lo em uma jornada ao mundo da segmentação imediata com SAM. Confie em mim, você não vai se arrepender!
Imagine criar imagens impressionantes no Instagram sem sair de casa ou tirar fotos! O novo modelo de IA da NVIDIA, Perfusion, avança na geração de texto para imagem com controle e fidelidade aprimorados para visuais baseados em conceitos.
A perfusão é uma melhoria significativa em relação às técnicas de IA existentes, superando as limitações na geração de imagens que permanecem fiéis ao conteúdo original. Este modelo pode criar com precisão esses “conceitos” em uma variedade de novos cenários.
A Perfusão baseia-se na Difusão Estável com mecanismos adicionais para fixar e gerar vários "conceitos" em novas imagens simultaneamente. Isto resulta num desempenho quantitativo e qualitativo imbatível, abrindo possibilidades interessantes em diversos setores.
? Embora não seja perfeito, o Perfusion é um avanço significativo para modelos de texto para imagem. Os desafios incluem manter a identidade de um objeto e alguma generalização excessiva, além de exigir um pouco de trabalho rápido de engenharia.
O Perfusion da NVIDIA prepara o terreno para um futuro emocionante de imagens geradas por IA adaptadas aos nossos desejos.
Drag Your Gan prioriza o arrastamento preciso de objetos em vez da geração de imagens ou manipulação de texto. A IA adapta realisticamente toda a imagem, modificando a posição, pose, forma, expressões e outros elementos do quadro do objeto.
?? Edite expressões de cães, faça-os sentar, ajuste poses humanas ou até mesmo altere paisagens perfeitamente. Drag Your Gan oferece uma maneira inovadora e interativa de experimentar a edição de imagens.
Como funciona? Drag Your Gan aproveita StyleGAN2, uma arquitetura GAN de última geração da NVIDIA. Ao operar no espaço de recursos (código latente), a IA aprende como editar imagens adequadamente por meio de uma série de etapas e cálculos de perdas.
Mesmo que os resultados sejam fantásticos, como você verá a seguir, é fundamental observar que Drag Your Gan tem algumas limitações, incluindo só poder editar imagens geradas por enquanto. As imagens fazem parte da distribuição. Outras limitações são que a seleção de pontos é baseada nas cores e no contraste dos pixels, portanto você não pode arrastar nada. Se você pegar uma parte de um carro vermelho e movê-la permanecendo no carro vermelho, ele pode não entender que você a move.
Mal posso esperar para experimentar? Os autores mencionam que o código deverá estar disponível em junho. Assista ao vídeo (ou artigo) para saber mais sobre esse novo estilo de manipulação de imagens com DragYourGan!
Confira o podcast What's AI para obter mais conteúdo sobre IA na forma de entrevistas com especialistas na área! Um especialista em IA convidado e eu cobriremos tópicos, subcampos e funções específicas relacionadas à IA para ensinar e compartilhar o conhecimento das pessoas que trabalharam duro para obtê-lo.
Neuralangelo é o mais recente avanço da NVIDIA em IA de imagem para 3D. Esta nova abordagem baseia-se no Instant NeRF, melhorando a qualidade da superfície e fornecendo cenas 3D altamente realistas a partir de imagens simples em apenas alguns segundos.
Neuralangelo pretende superar as limitações de seu antecessor, Instant NeRF, como a falta de estruturas detalhadas e uma aparência um tanto caricatural dos modelos 3D gerados por IA.
O segredo por trás das melhorias do Neuralangelo está em duas diferenças principais: o uso de gradientes numéricos para calcular derivadas de ordem superior e a adoção de uma otimização grosseira para fina nas grades hash que controlam os níveis de detalhe, nas quais nos aprofundamos no vídeo.
Este processo de otimização resulta em uma entrada mais suave para a reconstrução do modelo 3D, permite que mais informações sejam combinadas e cria um equilíbrio perfeito entre consistência e detalhes refinados para um resultado realista.
A qualidade dos modelos 3D do Neuralangelo é verdadeiramente surpreendente, mas a IA enfrenta desafios com cenas altamente reflexivas. No entanto, as suas potenciais aplicações no mundo real são vastas e excitantes!
No episódio desta semana decidi explorar uma nova pesquisa chamada TryOnDiffusion, apresentada na conferência CVPR 2023. Esta abordagem inovadora representa um avanço significativo em experiências realistas de experimentação virtual. Ao treinar modelos de IA para compreender as imagens de entrada, diferenciar as roupas das pessoas e combinar informações de forma inteligente, o TryOnDiffusion produz resultados impressionantes que nos aproximam do objetivo final de uma prova virtual perfeita.
Se você está intrigado com a interseção entre IA e moda, junte-se a nós enquanto desvendamos o funcionamento interno do TryOnDiffusion e seu impacto potencial no futuro das compras online. Quer você seja um entusiasta da IA, um amante da moda ou simplesmente curioso sobre os mais recentes avanços tecnológicos, o vídeo oferece informações valiosas sobre o mundo moderno da experimentação virtual de roupas.
Iremos mergulhar no mundo dos modelos de difusão, UNets e atenção, onde todos esses mecanismos incrivelmente poderosos combinam forças para ajudar o campo da moda e do varejo online. É claro que este trabalho tem limitações, mas (como você verá) os resultados são simplesmente alucinantes e muito promissores.
Vamos falar sobre os modelos de IA que pegam seu rosto e podem transformá-lo em um desenho animado engraçado, editar atributos faciais como mudar a cor do cabelo ou simplesmente aprimorar sua imagem para torná-la mais HD. Se você acompanha meus artigos, sabe que a maioria desses aplicativos depende de um único modelo e suas múltiplas versões chamadas StyleGAN, que já abordei inúmeras vezes. StyleGAN é uma arquitetura baseada em GAN desenvolvida pela NVIDIA que pode pegar uma entrada e transformá-la em outra seguindo um estilo específico no qual foi treinada. Também é de código aberto, o que significa que todos podem usá-lo e desenvolvê-lo, e por que todos os trabalhos de pesquisa o utilizam.
O problema com o StyleGAN é que ele é limitado a faces cortadas e alinhadas em uma resolução de imagem fixa a partir dos dados nos quais foi treinado. O que significa que para imagens do mundo real, você precisa de outras abordagens para encontrar o rosto, recortá-lo e reorientá-lo, e também deve ter a mesma resolução de imagem. Este é um grande problema, pois normalmente você deseja imagens de alta qualidade, mas treinar com elas seria incrivelmente longo.
Então, o que normalmente fazemos é usar a arquitetura StyleGAN para fazer a transferência de estilo de nossa imagem e, em seguida, usar outra rede para aumentar a escala da imagem para uma resolução mais alta. Embora essa abordagem funcione bem, definitivamente não é ideal. Você precisa de dois modelos em vez de um, adicionando mais vieses e erros potenciais, além de precisar treinar ambos e limitar as capacidades de generalização. Felizmente para nós, alguns pesquisadores incríveis estão trabalhando neste problema limitado de imagem de entrada e publicaram recentemente uma nova abordagem no ICCV 2023 chamada StyleGANEX por meio de algumas pequenas mudanças muito inteligentes...
Marque-me no Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard se você compartilhar a lista!
Testemunhámos as capacidades notáveis dos grandes modelos de linguagem (LLMs), mas houve uma lacuna – uma peça que faltava na sua compreensão do mundo que nos rodeia. Eles se destacaram com texto, código e imagens, mas lutaram para realmente se envolver com a nossa realidade. Isto é, até agora. Aqui está um salto inovador no cenário da IA: 3D-LLM.
3D-LLM é um novo modelo que preenche a lacuna entre a linguagem e o reino 3D que habitamos. Embora não cubra todo o nosso mundo, é um avanço monumental na compreensão das dimensões cruciais e do texto que moldam nossas vidas. Como você descobrirá no vídeo, o 3D-LLM não apenas percebe o mundo, mas também interage com ele. Você pode fazer perguntas sobre o meio ambiente, procurar objetos ou navegar pelos espaços e testemunhar seu raciocínio de bom senso – uma reminiscência dos feitos inspiradores que experimentamos com o ChatGPT.
Ainda mais interessante é que os autores aproveitaram a capacidade do ChatGPT para coletar dados por meio de três métodos distintos que você aprenderá, criando um repositório abrangente de tarefas e exemplos para cada cena usada para treinar o modelo...
Este trabalho apresenta uma nova estrutura para orquestrar grandes modelos de linguagem para funcionarem de forma coesa e, ao mesmo tempo, mitigar os riscos de alucinações. Esta abordagem combina o poder dos agentes de IA com a clareza dos procedimentos operacionais padronizados, garantindo que os agentes colaborem de forma eficaz e permaneçam alinhados com os objetivos do utilizador.
Assine meu boletim informativo semanal e fique atualizado com as novas publicações em IA para 2023!
Liu et al. usou o GPT-4 para criar um modelo de visão de linguagem de uso geral chamado LLaVA, o primeiro modelo de uso geral que compreende e segue instruções visuais e baseadas em linguagem. Sim, eles não usaram o GPT-4 como modelo base, mas para treinar seu modelo! Como veremos no vídeo, o GPT-4 foi usado para gerar um conjunto de dados grande e de alta qualidade para treinar um novo modelo que entende imagens. Ah, e obviamente ele não entende apenas imagens, mas também texto (há a multimodalidade), o que significa que pode responder a uma grande variedade de perguntas sobre eles! Saiba mais no artigo completo ou no vídeo...
Vimos tantas abordagens novas para gerar texto e, em seguida, gerar imagens cada vez melhores. Depois, vimos outros trabalhos iniciais incríveis para geração de vídeos e até modelos 3D fora de texto. Imagine a complexidade de tal tarefa quando tudo o que você tem é uma frase e precisa gerar algo que possa se parecer com um objeto do mundo real, com todos os seus detalhes. Bem, aqui está uma novidade que não é apenas um passo inicial; é um grande avanço na geração de modelos 3D a partir apenas do texto: MVDream!
Distil-Whisper é um modelo de transcrição de áudio 6 vezes mais rápido que o modelo Whisper original, 49% menor e mantém 99% de precisão. E a melhor coisa é que é totalmente de código aberto e você pode usá-lo agora mesmo.
Neste vídeo, mergulhamos na Difusão de Vídeo Estável (SVD), explorando como esta tecnologia inovadora da Stability AI está revolucionando a criação de vídeo baseada em IA. Compreenda os princípios básicos dos modelos de difusão e suas aplicações na síntese de texto para vídeo e multivisualização, ideal para entusiastas de IA e mídia digital ansiosos por compreender o futuro da geração de vídeo.
Se você quiser ler mais artigos e ter uma visão mais ampla, aqui está outro ótimo repositório para você cobrindo 2022: 2022: Um ano cheio de artigos incríveis sobre IA - uma revisão e sinta-se à vontade para assinar meu boletim informativo semanal e ficar atualizado -data com novas publicações em IA para 2023!
Marque-me no Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard se você compartilhar a lista!
[1] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J. e He, L., 2023. Modelos de linguagem de codec neural são sintetizadores de texto para fala Zero-Shot, https://arxiv.org/abs/2301.02111
[2] Brooks et al., 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli et al., 2023: MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. e Germanidis, A., 2023. Síntese de vídeo guiada por estrutura e conteúdo com modelos de difusão, https://arxiv.org/abs /2302.03011
[5] Driess, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T . e Huang, W., 2023. Palm-e: Um modelo de linguagem multimodal incorporado, https://arxiv.org/abs/2303.03378
[6] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, AC, Lo, WY e Dollár, P., 2023. Segmente qualquer coisa, https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. e Atzmon, Y., 2023. Edição de classificação um com chave bloqueada para personalização de texto para imagem, https://arxiv.org/abs/2305.01644
[8] Pan, X., Tewari, A., Leimkühler, T., Liu, L., Meka, A. e Theobalt, C., 2023. Arraste seu GAN: Manipulação interativa baseada em pontos no coletor de imagens generativas, https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY e Lin, CH, 2023. Neuralangelo: Reconstrução de superfície neural de alta fidelidade. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões (pp. 8456-8465), https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. e Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A Conto de Duas UNets. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões (pp. 4606-4615), https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. e Loy, CC, 2023. StyleGANEX: Manipulação baseada em StyleGAN além de faces alinhadas cortadas. Pré-impressão do arXiv arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. e Gan, C., 2023. 3d-llm: Injetando o mundo 3D em grandes modelos de linguagem. Pré-impressão do arXiv arXiv:2307.12981.
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C . e Xiao, L., 2023. Metagpt: Metaprogramação para estrutura colaborativa multiagente. Pré-impressão do arXiv arXiv:2308.00352.
[14] Liu, H., Li, C., Wu, Q. e Lee, YJ, 2023. Ajuste de instrução visual. Pré-impressão do arXiv arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. e Yang, X., 2023. Mvdream: Difusão multivisualização para geração 3D. Pré-impressão do arXiv arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. e Rush, AM, 2023. Distil-Whisper: Destilação Robusta de Conhecimento por meio de Pseudo Rotulagem em Grande Escala. Pré-impressão do arXiv arXiv:2311.00430.
[17] Blattmann et al., 2023: Difusão de Vídeo Estável. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf