용어가 마음에 들든 싫든 "제너레이티브 AI(Generative AI)"라는 완전히 새로운 분야가 탄생함에 따라 연구는 열광적인 속도를 늦추지 않았으며, 특히 AI 기술 구현에서 가장 큰 호황을 누리고 있는 업계에서는 더욱 그렇습니다. 인공 지능과 인간 두뇌에 대한 우리의 이해, AI와의 연관성은 끊임없이 진화하고 있으며 가까운 미래에 우리 삶의 질을 향상시키는 유망한 응용 프로그램을 보여줍니다. 하지만 우리는 어떤 기술을 적용할지 신중해야 합니다.
"과학은 우리가 무엇을 해야 하는지 말해 줄 수 없고, 오직 우리가 할 수 있는 것만 말해 줄 수 있습니다."
- 장 폴 사르트르, 존재와 무
다음은 명확한 비디오 설명, 보다 심층적인 기사에 대한 링크 및 코드(해당되는 경우)와 함께 출시 날짜별로 AI 및 데이터 과학의 최신 혁신을 선별한 목록입니다. 재미있게 읽어보세요!
각 논문에 대한 전체 참고자료는 이 저장소의 끝에 나열되어 있습니다. 이 저장소에 별표를 표시하여 최신 정보를 유지하고 내년에도 계속 지켜봐 주시기 바랍니다! ️
유지관리자: louisfb01, AI에 대해 더 보고 듣고 싶다면 YouTube 및 팟캐스터로도 활동 중입니다!
내 뉴스레터를 구독하세요 - AI의 최신 업데이트가 매주 설명됩니다.
이 저장소에 추가하지 못한 흥미로운 논문이 있으면 언제든지 메시지를 보내주세요.
목록을 공유하려면 Twitter @Whats_AI 또는 LinkedIn @Louis(What's AI) Bouchard에 저를 태그해 주세요! 그리고 Learn AI Together Discord 커뮤니티에서 우리와 대화를 나누세요!
? 내 작업을 지원하고 싶다면 이 저장소를 후원하거나 Patreon에서 나를 지원할 수 있습니다.
작년에 우리는 가장 최근에는 ChatGPT를 통해 이미지와 텍스트 모두를 위한 생성 AI의 봉기를 보았습니다. 이제 2023년 첫 주 이내에 연구원들은 이미 VALL-E라는 오디오 데이터를 위한 새로운 시스템을 만들었습니다.
VALL-E는 이전보다 더 높은 유사성과 음성 자연스러움으로 단 3초의 녹음만으로 누군가의 목소리를 흉내낼 수 있습니다. ChatGPT는 인간 작가를 모방할 수 있습니다. VALL-E는 음성에도 동일한 작업을 수행합니다.
우리는 AI가 이미지를 생성할 수 있다는 것을 알고 있습니다. 이제 편집해 봅시다!
InstructPix2Pix라는 새로운 모델이 바로 그 일을 해냅니다. 사용자가 제공한 텍스트 기반 지시에 따라 이미지를 편집합니다. 그 놀라운 결과를 보세요… 그리고 그것은 무한한 예산을 가진 OpenAI나 Google에서 나온 것이 아닙니다.
이는 팀 브룩스(Tim Brooks)와 캘리포니아 대학교 교수를 비롯한 공동 연구자들의 최근 간행물입니다. 컴퓨터 비전 업계에서 잘 알려진 인물인 Alexei A. Efros. 보시다시피 결과는 정말 놀랍습니다.
최근에는 VALL-E라는 사람의 목소리를 흉내낼 수 있는 모델을 다루었습니다. MusicLM이라는 새로운 AI를 통해 창의적인 방향으로 한 단계 더 도약해 보세요. MusicLM을 사용하면 텍스트 설명에서 음악을 생성할 수 있습니다.
더 이상 기다리지 말고 바로 결과를 살펴보세요... 여러분이 듣게 될 내용에 깜짝 놀라게 될 것입니다!
Runway는 비디오를 촬영하고 몇 초 만에 완전히 다른 스타일을 적용할 수 있는 GEN-1이라는 시스템을 만들었습니다. 이 모델은 진행 중인 작업이고 결함이 있지만 여전히 이미지나 텍스트 프롬프트에서 비디오로 매우 멋진 스타일을 변환합니다. 이는 몇 년 또는 몇 달 전에는 불가능했던 일입니다. 작동 방식이 더 멋지네요...
Google의 최신 출판물인 PaLM-E는 구체화된 다중 모드 언어 모델이라고 합니다. 이것은 무엇을 의미합니까? 이는 우리가 언급한 ViT 및 PaLM 모델의 텍스트 및 이미지와 같은 다양한 유형의 데이터를 이해할 수 있고 이러한 통찰력을 로봇의 손에서 행동으로 전환할 수 있는 모델이라는 의미입니다!
분할 - 사진 세계에서 탐정 역할을 하는 것과 같습니다. 이 초능력을 사용하면 물체부터 사람까지 이미지에 있는 모든 것을 픽셀 단위의 정밀도로 식별할 수 있습니다. 이는 자동차든 보행자든 주변에서 무슨 일이 일어나고 있는지 알아야 하는 자율주행 자동차와 같은 모든 종류의 애플리케이션에 대한 판도를 바꾸는 획기적인 제품입니다.
당신은 또한 지금쯤 프롬프트에 대해 확실히 알고 있습니다. 하지만 신속한 세분화(Promptable Segmentation)에 대해 들어보셨나요? 이 동네의 막내 아이인데 정말 멋지네요. 이 새로운 기술을 사용하면 AI 모델이 원하는 것을 분할하도록 유도할 수 있습니다. 무엇이든 의미합니다! Meta의 놀라운 새 SAM(Segment Anything Model) 덕분에 수행할 수 있는 작업에는 제한이 없습니다.
신속한 분할과 SAM 모델이 어떻게 마법을 발휘하는지 궁금하시다면 제 영상을 놓치지 마세요. 여기서는 이 놀라운 신기술이 이미지 분할과 관련하여 게임의 판도를 어떻게 변화시키고 있는지에 대해 모두 배우게 됩니다. 그러니 편안히 앉아 휴식을 취하세요. SAM을 통해 신속한 세분화의 세계로 여러분을 안내하겠습니다. 나를 믿으십시오. 후회하지 않을 것입니다!
집을 떠나거나 사진을 찍지 않고도 멋진 Instagram 이미지를 만드는 것을 상상해 보세요! NVIDIA의 새로운 AI 모델인 Perfusion은 개념 기반 비주얼에 대한 향상된 제어력과 충실도를 통해 텍스트-이미지 생성을 향상시킵니다.
Perfusion은 기존 AI 기술에 비해 크게 개선되어 원본 콘텐츠에 충실한 이미지 생성의 한계를 극복했습니다. 이 모델은 다양한 새로운 시나리오에서 이러한 "개념"을 정확하게 생성할 수 있습니다.
Perfusion은 새로운 이미지에 여러 "개념"을 동시에 고정하고 생성하기 위한 추가 메커니즘을 갖춘 Stable Diffusion을 기반으로 합니다. 이는 탁월한 정량적, 질적 성과를 가져오며 다양한 산업 분야에 걸쳐 흥미로운 가능성을 열어줍니다.
? 완벽하지는 않지만 Perfusion은 텍스트-이미지 모델에 있어서 중요한 진전입니다. 과제에는 개체의 정체성을 유지하고 과도한 일반화를 수행하는 것뿐만 아니라 약간의 즉각적인 엔지니어링 작업이 필요한 것도 포함됩니다.
NVIDIA의 Perfusion은 우리가 원하는 대로 맞춤화된 AI 생성 이미지의 흥미진진한 미래를 위한 무대를 마련합니다.
Drag Your Gan은 이미지 생성이나 텍스트 조작보다 정확한 개체 드래그를 우선시합니다. AI는 개체의 위치, 포즈, 모양, 표현 및 기타 프레임 요소를 수정하여 전체 이미지를 사실적으로 조정합니다.
?? 개의 표정을 편집하고, 앉게 만들고, 사람의 자세를 조정하고, 심지어 풍경을 원활하게 변경할 수도 있습니다. Drag Your Gan은 이미지 편집을 실험할 수 있는 혁신적이고 대화형 방법을 제공합니다.
어떻게 작동하나요? Drag Your Gan은 NVIDIA의 최첨단 GAN 아키텍처인 StyleGAN2를 활용합니다. AI는 특징 공간(잠재 코드)에서 작동하여 일련의 단계와 손실 계산을 통해 이미지를 올바르게 편집하는 방법을 학습합니다.
아래에서 볼 수 있듯이 결과는 환상적이지만 Drag Your Gan에는 현재 생성된 이미지만 편집할 수 있는 것을 포함하여 몇 가지 제한 사항이 있다는 점을 기억하는 것이 중요합니다. 이미지는 배포의 일부입니다. 다른 제한 사항은 점 선택이 픽셀 색상과 대비를 기반으로 하므로 실제로 아무것도 끌 수 없다는 것입니다. 빨간 차의 일부를 가져다가 빨간 차 위에 그대로 두고 움직이면, 움직이는 것을 전혀 이해하지 못할 수도 있습니다.
빨리 시험해 보고 싶으신가요? 저자는 코드가 6월에 제공될 것이라고 언급했습니다. DragYourGan을 사용한 새로운 이미지 조작 스타일에 대해 자세히 알아보려면 비디오(또는 기사)를 시청하세요!
AI란 무엇인가 팟캐스트에서 해당 분야 전문가와의 인터뷰 형식으로 더 많은 AI 콘텐츠를 확인해보세요! AI 전문가를 초빙하여 AI와 관련된 구체적인 주제, 하위분야, 역할 등을 다루며, 이를 위해 애쓴 사람들에게 지식을 가르치고 공유할 것입니다.
Neuralangelo는 이미지-3D AI 분야에서 NVIDIA의 최신 혁신입니다. 이 새로운 접근 방식은 Instant NeRF를 기반으로 구축되어 표면 품질을 향상시키고 단 몇 초 만에 단순한 이미지에서 매우 사실적인 3D 장면을 제공합니다.
Neuralangelo는 AI가 생성한 3D 모델의 세부적인 구조가 부족하고 다소 만화적인 모습과 같은 이전 제품인 Instant NeRF의 한계를 극복하는 것을 목표로 합니다.
Neuralangelo의 개선 뒤에 숨어 있는 비밀은 두 가지 주요 차이점에 있습니다. 즉, 고차 도함수를 계산하기 위해 수치적 기울기를 사용하는 것과 세부 수준을 제어하는 해시 그리드에 대대적인 최적화를 채택하는 것입니다. 이에 대해서는 비디오에서 자세히 살펴보겠습니다.
이 최적화 프로세스를 통해 3D 모델 재구성을 위한 입력이 더 원활해지고, 더 많은 정보가 혼합될 수 있으며, 현실적인 결과를 위해 일관성과 세밀한 세부 사항 간의 완벽한 균형이 만들어집니다.
Neuralangelo의 3D 모델 품질은 정말 놀랍지만 AI는 반사율이 높은 장면에서 어려움을 겪습니다. 그럼에도 불구하고 잠재적인 실제 응용 프로그램은 방대하고 흥미진진합니다!
이번 주 에피소드에서는 CVPR 2023 컨퍼런스에서 발표된 TryOnDiffusion이라는 새로운 연구를 살펴보기로 결정했습니다. 이 혁신적인 접근 방식은 사실적인 가상 체험 경험에 있어 중요한 도약을 의미합니다. TryOnDiffusion은 입력 이미지를 이해하고, 옷을 사람과 구별하고, 정보를 지능적으로 결합하도록 AI 모델을 훈련함으로써 완벽한 가상 입어보기라는 궁극적인 목표에 더 가까워지는 인상적인 결과를 생성합니다.
AI와 패션의 교차점에 관심이 있으시다면 TryOnDiffusion의 내부 작동 방식과 이것이 온라인 쇼핑의 미래에 미칠 잠재적인 영향을 밝히는 데 참여해 보세요. AI 열성팬이든, 패션 애호가이든, 아니면 단순히 최신 기술 발전에 관심이 있는 사람이든 관계없이 이 비디오는 가상 의류 체험의 최첨단 세계에 대한 귀중한 통찰력을 제공합니다.
우리는 믿을 수 없을 만큼 강력한 모든 메커니즘이 힘을 결합하여 패션 및 온라인 소매 분야를 지원하는 확산 모델, UNet 및 관심의 세계로 뛰어들 것입니다. 물론 이 작업에는 한계가 있지만 (아시겠지만) 결과는 정말 놀랍고 매우 유망합니다.
당신의 얼굴을 가져와 재미있는 만화로 변환하거나, 머리 색깔 변경과 같은 얼굴 속성을 편집하거나, 이미지를 확대하여 HD로 만들 수 있는 AI 모델에 대해 이야기해 보겠습니다. 내 기사를 따라오셨다면 대부분의 애플리케이션이 단일 모델과 StyleGAN이라는 여러 버전에 의존한다는 사실을 아실 것입니다. 이에 대해서는 이미 여러 번 다루었습니다. StyleGAN은 NVIDIA가 개발한 GAN 기반 아키텍처로, 입력을 받아 학습된 특정 스타일에 따라 다른 스타일로 변환할 수 있습니다. 또한 오픈 소스이므로 모든 사람이 이를 사용하고 구축할 수 있으며 모든 연구 논문에서 이를 사용하는 이유도 있습니다.
StyleGAN의 문제점은 훈련된 데이터에서 고정된 이미지 해상도로 잘리고 정렬된 얼굴로 제한된다는 것입니다. 즉, 실제 세계의 이미지의 경우 얼굴을 찾고, 잘라내고, 방향을 다시 지정하려면 다른 접근 방식이 필요하며, 이미지 해상도도 동일해야 합니다. 일반적으로 고품질 이미지를 원하지만 이를 사용한 훈련은 엄청나게 길기 때문에 이것은 큰 문제입니다.
그래서 우리가 일반적으로 하는 일은 StyleGAN 아키텍처를 사용하여 이미지의 스타일을 전송한 다음 다른 네트워크를 사용하여 이미지를 더 높은 해상도로 확대하는 것입니다. 이 접근 방식은 잘 작동하지만 확실히 이상적이지는 않습니다. 하나가 아닌 두 개의 모델이 필요하며 더 많은 편향과 잠재적인 오류를 추가하고 두 모델을 모두 훈련해야 하며 일반화 가능성을 제한합니다. 다행스럽게도 일부 놀라운 연구자들이 이 제한된 입력 이미지 문제를 해결하기 위해 노력하고 있으며 최근 ICCV 2023에서 매우 영리한 작은 변경을 통해 StyleGANEX라는 새로운 접근 방식을 발표했습니다.
목록을 공유하려면 Twitter @Whats_AI 또는 LinkedIn @Louis(What's AI) Bouchard에 저를 태그해 주세요!
우리는 LLM(대형 언어 모델)의 놀라운 기능을 목격했지만, 우리 주변 세계에 대한 이해에는 격차가 있었습니다. 즉, 누락된 부분이 있었습니다. 그들은 텍스트, 코드, 이미지에 있어서 탁월한 능력을 발휘했지만 현실에 진정으로 참여하기 위해 애썼습니다. 즉, 지금까지입니다. AI 환경의 획기적인 도약은 바로 3D-LLM입니다.
3D-LLM은 언어와 우리가 살고 있는 3D 영역 사이의 격차를 해소하는 새로운 모델입니다. 우리 세계 전체를 포괄하지는 않지만, 우리 삶을 형성하는 중요한 차원과 텍스트를 이해하는 데 있어 기념비적인 진전입니다. 영상에서 확인하실 수 있듯이 3D-LLM은 세상을 인식할 뿐만 아니라 세상과 상호작용합니다. 환경에 대해 질문하고, 물체를 찾고, 공간을 탐색하고, 상식적인 추론을 목격할 수 있습니다. 이는 우리가 ChatGPT에서 경험한 놀라운 업적을 연상시킵니다.
더욱 흥미롭게도 저자는 ChatGPT의 능력을 활용하여 여러분이 배우게 될 세 가지 별개의 방법을 통해 데이터를 수집하고 모델을 훈련하는 데 사용되는 각 장면에 대한 작업과 예제의 포괄적인 저장소를 만들었습니다.
이 작업은 환각의 위험을 완화하면서 응집력 있게 작동하도록 대규모 언어 모델을 조정하기 위한 새로운 프레임워크를 소개합니다. 이 접근 방식은 AI 에이전트의 성능과 표준화된 운영 절차의 명확성을 결합하여 에이전트가 효과적으로 협업하고 사용자 목표에 부합하도록 보장합니다.
주간 뉴스레터를 구독하고 2023년 AI 관련 새로운 간행물에 대한 최신 정보를 받아보세요!
Liu et al. GPT-4를 사용하여 시각적 및 언어 기반 지침을 이해하고 따르는 최초의 범용 모델인 LLaVA라는 범용 언어 비전 모델을 만들었습니다. 예, 그들은 GPT-4를 기본 모델로 사용하지 않고 모델을 훈련하기 위해 사용했습니다! 영상에서 볼 수 있듯이 GPT-4는 이미지를 이해하는 새로운 모델을 훈련하기 위해 대규모의 고품질 데이터 세트를 생성하는 데 사용되었습니다. 아, 그리고 분명히 이미지뿐만 아니라 텍스트(다중 양식이 있음)도 이해하므로 텍스트에 대한 다양한 질문에 답할 수 있습니다! 전체 기사나 동영상에서 자세히 알아보세요...
우리는 텍스트를 생성하고 이미지를 생성하는 데 있어 많은 새로운 접근 방식을 보아 왔고 점점 더 좋아지고 있습니다. 그런 다음 텍스트에서 비디오와 3D 모델을 생성하는 다른 놀라운 초기 작업을 보았습니다. 당신이 가진 것이 문장뿐이고 모든 세부 사항을 포함하여 현실 세계의 객체처럼 보일 수 있는 것을 생성해야 할 때 이러한 작업의 복잡성을 상상해 보십시오. 음, 여기에 단순한 초기 단계가 아닌 새로운 단계가 있습니다. 이는 단지 텍스트만으로 3D 모델을 생성하는 데 있어 큰 진전입니다: MVDream!
Distil-Whisper는 원래 Whisper 모델보다 6배 빠르고, 49% 더 작고, 99%의 정확도를 유지하는 오디오 전사 모델입니다. 그리고 가장 좋은 점은 완전히 오픈 소스이므로 지금 바로 사용할 수 있다는 것입니다.
이 비디오에서는 SVD(Stable Video Diffusion)에 대해 자세히 알아보고 Stability AI의 혁신적인 기술이 AI 기반 비디오 제작에 어떻게 혁명을 일으키고 있는지 살펴봅니다. 확산 모델의 핵심 원리와 텍스트-비디오 및 멀티뷰 합성에서의 적용을 이해합니다. 이는 비디오 세대의 미래를 파악하고자 하는 AI 및 디지털 미디어 매니아에게 이상적입니다.
더 많은 논문을 읽고 더 넓은 시야를 갖고 싶다면 2022년을 다루는 또 다른 훌륭한 저장소가 있습니다. 2022: 놀라운 AI 논문으로 가득 찬 한 해 - 검토하시고 제 주간 뉴스레터를 구독하고 최신 소식을 받아보세요. - 2023년 AI 분야의 새로운 출판물과 데이트하세요!
목록을 공유하려면 Twitter @Whats_AI 또는 LinkedIn @Louis(What's AI) Bouchard에 저를 태그해 주세요!
[1] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J. 및 He, L., 2023. 신경 코덱 언어 모델은 제로샷 텍스트 음성 합성기입니다. https://arxiv.org/abs/2301.02111
[2] 브룩스 외, 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli 외, 2023년: MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. 및 Germanidis, A., 2023. 확산 모델을 사용한 구조 및 콘텐츠 기반 비디오 합성, https://arxiv.org/abs /2302.03011
[5] Driess, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T and Huang, W., 2023. Palm-e: 구현된 다중 모달 언어 모델, https://arxiv.org/abs/2303.03378
[6] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, AC, Lo, WY 및 Dollár, P., 2023. 무엇이든 분할하세요, https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. 및 Atzmon, Y., 2023. 텍스트-이미지 개인화를 위한 키 잠금 1등급 편집, https://arxiv.org/abs/2305.01644
[8] Pan, X., Tewari, A., Leimkühler, T., Liu, L., Meka, A. 및 Theobalt, C., 2023. GAN 드래그: 생성 이미지 다양체에서 대화형 점 기반 조작, https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY 및 Lin, CH, 2023. 신경란젤로: 고충실도 신경 표면 재구성. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의 진행 중(pp. 8456-8465), https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. 및 Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A 두 개의 UNet 이야기. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행(pp. 4606-4615), https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. 및 Loy, CC, 2023. StyleGANEX: 자른 정렬된 면을 넘어서는 StyleGAN 기반 조작. arXiv 사전 인쇄 arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. 및 Gan, C., 2023. 3d-llm: 3D 세계를 큰 공간에 주입 언어 모델. arXiv 사전 인쇄 arXiv:2307.12981.
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C . Xiao, L., 2023. Metagpt: 다중 에이전트 협업 프레임워크를 위한 메타 프로그래밍. arXiv 사전 인쇄 arXiv:2308.00352.
[14] Liu, H., Li, C., Wu, Q. 및 Lee, YJ, 2023. 시각적 지침 조정. arXiv 사전 인쇄 arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. 및 Yang, X., 2023. Mvdream: 3D 세대를 위한 다중 시점 확산. arXiv 사전 인쇄 arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. 및 Rush, AM, 2023. Distil-Whisper: 대규모 의사 라벨링을 통한 강력한 지식 증류. arXiv 사전 인쇄 arXiv:2311.00430.
[17] Blattmann et al., 2023: 안정적인 비디오 확산. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf