굉장한 공개 모델
기초 모델은 광범위한 다운 스트림 애플리케이션에 적응할 수있는 대규모 사전 법적 모델 (예 : Bert, Dall-E, GPT-3)입니다. 이 용어는 Stanford Institute for Human Centred 인공 지능에 의해 처음 대중화되었습니다. 이 저장소는 비전 및 언어 작업을위한 기초 모델 목록을 유지합니다. 코드가없는 연구 논문은 포함되지 않습니다.
조사
2024
- 언어 에이전트 (Princeton Shunyu Yao의 박사 학위 논문. Blog1, Blog2)
- 알고리즘 설계를위한 대형 언어 모델에 대한 체계적인 조사 (홍콩시 Univ.)
- 기초 모델 시대의 이미지 세분화 : 설문 조사 (베이징 기술 연구소)
- 비전 언어 지리-파운데이션 모델로 : 설문 조사 (Nanyang Technological University)
- 비전 언어 모델링 소개 (메타에서)
- 멀티 모달 모델 아키텍처의 진화 (Purdue University)
- 효율적인 멀티 모달 대형 언어 모델 : 설문 조사 (Tencent)
- 비디오 이해를위한 재단 모델 : 설문 조사 (Aalborg University)
- Sora는 세계 시뮬레이터입니까? 일반 세계 모델과 그 너머에 대한 포괄적 인 설문 조사 (Gigaai)
- 자율 주행 차량 발전에있는 기초 모델의 전향 적 역할 (Tongji University)
- 대형 모델에 대한 매개 변수 효율적인 미세 조정 : 포괄적 인 설문 조사 (Northeastern University)
- 대형 비전 모델의 배경, 기술, 한계 및 기회에 대한 검토 (Lehigh)
- 대형 멀티 모달 에이전트 : 설문 조사 (CUHK)
- The Uncanny Valley : 확산 모델의 포괄적 인 분석 (Mila)
- 재단 모델의 실제 로봇 응용 프로그램 : 리뷰 (도쿄 대학교)
- GPT-4에서 Gemini 및 그 너머로 : 4 가지 양식 (Shanghai AI Lab)을 통해 일반화, 신뢰성 및 인과 관계에 대한 MLLM의 풍경 평가
- 생성 및 차별적 시각적 기초 모델의 통일 : 설문 조사 (JHU)
2024 년 이전
- 의료 영상의 기초 모델 : 포괄적 인 설문 조사 및 미래 비전 (SDSU)
- 멀티 모달 파운데이션 모델 : 전문가에서 일반 목적 조수 (Microsoft)까지
- 방사선과의 일반 재단 모델 (SJTU)
- 비전의 새로운 시대를 정의하는 기초 모델 : 설문 조사 및 전망 (MBZ University of AI)
- 일반 생물 의학 AI (Google에서)
- Vision-Language Foundation 모델에 대한 신속한 엔지니어링에 대한 체계적인 조사 (옥스포드에서)
- 대형 멀티 모달 모델 : CVPR 2023 튜토리얼 (Chunyuan Li, Microsoft)
- 멀티 모달 대형 언어 모델에 대한 설문 조사 (USTC 및 Tencent에서)
- 비전 과제에 대한 비전 언어 모델 : 설문 조사 (Nanyang Technological University)
- 일반 의료 인공 지능을위한 기초 모델 (스탠포드에서)
- 사전에 걸린 재단 모델에 대한 포괄적 인 설문 조사 : Bert에서 Chatgpt까지의 역사
- AI 생성 컨텐츠 (AIGC)에 대한 포괄적 인 조사 : Gan에서 Chatgpt까지 생성 AI의 역사
- 비전 언어 사전 훈련 : 기본, 최근 발전 및 미래 추세
- 기초 모델의 기회와 위험에 대해 (이 설문 조사는 먼저 Foundation Model의 개념을 대중화합니다.
날짜 별 서류
2024
- [11/14] 정밀도에 대한 법률 스케일링 (하버드)
- [11/13] 신경 분야가있는 신경계 : 직접 조작에 대한 Visuotactile 인식 (메타에서)
- [11/07] DINO-WM : 미리 훈련 된 시각적 기능에 대한 세계 모델 (뉴욕 대학교)
- [10/31] Project SID : AI 문명을 향한 많은 에이전트 시뮬레이션 (Altera.Al)
- [10/30] Tokenformer : 토큰 화 된 모델 매개 변수로 변압기 스케일링을 다시 생각합니다 (Max Planck Institute for Informatics)
- [10/30] 보상 센터링 (앨버타 대학교 리차드 서튼)
- [10/21] 장기 기억 : AI 자기 진화의 기초 (Tianqiao 및 Chrissy Chen Institute)
- [10/10] 커널 스케일링 : 보편적 표현을 향한 콩나물의 대형 커널 설계 (CUHK)
- [10/04] Movie Gen : 미디어 파운데이션 모델의 캐스트 (메타에서)
- [10/02] RNN은 우리에게 필요한 모든 것이 었습니까? (Mila에서)
- [10/01] NGPT : hypersphere에서 표현 학습이있는 정규화 된 변압기 (Nvidia)
- [09/30] MM1.5 : 멀티 모달 LLM 미세 조정 (Apple)의 방법, 분석 및 통찰력
- [09/27] EMU3 : Next-Token Prediction은 필요한 전부입니다 (Baai에서)
- [09/25] Molmo 및 Pixmo : 최첨단 다중 모드 모델에 대한 열린 가중치 및 개방형 데이터 (Allen AI에서)
- [09/18] QWEN2-VL : 모든 해상도에서 세계에 대한 비전 언어 모델의 인식 향상 (알리바바)
- [09/18] Moshi : 실시간 대화를위한 Speech-Text Foundation 모델 (Kyutai에서)
- [08/27] 확산 모델은 실시간 게임 엔진입니다 (Google)
- [08/22] Sapiens : 인간 비전 모델을위한 재단 (메타에서)
- [08/14] Imagen 3 (Google DeepMind에서)
- [07/31] Llama 3 Model of Models (메타에서)
- [07/29] 샘 2 : 이미지와 비디오의 세그먼트 (메타에서)
- [07/24] PARTGLEE : 물체를 인식하고 구문 분석하기위한 기초 모델 (Hust and Bytedance에서)
- [07/17] Eve : 인코더가없는 비전 언어 모델 공개 (BAAI에서)
- [07/12] 화가로서의 변압기 층 (Sakana AI)
- [06/24] Cambrian-1 : 멀티 모달 LLM의 완전히 개방적이고 비전 중심적인 탐사 (NYU)
- [06/13] 4M-21 : 수십 개의 작업 및 양식에 대한 비전 모델 (EPFL 및 Apple)
- [06/10] Merlin : 3D 컴퓨터 단층 촬영을위한 비전 언어 재단 모델 (Stanford. Code에서 사용할 수 있습니다.)
- [06/06] Vision-LSTM : 일반 비전 백본으로서의 XLSTM (LSTM 저자)
- [05/31] MESHXL : 생성 3D 기초 모델을위한 신경 좌표 필드 (Fudan에서)
- [05/25] Moeut : Experts Universal Transformers (스탠포드에서)
- [05/22] RNN으로서의 관심 (Mila & Borealis AI)
- [05/22] Gigapath : 실제 데이터 (From Nature)의 디지털 병리를위한 전체 슬라이드 기초 모델
- [05/21] Biomedparse : 생의학 이미지 구문 분석을위한 생체 의학 기초 모델 (Microsoft. Journal 버전)
- [05/20] Octo : 오픈 소스 일반 로봇 정책 (UC Berkeley)
- [05/17] 관찰 스케일링 법률 및 언어 모델 성능의 예측 가능성 (For Standford)
- [05/14] 온라인과 오프라인 정렬 알고리즘 사이의 성능 차이 이해 (Google)
- [05/09] Lumina-T2X : 흐름 기반의 큰 확산 변압기를 통한 텍스트를 모든 양식, 해상도 및 지속 시간으로 변환합니다 (상하이 AI 실험실)
- [05/08] 당신은 한 번만 캐시 : 언어 모델을위한 디코더-디코더 아키텍처
- [05/07] XLSTM : 연장 장거리 단기 메모리 (LSTM의 저자 인 SEPP Hochreiter에서)
- [05/06] Gemini의 멀티 모달 의료 능력 발전 (Google)
- [05/04] U-dits : U 자형 확산 변압기의 다운 샘플 토큰 (Peking University)
- [05/03] Vibe-Eval : 멀티 모달 언어 모델의 진행 상황을 측정하기위한 하드 평가 제품군
- [04/30] Kan : Kolmogorov-arnold 네트워크 (MIT에서 MLP의 대안을 약속)
- [04/26] 우리는 GPT-4V까지 얼마나 멀리 떨어져 있습니까? 오픈 소스 스위트 (Shanghai AI Lab의 Internvl 1.5.)를 사용하여 상업용 멀티 모달 모델에 대한 간격을 닫습니다.
- [04/14] TransformerFam : 피드백주의 관심은 작업 메모리입니다 (Google의 효율적인 관심).
- [04/10] 컨텍스트를 남기지 않음 : Infini-Intention (Google에서)을 가진 효율적인 무한 컨텍스트 변압기
- [04/02] Octopus V2 : 슈퍼 에이전트를위한 기기 언어 모델 (스탠포드에서)
- [04/02] 혼합 내심 : 변압기 기반 언어 모델에 동적으로 컴퓨팅을 할당합니다 (Google)
- [03/22] Internvideo2 : 멀티 모달 비디오 이해를위한 비디오 파운데이션 모델 스케일링 (상하이 AI Lab)
- [03/18] ARC2face : 인간 얼굴의 기초 모델 (Imperial College London)
- [03/14] MM1 : Multimodal LLM Pre-Training의 방법, 분석 및 통찰력 (Apple의 30B 매개 변수)
- [03/09] Unigradicon : 의료 이미지 등록을위한 기초 모델 (UNC-Chapel Hill)
- [03/05] 고해상도 이미지 합성을위한 정류 유량 변압기 스케일링 (안정성 확산 3. 안정성 AI)
- [03/01] 시각적 표현 학습에서 세계 모델 학습 및 활용 (메타에서)
- [03/01] Visionllama : 비전 작업을위한 통합 라마 인터페이스 (Meituan)
- [02/28] CLLMS : 일관성 큰 언어 모델 (SJTU)
- [02/27] 잠재적 투명성을 사용한 투명 이미지 계층 확산 (Standford에서)
- [02/22] Mobilellm : 기기 사용 사례에 대한 수십억 이하 매개 변수 언어 모델 최적화 (메타에서)
- [02/21] a *를 넘어서 : 검색 역학 부트 스트랩을 통한 변압기로 더 나은 계획 (메타에서)
- [02/20] 신경망 확산 (확산 모델을 통한 네트워크 매개 변수 생성. NUS에서)
- [02/20] Videoprism : 비디오 이해를위한 기본 비주얼 인코더 (Google에서)
- [02/19] FIT : 확산 모델을위한 Flexible Vision Transformer (Shanghai AI Lab)
- [02/06] MobileVLM V2 : 비전 언어 모델의 더 빠르고 강력한 기준선 (Meituan)
- [01/30] Yolo-World : 실시간 개방형 대사 객체 감지 (Tencent and Hust에서)
- [01/23] Lumiere : 비디오 생성을위한 시공간 확산 모델 (Google에서)
- [01/22] Chexagent : 흉부 엑스레이 해석을위한 기초 모델 (스탠포드에서)
- [01/19] 깊이있는 것
- [01/16] SIT : 확장 가능한 대기 변압기가있는 흐름 및 확산 기반 생성 모델 탐색 (NYU)
- [01/15] InstantId : 초의 제로 샷 아이덴티티 예방 생성 (Xiaohongshu에서)
2023
- BioClip : 생명 나무를위한 비전 재단 모델 (CVPR 2024 최고의 학생 논문)
- MAMBA : 선택적 상태 공간을 갖는 선형 시간 시퀀스 모델링 (Mamba는 시퀀스 길이로 선형 적으로 스케일링하면서 비슷한 크기의 변압기보다 성능이 우수한 것으로 보입니다. CMU)
- Foundation Posse : Unified 6D 포즈 추정 및 새로운 대상의 추적 (Nvidia)
- 한 번에 모든 곳에서 모든 것을 추적합니다 (Cornell, ICCV 2023 최고의 학생 논문)
- 일반 지리 공간 인공 지능을위한 기초 모델 (IBM 및 NASA)
- LLAMA 2 : 오픈 파운데이션 및 미세 조정 채팅 모델 (메타에서)
- Internlm-xcomposer : 고급 텍스트 이미지 이해력 및 구성을위한 비전 언어 대형 모델 (상하이 AI 실험실)
- All-Seeing Project : Panoptic 시각적 인식 및 열린 세계의 이해를 향해 (Shanghai AI Lab)
- 메타 변환기 : 멀티 모달 학습을위한 통합 프레임 워크 (CUHK 및 Shanghai AI Lab)
- Ententive Network : 대형 언어 모델의 변압기의 후임자 (Microsoft 및 Tsinghua University)
- 컴퓨터 비전을위한 신경 세계 모델 (캠브리지 대학교에서 Anthony Hu의 박사 학위 논문)
- 무엇이든 인식 : 강력한 이미지 태깅 모델 (이미지 태깅을위한 강력한 기초 모델. Oppo에서)
- 물리적 장면의 시각적 기초 모델을 향해 (이미지 예측 만 훈련 기준으로 사용하여 물리적 장면의 일반적인 목적 시각적 표현을 배우는 첫 단계를 설명합니다.
- 리마 : 정렬에 대한 것이 적습니다 (65b 매개 변수, 메타에서)
- Palm 2 기술 보고서 (Google)
- ImageBind : 하나의 임베딩 공간을 모두 묶을 수 있습니다 (메타에서)
- 비주얼 명령 튜닝 (U의 위스콘신-마디슨 및 마이크로 소프트의 Llava)
- 겉보기 : 위스콘신-마디슨 대학교, Hkust 및 Microsoft에서 모든 것을 한 번에 모두 세분화하십시오.
- SAM : 세그먼트 ally (이미지 세분화를위한 첫 번째 기초 모델; 메타에서)
- seggpt : 맥락에서 모든 것을 세분화합니다 (Baai, Zju 및 PKU에서)
- 이미지에서는 이미지에서 : 텍스트 내 시각적 학습을위한 일반 화가 (Baai, Zju 및 PKU)
- 단일 교수 : 열린 세계의 모든 탐지 : 유니버설 객체 감지 (CVPR, Tsinghua 및 Bnrist)
- 마스크되지 않은 교사 : 훈련 효율적인 비디오 재단 모델 (중국 중국 과학 아카데미, 상하이 AI 실험실)
- 시각적 프롬프트 멀티 모달 추적 (Dalian University of Technology and Peng Cheng Laboratory)
- 언어, 비전 및 비전에 대한 일반적인 기초 모델 구축을 향해 (조별에서)
- EVA-Clip : 규모의 클립을위한 개선 된 교육 기술 (Baai and Hust에서)
- EVA-02 : Neon Genesis의 시각적 표현 (Baai and Hust에서)
- EVA-01 : 규모로 가면이있는 시각적 표현 학습의 한계 탐색 (Baai and Hust의 CVPR)
- LLAMA : 개방적이고 효율적인 기초 언어 모델 (7B ~ 65B 매개 변수 범위의 기초 언어 모델 모음; 메타에서)
- 10 억 규모의 사전 여분의 MAE 사전-보존의 효과 (메타에서)
- Bloomberggpt : 금융을위한 대형 언어 모델 (Bloomberg의 500 억 파라미터;
- BLOOM : 176B 파라미터 오픈 액세스 다국어 언어 모델 (이 작업은 LLM을 민주화하는 것이 목표 인 BigScience에 의해 조정되었습니다.)
- 플립 : 마스킹을 통한 언어 이미지 사전 훈련 스케일링 (메타에서)
- Blip-2 : 냉동 이미지 인코더 및 대형 언어 모델로 언어 이미지 사전 훈련 부트 스트랩 (Saleforce Research)
- GPT-4 기술 보고서 (OpenAI에서)
- Visual Chatgpt : Visual Foundation 모델로 대화, 그림 및 편집 (Microsoft Research Asia)
- UNINEXT : 객체 발견 및 검색으로서의 범용 인스턴스 인식 (10 인스턴스 인식 과제에 대한 통합 모델; CVPR, Bytedance)
- Internvideo : 생성 및 차별적 학습을 통한 일반 비디오 파운데이션 모델 (상하이 AI 실험실)
- Internimage : 변형 가능한 컨볼 루션 (Shanghai AI Lab의 CVPR)을 갖춘 대규모 비전 비전 재단 모델 탐색
- Bridgetower : 비전 언어 표현 학습에서 인코더 사이의 다리 구축 (Harbin Institute of Technology 및 Microsoft Research Asia)
2022
- BEVT : 비디오 변압기의 Bert Precraining (Shanghai Key Lab of Intelligent Information Processing의 CVPR)
- 파운데이션 트랜스포머 (Microsoft)
- 일반 대리인 (Gato, 멀티 모달, 멀티 태스크, 다중 임원 일반 대리인; DeepMind에서)
- 섬유 : 백본에 퓨전을 통한 거친 투성기 비전 언어 (Microsoft, UCLA 및 New York University)
- FLAMINGO : 소수의 샷 학습을위한 시각적 언어 모델 (DeepMind에서)
- Metalm : 언어 모델은 일반 목적 인터페이스 (Microsoft)입니다.
- Point-E : 복잡한 프롬프트에서 3D 포인트 구름을 생성하는 시스템 (텍스트-이미지 확산 모델을 사용하여 효율적인 3D 객체 생성; OpenAI에서)
- 텍스트 및 이미지 프롬프트를 사용한 이미지 세분화 (Göttingen University의 CVPR)
- 통합 흐름, 스테레오 및 깊이 추정 (3 개의 모션 및 3D 인식 작업을위한 통합 모델; ETH 취리히의 통일 모델)
- PALI : 공동 규모의 다국어 언어 이미지 모델 (Google)
- Videomae : Masked Autoencoders는 자체 감독 비디오 사전 훈련을위한 데이터 효율적인 학습자입니다 (Nanjing University, Tencent 및 Shanghai AI Lab의 Neurips)
- Slip : Self-Supervision은 언어 이미지 사전 훈련을 충족합니다 (ECCV, UC Berkeley 및 Meta)
- GLIPV2 : 현지화 및 VL 이해 통합 (UW, Meta, Microsoft 및 UCLA의 Neurips'22)
- GLIP : Grounded Language Image Pre-Training (UCLA 및 Microsoft의 CVPR)
- BLIP : 통합 비전 언어 이해 및 세대를위한 부트 스트랩 언어 이미지 사전 훈련 (Salesforce Research)
- Nuwa-Infinity : 무한 시각적 합성을위한자가 회귀 생성에 대한 자동 회귀 (Microsoft)
- Palm : 경로로 언어 모델링 스케일링 (Google에서)
- Coca : 대조적 인 캡션은 이미지 텍스트 재단 모델 (Google에서)
- parti : 콘텐츠가 풍부한 텍스트-이미지 생성을위한 자동 회귀 모델 스케일링 (Google)
- 비전 작업을위한 통합 시퀀스 인터페이스 (Google Research, Brain Team)
- Imagen : 깊은 언어 이해를 가진 사진 텍스트-이미지 확산 모델 (Google에서)
- 안정적인 확산 : 잠복 확산 모델을 사용한 고해상도 이미지 합성 (안정성 및 활주로에서 CVPR)
- 모방 게임을 넘어서 : 언어 모델의 기능을 정량화하고 외삽하는 (Big-Bench : LLMS의 204 개가 매우 어렵고 다양한 벤치 마크, 132 개 기관의 444 명의 저자)
- CRIS : 클립 구동 참조 이미지 세분화 (시드니 대학교 및 OPPO)
- 시공간 학습자로서 마스킹 된 자동 인코딩
- 마스크 된 자동 코드는 확장 가능한 비전 학습자입니다 (CVPR 2022, Fair)
- InstructGpt : 인간 피드백으로 지시를 따르는 언어 모델 (루프에서 인간과 함께 훈련; OpenAI에서)
- 비전 작업을위한 통합 시퀀스 인터페이스 (Google의 Neurips 2022)
- Dall-E2 : 클립 잠재심을 가진 계층 적 텍스트 조건부 이미지 생성 (OpenAi에서)
- 자체 감독을 통한 강력하고 효율적인 의료 영상 (Google, Georgia Tech 및 Northwestern University)
- Video Swin Transformer (Microsoft Research Asia의 CVPR)
- OFA : 간단한 시퀀스-시퀀스 학습 프레임 워크 (ICML 2022. Alibaba)를 통한 아키텍처, 작업 및 양식을 통일합니다.
- Mask2Former : 범용 이미지 분할 용 Masked-Intention Mask Transformer (Fair 및 UIUC의 CVPR 2022)
- Flava : 기본 언어 및 비전 정렬 모델 (CVPR, Facebook AI Research)
- 멀티 모달 재단 모델을 통한 인공 일반 정보 (중국 Renmin University of China)의 자연 커뮤니케이션을 통해
- 필립 : 세분화 된 대화식 언어 이미지 사전 훈련 (Huawei and Hkust의 ICLR)
- SIMVLM : 약한 감독 (ICLR, CMU 및 Google)으로 간단한 시각적 언어 모델 사전 여지
- 글라이드 : 텍스트 유도 확산 모델로 사진 이미지 생성 및 편집 (OpenAI에서)
2021
- 텍스트 생성을 통한 비전 및 언어 작업을 통합 (UNC-Chapel Hill에서)
- 정렬 : 시각적 및 비전 언어 표현 학습 스케일링 시끄러운 텍스트 감독 (Google의 PMLR)
- 단위 : 통합 변압기를 사용한 멀티 모달 멀티 태스킹 학습 (ICCV, Fair)
- WENLAN : 대규모 멀티 모달 사전 훈련에 의한 비전과 언어 브리징 (이 백서는 Brivl이라는 최초의 대규모 중국의 다중 모드 사전 훈련 모델을 제시합니다.
- Codex : 코드에 대한 교육을받은 대형 언어 모델 평가 (Github의 공공 코드, OpenAi 및 Anthropic AI에서 GPT 언어 모델 미세한 GPT 언어 모델)
- 피렌체 : 컴퓨터 비전을위한 새로운 기초 모델 (Microsoft)
- Dall-e : Zero-샷 텍스트-이미지 생성 (OpenAi에서)
- 클립 : 자연어 감독에서 전송 가능한 시각적 모델 학습 (OpenAI)
- 냉동 언어 모델을 가진 멀티 모달 소수의 학습 (DeepMind의 Neurips)
- Swin Transformer : 변속 된 Wind
- 이미지는 16x16의 가치가 있습니다. 단어 : 이미지 인식을위한 변압기 (순수한 자체 변환 블록이있는 첫 번째 비전 트랜스포머; Google의 ICLR)
2021 년 이전
- GPT-3 : 언어 모델은 소수의 학습자입니다 (175b 매개 변수; GPT-2와 비교하여 텍스트 내 학습 허가; OpenAI에서)
- 연합 : Universal Image-Text 표현 학습 (Microsoft)
- T5 : 통합 된 텍스트-텍스트 변압기로 전송 학습의 한계를 탐색합니다 (Google에서)
- GPT-2 : 언어 모델은 감독되지 않은 멀티 태스킹 학습자입니다 (1.5B 매개 변수; OpenAI에서)
- LXMERT : 변압기의 교차 모임 인코더 표현 학습 (EMNLP, UNC-Chapel Hill의 EMNLP)
- BERT : 언어 이해를위한 깊은 양방향 변압기의 사전 훈련 (Google AI 언어)
- GPT : 생성 사전 훈련에 의한 언어 이해 향상 (OpenAI에서)
- 주의가 필요한 모든 것 (Google 및 UOT의 Neurips)
주제별 논문
큰 언어/멀티 모달 모델
- LLAVA : 시각적 교육 튜닝 (위스콘신 대학교-마디슨 대학교)
- Minigpt-4 : 고급 대형 언어 모델을 사용한 비전 언어 이해 향상 (Kaust)
- GPT-4 기술 보고서 (OpenAI에서)
- GPT-3 : 언어 모델은 소수의 학습자입니다 (175b 매개 변수; GPT-2와 비교하여 텍스트 내 학습 허가; OpenAI에서)
- GPT-2 : 언어 모델은 감독되지 않은 멀티 태스킹 학습자입니다 (1.5B 매개 변수; OpenAI에서)
- GPT : 생성 사전 훈련에 의한 언어 이해 향상 (OpenAI에서)
- LLAMA 2 : 오픈 파운데이션 및 미세 조정 채팅 모델 (메타에서)
- LLAMA : 개방적이고 효율적인 기초 언어 모델 (7b ~ 65b 매개 변수 범위; 메타에서)
- T5 : 통합 된 텍스트-텍스트 변압기로 전송 학습의 한계를 탐색합니다 (Google에서)
선형주의
- FlashAttention-2 : 더 나은 병렬 처리와 작업 파티셔닝으로 더 빠른 관심
- FlashAttention : IO 인식에 대한 빠르고 메모리 효율적인 정확한주의
큰 벤치 마크
- Ophnet : 안과 수술 워크 플로우 이해를위한 대규모 비디오 벤치 마크 (안과 수술을위한 대규모 주석이 달린 비디오 벤치 마크. 2024 년 Monash에서)
- MMT-BENCH : 멀티 태스킹 AGI에 대한 대규모 비전 언어 모델을 평가하기위한 포괄적 인 멀티 모달 벤치 마크 (Shanghai AI Lab, 2024)
- 깜박임 : 멀티 모달 대형 언어 모델은 볼 수 있지만 인식 할 수는 없습니다 (멀티 모달 벤치 마크. 펜실베이니아 대학교, 2024 년)
- CAD-ESTATE : RGB 비디오의 대규모 CAD 모델 주석 (CAD 주석이있는 RGB 비디오. Google 2023)
- Imagenet : 대규모 계층 적 이미지 데이터베이스 (Vision Benchmark. From Stanford, 2009)
비전 언어 사전 조정
- 플립 : 마스킹을 통한 언어 이미지 사전 훈련 스케일링 (메타에서)
- BLIP-2 : 냉동 이미지 인코더 및 대형 언어 모델로 언어 이미지 사전 훈련 부트 스트랩 (Bootstrapping Language Image Pre-Training
- BLIP : 통합 비전 언어 이해 및 세대를위한 부트 스트랩 언어 이미지 사전 훈련 (Salesforce Research)
- Slip : Self-Supervision은 언어 이미지 사전 훈련을 충족합니다 (ECCV, UC Berkeley 및 Meta)
- GLIP : Grounded Language Image Pre-Training (UCLA 및 Microsoft의 CVPR)
- 정렬 : 시각적 및 비전 언어 표현 학습 스케일링 시끄러운 텍스트 감독 (Google의 PMLR)
- 지역 클립 : 지역 기반 언어 이미지 사전 여파
- 클립 : 자연어 감독에서 전송 가능한 시각적 모델 학습 (OpenAI)
인식 작업 : 탐지, 분할 및 자세 추정
- SAM 2 : 이미지와 비디오의 세그먼트 (메타에서)
- Foundation Posse : Unified 6D 포즈 추정 및 새로운 대상의 추적 (Nvidia)
- 겉보기 : 위스콘신-마디슨 대학교, Hkust 및 Microsoft에서 모든 것을 한 번에 모두 세분화하십시오.
- SAM : 세그먼트 ally (이미지 세분화를위한 첫 번째 기초 모델; 메타에서)
- seggpt : 맥락에서 모든 것을 세분화합니다 (Baai, Zju 및 PKU에서)
훈련 효율성
- Green AI (Red AI vs Green AI의 개념을 소개합니다)
- 복권 가설 : 희소, 훈련 가능한 신경망 찾기 (MIT에서 복권 가설)
인공 일반 정보 (AGI)로
- 컴퓨터 비전의 AGI로 : GPT 및 대형 언어 모델에서 배운 교훈 (화웨이에서)
AI 안전 및 책임
- AI에서 피해를 입을 확률이 가드 레일을 만듭니다 (Yoshua Bengio의 블로그)
- 급속한 진전 속에서 극도의 AI 위험 관리 (2024 년 5 월 과학에서)
관련 멋진 저장소
- 멋진 분해 모델
- 굉장한 비디오-확산 모델
- 멋진 분해 모델 기반 이미지 편집 방법
- 굉장한 CV-foundational 모델
- 굉장한 건강 관리-결합 모델
- 굉장한 다중 모탈 에이전트
- 야생의 컴퓨터 비전 (cvinw)