Generative AI는 급속한 성장을 경험하고 있으며, 이 저장소는 Generative AI 연구, 인터뷰 자료, 노트북 등에 대한 업데이트를 위한 포괄적인 허브 역할을 합니다.
다음 리소스를 살펴보세요.
우리는 이 저장소를 정기적으로 업데이트할 예정이므로 최신 추가 사항을 주의 깊게 살펴보세요!
행복한 학습!
*매월말 업데이트
날짜 | 제목 | 추상적인 |
---|---|---|
2024년 9월 30일 | MM1.5: 다중 모드 LLM 미세 조정의 방법, 분석 및 통찰력 | 텍스트가 풍부한 이미지 이해, 시각적 참조 및 접지, 다중 이미지 추론 기능을 향상하도록 설계된 새로운 다중 모드 대형 언어 모델(MLLM) 제품군인 MM1.5를 소개합니다. MM1 아키텍처를 기반으로 구축된 MM1.5는 모델 교육에 데이터 중심 접근 방식을 채택하여 전체 모델 교육 수명 주기에 걸쳐 다양한 데이터 혼합의 영향을 체계적으로 탐색합니다. 여기에는 지속적인 사전 학습을 위한 고품질 OCR 데이터 및 합성 캡션은 물론 지도 미세 조정을 위한 최적화된 시각적 지시 조정 데이터 혼합이 포함됩니다. 우리의 모델은 밀도가 높고 전문가 혼합(MoE) 변형을 모두 포함하는 1B에서 30B 매개변수 범위에 있으며, 신중한 데이터 큐레이션 및 교육 전략이 소규모(1B 및 3B)에서도 강력한 성능을 얻을 수 있음을 보여줍니다. 또한 비디오 이해를 위해 설계된 MM1.5-Video와 모바일 UI 이해를 위해 맞춤화된 MM1.5-UI라는 두 가지 특수 변형을 소개합니다. 광범위한 경험적 연구와 절제를 통해 우리는 최종 설계에 영향을 미치는 훈련 프로세스와 결정에 대한 자세한 통찰력을 제공하고 MLLM 개발에 대한 향후 연구를 위한 귀중한 지침을 제공합니다. |
2024년 9월 26일 | MIO: 다중 모드 토큰의 기초 모델 | 본 논문에서는 엔드투엔드 자동 회귀 방식으로 음성, 텍스트, 이미지 및 비디오를 이해하고 생성할 수 있는 멀티모달 토큰을 기반으로 구축된 새로운 기반 모델인 MIO를 소개합니다. LLM(대형 언어 모델) 및 MM-LLM(다중 모드 대형 언어 모델)의 출현은 다양한 기능을 통해 인공 일반 지능의 발전을 촉진하지만 여전히 진정한 모든 이해와 생성이 부족합니다. 최근 GPT-4o의 출시는 복잡한 실제 작업에 대한 다대다 LLM의 놀라운 잠재력을 보여 주었으며 이미지, 음성 및 텍스트 전반에 걸쳐 전방향 입력 및 출력을 가능하게 합니다. 그러나 이는 비공개 소스이며 다중 모드 인터리브 시퀀스 생성을 지원하지 않습니다. 이러한 격차를 해결하기 위해 우리는 인과 다중 모드 모델링을 사용하여 4가지 양식에 걸쳐 개별 토큰의 혼합에 대해 훈련된 MIO를 제시합니다. MIO는 (1) 정렬 사전 훈련, (2) 인터리브 사전 훈련, (3) 음성 강화 사전 훈련, (4) 다양한 텍스트, 시각적, 그리고 말하기 과제. 우리의 실험 결과에 따르면 MIO는 이전 이중 모달 기준선, 모든 모델 기준선, 심지어 양식별 기준선에 비해 경쟁력이 있고 어떤 경우에는 우수한 성능을 나타냅니다. 또한 MIO는 인터리브된 비디오 텍스트 생성, 시각적 사고의 연쇄 추론, 시각적 지침 생성, 교육용 이미지 편집 등과 같은 모든 기능에 내재된 고급 기능을 보여줍니다. |
2024년 9월 26일 | MaskLLM: 대규모 언어 모델을 위한 학습 가능한 반구조적 희소성 | LLM(대형 언어 모델)은 대규모 매개변수 수로 구별되며 일반적으로 상당한 중복성을 초래합니다. 이 연구에서는 추론 중 계산 오버헤드를 줄이는 것을 목표로 LLM에서 반구조적(또는 "N:M") 희소성을 설정하는 학습 가능한 가지치기 방법인 MaskLLM을 소개합니다. 새로운 중요도 기준을 개발하는 대신 MaskLLM은 Gumbel Softmax 샘플링을 통해 N:M 패턴을 학습 가능한 분포로 명시적으로 모델링합니다. 이 접근 방식은 대규모 데이터 세트에 대한 엔드투엔드 교육을 촉진하고 두 가지 주목할만한 이점을 제공합니다. 1) 고품질 마스크 - 우리의 방법은 대규모 데이터 세트로 효과적으로 확장하고 정확한 마스크를 학습합니다. 2) 전이성 - 마스크 분포의 확률적 모델링을 통해 도메인 또는 작업 전반에 걸쳐 희소성에 대한 전이 학습이 가능합니다. LLaMA-2, Nemotron-4, GPT-3 등 다양한 LLM에서 2:4 희소성을 사용하여 MaskLLM을 평가했으며, 크기는 843M~15B 매개변수이며, 경험적 결과에 따르면 최첨단 기술에 비해 상당한 개선이 이루어졌습니다. 행동 양식. 예를 들어, 주요 접근 방식은 밀도가 높은 모델의 5.12 PPL과 비교하여 Wikitext에서 10 이상의 PPL을 달성하지만 MaskLLM은 가중치가 고정된 마스크를 학습함으로써 훨씬 더 낮은 6.72 PPL을 달성합니다. 또한 MaskLLM의 학습 가능한 특성을 통해 다운스트림 작업 또는 도메인에 2:4 희소성을 무손실 적용할 수 있는 맞춤형 마스크가 가능합니다. 코드는 url{https://github.com/NVlabs/MaskLLM}에서 확인할 수 있습니다. |
2024년 9월 25일 | Molmo 및 PixMo: 최첨단 다중 모드 모델을 위한 개방형 가중치 및 개방형 데이터 | 오늘날 가장 발전된 다중 모드 모델은 여전히 독점적입니다. 가장 강력한 개방형 가중치 모델은 독점 VLM의 합성 데이터에 크게 의존하여 우수한 성능을 달성하고 이러한 폐쇄형 모델을 개방형 모델로 효과적으로 추출합니다. 결과적으로 커뮤니티에는 고성능 VLM을 처음부터 구축하는 방법에 대한 기본 지식이 여전히 부족합니다. 우리는 개방성 측면에서 최첨단 기술을 갖춘 새로운 VLM 제품군인 Molmo를 소개합니다. 우리의 주요 혁신은 음성 기반 설명을 사용하여 인간 주석자로부터 전적으로 수집된 새롭고 매우 상세한 이미지 캡션 데이터 세트입니다. 광범위한 사용자 상호 작용을 가능하게 하기 위해 실제 Q&A와 혁신적인 2D 포인팅 데이터를 포함하는 미세 조정을 위한 다양한 데이터 세트 혼합도 도입합니다. 우리 접근 방식의 성공은 모델 아키텍처 세부 사항에 대한 신중한 선택, 잘 조정된 훈련 파이프라인, 그리고 가장 중요하게는 새로 수집된 데이터 세트의 품질에 달려 있으며, 모두 출시될 것입니다. Molmo 제품군 내 동급 최고의 72B 모델은 개방형 중량 및 데이터 모델 클래스에서 다른 모델보다 성능이 뛰어날 뿐만 아니라 학문적 벤치마크 및 인간 평가 모두에서 GPT-4o, Claude 3.5 및 Gemini 1.5와 같은 독점 시스템에 비해 유리하게 비교됩니다. . 우리는 가까운 시일 내에 모든 모델 가중치, 캡션 및 미세 조정 데이터, 소스 코드를 공개할 예정입니다. 선택 모델 가중치, 추론 코드 및 데모는 https://molmo.allenai.org에서 확인할 수 있습니다. |
2024년 9월 25일 | VPTQ: 대규모 언어 모델을 위한 극도로 낮은 비트 벡터 훈련 후 양자화 | 확장 모델 크기는 LLM(대형 언어 모델)의 배포 및 추론에 큰 어려움을 줍니다. LLM 가중치의 중복으로 인해 최근 연구에서는 가중치 전용 양자화를 극도로 낮은 비트(심지어 2비트까지)까지 추진하는 데 중점을 두었습니다. 메모리 요구 사항을 줄이고, 스토리지 비용을 최적화하며, 추론 중에 필요한 메모리 대역폭을 줄입니다. 그러나 수치 표현의 한계로 인해 전통적인 스칼라 기반 가중치 양자화는 이러한 극단적인 낮은 비트를 달성하는 데 어려움을 겪습니다. LLM을 위한 벡터 양자화(VQ)에 대한 최근 연구에서는 조회 테이블을 사용하여 벡터를 인덱스로 압축함으로써 극도로 낮은 비트 모델 양자화의 가능성을 보여주었습니다. 본 논문에서는 LLM의 매우 낮은 비트 양자화를 위한 벡터 사후 훈련 양자화(VPTQ)를 소개합니다. 우리는 2차 최적화를 사용하여 LLM VQ 문제를 공식화하고 최적화를 해결하여 양자화 알고리즘 설계를 안내합니다. 세분화된 VQ를 위해 채널 독립적인 2차 최적화를 사용하여 가중치를 더욱 구체화합니다. 또한 최적화 문제를 분해하여 간단하고 효과적인 코드북 초기화 알고리즘을 제안한다. 또한 VPTQ를 확장하여 잔여 및 이상치 양자화를 지원하므로 모델 정확도가 향상되고 모델이 더욱 압축됩니다. 우리의 실험 결과는 VPTQ가 모델 양자화 혼란을 다음과 같이 감소시키는 것을 보여줍니다. |
2024년 9월 24일 | Time-MoE: 전문가가 혼합된 수십억 규모의 시계열 기반 모델 | 시계열 예측을 위한 딥 러닝은 지난 수십 년 동안 상당한 발전을 이루었습니다. 그러나 언어 및 비전 영역에서 대규모 사전 훈련의 성공에도 불구하고 사전 훈련된 시계열 모델은 규모가 제한되어 있고 비용이 많이 들기 때문에 실제 응용 프로그램에서 더 큰 규모의 예측 모델 개발을 방해합니다. 이에 대응하여 우리는 추론 비용을 줄이면서 더 크고 더 유능한 예측 기반 모델을 사전 훈련하도록 설계된 확장 가능하고 통합된 아키텍처인 Time-MoE를 도입합니다. Time-MoE는 희박한 MoE(mixture-of-experts) 설계를 활용하여 각 예측에 대해 네트워크의 하위 집합만 활성화하여 계산 효율성을 향상시키고, 높은 모델 용량을 유지하면서 계산 부하를 줄입니다. 이를 통해 Time-MoE는 추론 비용의 증가 없이 효과적으로 확장할 수 있습니다. Time-MoE는 자동 회귀 방식으로 작동하고 다양한 입력 컨텍스트 길이로 유연한 예측 범위를 지원하는 디코더 전용 변환기 모델 제품군으로 구성됩니다. 우리는 새로 도입된 대규모 데이터 Time-300B를 기반으로 이러한 모델을 사전 교육했습니다. 이 데이터는 9개 이상의 도메인에 걸쳐 3000억 개가 넘는 시점을 포괄합니다. 처음으로 시계열 기반 모델을 최대 24억 개의 매개변수로 확장하여 예측 정확도가 크게 향상되었습니다. 우리의 결과는 시계열 예측의 맥락에서 훈련 토큰 및 모델 크기에 대한 확장 법칙의 적용 가능성을 검증합니다. 동일한 수의 활성화된 매개변수 또는 동등한 계산 예산을 가진 밀도 모델과 비교할 때 우리 모델은 지속적으로 큰 차이로 성능을 능가합니다. 이러한 발전으로 인해 Time-MoE는 뛰어난 기능, 효율성 및 유연성으로 실제 시계열 예측 문제를 해결하기 위한 최첨단 솔루션으로 자리 잡았습니다. |
2024년 9월 23일 | 의학에서의 o1 예비 연구: 우리는 AI 의사에 더 가까워졌는가? | LLM(대형 언어 모델)은 다양한 영역과 작업에 걸쳐 놀라운 기능을 보여주어 학습과 인지에 대한 지식의 경계를 넓혀왔습니다. 최신 모델인 OpenAI의 o1은 강화 학습 전략을 사용하여 내부화된 사고 사슬 기술을 갖춘 최초의 LLM으로 돋보입니다. 다양한 일반 언어 작업에서 놀라울 정도로 강력한 능력을 입증한 반면, 의학 등 전문 분야에서는 그 성능이 아직 알려지지 않았습니다. 이를 위해 이 보고서는 이해, 추론, 다중 언어성이라는 3가지 주요 측면을 조사하여 다양한 의료 시나리오에서 o1에 대한 포괄적인 탐색을 제공합니다. 특히, 우리의 평가는 NEJM(New England Journal of Medicine) 및 The Lancet의 전문 의학 퀴즈를 기반으로 새로 구성되고 더욱 까다로운 질문 답변(QA) 작업 2개를 포함하여 37개 의료 데이터 세트의 데이터를 사용하는 6가지 작업을 포함합니다. 이러한 데이터 세트는 MedQA와 같은 표준 의료 QA 벤치마크에 비해 더 큰 임상 관련성을 제공하여 실제 임상 유틸리티로 더 효과적으로 변환됩니다. o1에 대한 우리의 분석은 LLM의 향상된 추론 능력이 복잡한 임상 시나리오를 통해 다양한 의학적 지침과 추론을 이해하는 능력에 (상당히) 도움이 될 수 있음을 시사합니다. 특히 o1은 19개의 데이터 세트와 새로 생성된 2개의 복잡한 QA 시나리오에서 정확도가 평균 6.2% 및 6.6%로 이전 GPT-4를 능가합니다. 그러나 그 사이에 우리는 환각, 일관되지 않은 다국어 능력, 불일치하는 평가 지표를 포함하여 모델 기능과 기존 평가 프로토콜 모두에서 몇 가지 약점을 식별합니다. 향후 연구를 위해 원시 데이터와 모델 출력을 https://ucsc-vlaa.github.io/o1_medicine/에 공개합니다. |
2024년 9월 21일 | 명령어 튜닝 없이 명령어 따르기 | 명령어 조정은 일반적으로 명령어-응답 쌍에 대한 언어 모델을 미세 조정하는 것을 의미합니다. 우리는 명령어 튜닝에 비해 부족하지만 여전히 명령어를 따르는 두 가지 형태의 적응(튜닝)을 발견했습니다. 우리는 이것을 암시적 명령어 튜닝이라고 부릅니다. 우리는 먼저 지시-반응 쌍이 필요하지 않다는 것을 발견했습니다. 대응하는 지시 없이 반응에만 훈련하면 다음 지시가 나옵니다. 이는 사전 훈련된 모델이 원하는 응답 분포를 모델에 교육함으로써 드러나는 명령-응답 매핑을 가지고 있음을 의미합니다. 그러나 우리는 원하는 응답 분포를 가르칠 필요가 없다는 것을 알게 됩니다. 시와 같은 좁은 영역 데이터에 대한 지시-반응 훈련은 여전히 레시피 생성과 같은 광범위한 지시 따르기 동작으로 이어집니다. 특히, 명령이 좁은 미세 조정 영역의 명령과 매우 다른 경우 모델의 응답은 미세 조정 영역의 스타일을 따르지 않습니다. 암시적 명령어 튜닝을 설명하기 시작하기 위해 우리는 언어 모델의 분포에 대한 매우 간단한 변경이 명령어를 따르는 것을 가정합니다. 우리는 사전 훈련된 모델을 사용하여 전문가 제품에 따라 지침을 생성하는 규칙 기반 언어 모델을 직접 작성하여 이를 지원합니다. 규칙은 시퀀스가 끝날 확률을 천천히 높이고 반복에 벌점을 부여하며 15 단어의 확률을 균일하게 변경하는 것입니다. 요약하자면, 지시를 따르도록 설계하지 않고 이루어진 적응은 암묵적으로 그렇게 할 수 있습니다. |
2024년 9월 20일 | 자신을 상상해보세요: 튜닝이 필요 없는 개인화된 이미지 생성 | 확산 모델은 다양한 이미지 간 작업에서 놀라운 효율성을 보여주었습니다. 본 연구에서는 개인화된 이미지 생성을 위해 설계된 최첨단 모델인 Imagine yourself를 소개합니다. 기존의 튜닝 기반 개인화 기술과 달리 Imagine yourself는 튜닝이 필요 없는 모델로 작동하므로 모든 사용자가 개별화된 조정 없이 공유 프레임워크를 활용할 수 있습니다. 더욱이, 이전 작업에서는 복잡한 프롬프트를 따르고 좋은 시각적 품질을 유지하면서 신원 보존의 균형을 맞추는 문제에 직면하여 모델이 참조 이미지의 강력한 복사-붙여넣기 효과를 갖게 되었습니다. 따라서 얼굴 표정, 머리 및 몸 자세 변경 등 참조 이미지에 대한 상당한 변경이 필요한 프롬프트에 따라 이미지를 생성하기가 거의 불가능하며 생성된 이미지의 다양성도 낮습니다. 이러한 한계를 해결하기 위해 제안된 방법은 1) 이미지 다양성을 장려하기 위한 새로운 합성 쌍 데이터 생성 메커니즘, 2) 텍스트 충실도를 향상시키기 위해 3개의 텍스트 인코더와 완전히 훈련 가능한 비전 인코더를 갖춘 완전 병렬 주의 아키텍처, 3) 시각적 품질의 경계를 점차 넓혀가는 새로운 대강에서 미세 다단계 미세 조정 방법론입니다. 우리의 연구는 Imagine yourself가 최첨단 개인화 모델을 능가하여 신원 보존, 시각적 품질 및 텍스트 정렬 분야에서 탁월한 기능을 발휘한다는 것을 보여줍니다. 이 모델은 다양한 개인화 애플리케이션을 위한 강력한 기반을 구축합니다. 사람의 평가 결과는 이전 개인화 모델과 비교하여 모든 측면(신원 보존, 텍스트 충실도, 시각적 매력)에서 모델의 SOTA 우월성을 검증합니다. |
2024년 9월 19일 | 강화 학습을 통해 자가 수정을 위한 언어 모델 훈련 | 자체 수정은 대규모 언어 모델(LLM)의 매우 바람직한 기능이지만 최신 LLM에서는 대체로 효과가 없는 것으로 일관되게 밝혀졌습니다. 현재의 자기 교정 훈련 방법은 일반적으로 다중 모델, 고급 모델 또는 추가적인 감독 형태에 따라 달라집니다. 이러한 단점을 해결하기 위해 우리는 완전히 자체 생성된 데이터를 사용하여 LLM의 자체 수정 기능을 크게 향상시키는 다중 회전 온라인 RL(강화 학습) 접근 방식인 SCoRe를 개발했습니다. SCoRe를 구축하기 위해 먼저 오프라인 모델 생성 수정 추적의 SFT(감독 미세 조정) 변형이 자체 수정 동작을 주입하는 데 충분하지 않은 경우가 많다는 점을 보여줍니다. 특히, 우리는 SFT를 통한 훈련이 데이터 수집 정책에 의한 실수와 모델 자체 반응 사이의 분포 불일치 또는 학습이 암묵적으로 특정 모드의 수정 행동만을 선호하는 행동 붕괴의 희생양이 된다는 것을 관찰했습니다. 테스트 문제에 대한 자체 수정에는 효과적이지 않습니다. SCoRe는 자체 생성된 수정 추적의 모델 자체 분포에 따라 교육하고 적절한 정규화를 사용하여 학습 프로세스를 주어진 환경에 대해 높은 보상 응답을 맞추는 대신 테스트 시간에 효과적인 자체 수정 동작을 학습하도록 조정함으로써 이러한 문제를 해결합니다. 즉각적인. 이 정규화 프로세스에는 기본 모델에 대한 다중 회전 RL의 초기 단계가 포함되어 붕괴에 덜 민감한 정책 초기화를 생성한 다음 보상 보너스를 사용하여 자체 수정을 증폭시킵니다. Gemini 1.0 Pro 및 1.5 Flash 모델을 사용하면 SCoRe가 최첨단 자체 수정 성능을 달성하여 MATH 및 HumanEval에서 기본 모델의 자체 수정을 각각 15.6% 및 9.1% 향상시키는 것으로 나타났습니다. |
2024년 9월 19일 | 스마트한 확장: 소규모 모델 초기화로 대규모 언어 모델 사전 학습 가속화 | 언어 모델의 사전 훈련 단계는 종종 무작위로 초기화된 매개변수로 시작됩니다. 모델 확장의 현재 추세에 따라 많은 수의 매개변수를 훈련하는 것은 매우 느리고 비용이 많이 들 수 있습니다. 이와 대조적으로 작은 언어 모델은 훈련 비용이 저렴하지만 대규모 모델의 정확성을 달성할 수 없는 경우가 많습니다. 이 논문에서는 이 두 가지 서로 다른 방식을 연결하는 흥미로운 아이디어를 탐구합니다. 더 작은 사전 훈련된 모델을 사용하여 대규모 언어 모델을 초기화하는 방법을 개발할 수 있습니까? 이러한 초기화가 훈련 시간과 최종 정확도 측면에서 어떤 이점을 제공합니까? 본 논문에서는 사전 훈련된 언어 모델의 매개변수를 숨겨진 차원이 증가된 더 큰 모델의 매개변수로 확장할 수 있는 방법인 HyperCloning을 소개합니다. 우리의 방법은 더 큰 모델이 더 작은 모델의 기능을 유지하도록 보장합니다. 결과적으로 더 큰 모델은 훈련이 시작되기 전에 이미 더 작은 모델의 예측력과 정확성을 상속받습니다. 우리는 이렇게 초기화된 모델을 훈련하면 대규모 언어 모델을 사전 훈련하는 데 필요한 GPU 시간을 크게 절약할 수 있음을 보여줍니다. |
2024년 9월 18일 | Qwen2.5-Coder 기술 보고서 | 이 보고서에서는 이전 제품인 CodeQwen1.5에서 크게 업그레이드된 Qwen2.5-Coder 시리즈를 소개합니다. 이 시리즈에는 Qwen2.5-Coder-1.5B 및 Qwen2.5-Coder-7B의 두 가지 모델이 포함됩니다. 코드별 모델인 Qwen2.5-Coder는 Qwen2.5 아키텍처를 기반으로 구축되었으며 5조 5천억 개 이상의 토큰으로 구성된 방대한 자료에서 계속 사전 훈련됩니다. 세심한 데이터 정리, 확장 가능한 합성 데이터 생성 및 균형 잡힌 데이터 혼합을 통해 Qwen2.5-Coder는 일반적인 다양성을 유지하면서 인상적인 코드 생성 기능을 보여줍니다. 이 모델은 광범위한 코드 관련 작업에 대해 평가되었으며, 코드 생성, 완성, 추론 및 복구를 포함하여 10개 이상의 벤치마크에서 SOTA(최첨단 기술) 성능을 달성했으며 지속적으로 더 큰 모델보다 뛰어난 성능을 보였습니다. 동일한 모델 크기. 우리는 Qwen2.5-Coder 시리즈의 출시가 코드 인텔리전스 연구의 경계를 넓힐 뿐만 아니라 허용적인 라이선스를 통해 개발자가 실제 응용 프로그램에서 더 광범위하게 채택하도록 장려할 것이라고 믿습니다. |
2024년 9월 18일 | LLM의 긴 컨텍스트 확장 및 일반화에 대한 통제된 연구 | 광범위한 텍스트 이해와 맥락 내 학습에는 전체 문서 컨텍스트를 활용하는 언어 모델이 필요합니다. 긴 컨텍스트 모델을 직접 훈련하는 것과 관련된 구현 문제로 인해 긴 컨텍스트를 처리하기 위해 모델을 확장하는 많은 방법이 제안되었습니다. 그러나 데이터와 모델 클래스의 차이로 인해 이러한 접근 방식을 비교하는 것이 어려웠고, 장기 컨텍스트 성능을 평가하는 방법과 표준 평가와 다른지 여부에 대한 불확실성이 발생했습니다. 우리는 일관된 기본 모델과 확장 데이터를 활용하여 표준화된 평가를 통해 확장 방법에 대한 제어된 프로토콜을 구현합니다. 우리의 연구는 긴 맥락의 행동에 대한 몇 가지 통찰력을 제공합니다. 첫째, 우리는 더 긴 상황의 작업에서도 범용 성능 지표로서 당혹감의 중요한 역할을 재확인합니다. 둘째, 우리는 현재의 대략적인 주의 방법이 긴 맥락 작업에서 체계적으로 성능이 떨어진다는 것을 발견했습니다. 마지막으로, 우리는 정확한 미세 조정 기반 방법이 확장 범위 내에서 일반적으로 효과적이라는 것을 확인하는 반면, 추정은 여전히 어렵습니다. 모든 코드베이스, 모델 및 체크포인트는 오픈 소스로 제공되어 투명성을 높이고 AI 개발의 중요한 영역에 대한 추가 연구를 촉진합니다. |
2024년 9월 18일 | LLM + 페르소나 플러그 = 맞춤형 LLM | 동일한 요구 사항을 가진 사용자는 개인의 관심 사항에 따라 다양한 출력을 선호할 수 있으므로 개인화는 수많은 언어 작업 및 응용 프로그램에서 중요한 역할을 합니다. 이로 인해 LLM(대형 언어 모델)을 적용하여 사용자 선호도에 맞는 맞춤형 출력을 생성하는 것을 목표로 하는 다양한 개인화된 접근 방식이 개발되었습니다. 그 중 일부는 각 사용자에 맞게 고유한 개인화된 LLM을 미세 조정하는 작업을 포함하는데, 이는 널리 적용하기에는 너무 많은 비용이 듭니다. 대체 접근 방식은 사용자의 관련 역사적 텍스트를 데모로 검색하여 플러그 앤 플레이 방식으로 개인화 정보를 소개합니다. 그러나 이러한 검색 기반 전략은 사용자 기록의 연속성을 깨뜨리고 사용자의 전반적인 스타일과 패턴을 포착하지 못하여 최적이 아닌 성능으로 이어질 수 있습니다. 이러한 문제를 해결하기 위해 우리는 새로운 맞춤형 LLM 모델인 ours{}를 제안합니다. 경량 플러그인 사용자 임베더 모듈을 통해 모든 역사적 컨텍스트를 모델링하여 각 개인에 대한 사용자별 임베딩을 구성합니다. 이 임베딩을 작업 입력에 연결함으로써 LLM은 사용자 습관과 선호도를 더 잘 이해하고 포착할 수 있으므로 자체 매개변수를 조정하지 않고도 보다 개인화된 출력을 생성할 수 있습니다. LaMP(언어 모델 개인화) 벤치마크의 다양한 작업에 대한 광범위한 실험에서는 제안된 모델이 기존의 개인화된 LLM 접근 방식보다 훨씬 뛰어난 성능을 보여줍니다. |
2024년 9월 17일 | NVLM: 개방형 프론티어급 다중 모드 LLM | 선도적인 독점 모델(예: GPT-4o) 및 개방형 액세스에 필적하는 비전 언어 작업에 대한 최첨단 결과를 달성하는 프론티어급 다중 모드 대형 언어 모델(LLM) 제품군인 NVLM 1.0을 소개합니다. 모델(예: Llama 3-V 405B 및 InternVL 2) 놀랍게도 NVLM 1.0은 다중 모달 훈련 후 LLM 백본에 비해 향상된 텍스트 전용 성능을 보여줍니다. 모델 설계 측면에서 우리는 디코더 전용 다중 모드 LLM(예: LLaVA)과 교차 주의 기반 모델(예: Flamingo) 간의 포괄적인 비교를 수행합니다. 두 접근 방식의 장단점을 기반으로 훈련 효율성과 다중 모드 추론 기능을 모두 향상시키는 새로운 아키텍처를 제안합니다. 또한 타일 기반의 동적 고해상도 이미지를 위한 1D 타일 태깅 디자인을 도입하여 다중 모달 추론 및 OCR 관련 작업의 성능을 크게 향상시킵니다. 학습 데이터와 관련하여 우리는 다중 모달 사전 학습 및 감독된 미세 조정 데이터 세트에 대한 자세한 정보를 꼼꼼하게 선별하고 제공합니다. 우리의 연구 결과에 따르면 모든 아키텍처에 걸쳐 사전 훈련 단계에서도 데이터 세트 품질과 작업 다양성이 규모보다 더 중요합니다. 특히 우리는 NVLM-1.0 모델을 위한 프로덕션급 다중 모드를 개발하여 LLM 백본에 비해 텍스트 전용 성능을 유지하고 향상시키면서 비전 언어 작업에 탁월할 수 있도록 합니다. 이를 달성하기 위해 우리는 상당한 양의 다중 모드 수학 및 추론 데이터와 함께 고품질 텍스트 전용 데이터 세트를 다중 모드 교육에 제작하고 통합하여 양식 전체에 걸쳐 향상된 수학 및 코딩 기능을 제공합니다. 해당 분야의 연구를 발전시키기 위해 우리는 모델 가중치를 공개하고 커뮤니티용 코드를 오픈 소스로 공개할 예정입니다: https://nvlm-project.github.io/. |
2024년 9월 17일 | 프롬프트트리버(Promptriever): 명령 훈련을 받은 리트리버는 언어 모델처럼 프롬프트를 받을 수 있습니다. | LM(명령 조정 언어 모델)은 명령형 명령에 응답할 수 있어 기본 모델에 비해 더 자연스러운 사용자 인터페이스를 제공합니다. 본 연구에서는 LM처럼 프롬프트를 표시할 수 있는 최초의 검색 모델인 Promptriever를 제시합니다. Promptriever를 교육하기 위해 MS MARCO에서 거의 500,000개의 인스턴스에 걸쳐 새로운 인스턴스 수준 교육 세트를 선별하고 출시합니다. Promptriever는 표준 검색 작업에서 뛰어난 성능을 발휘할 뿐만 아니라 지침도 따릅니다. 우리는 다음을 관찰했습니다: (1) 세부 관련성 지침을 따르면 큰 이득(SoTA에 도달)(FollowIR에서 +14.3 p-MRR / +3.1 nDCG), (2) 쿼리+명령의 어휘 선택/구문에 대한 견고성이 크게 증가함(+12.9 InstructIR의 Robustness@10) 및 (3) 검색 성능을 안정적으로 향상시키기 위해 메시지를 통해 하이퍼 매개변수 검색을 수행하는 기능(BEIR의 평균 +1.4 증가). Promptriever는 쿼리별로 프롬프트를 사용하여 검색 모델을 제어할 수 있음을 보여 주면서 LM 프롬프트 기술을 정보 검색과 일치시키는 향후 작업을 위한 단계를 설정합니다. |
2024년 9월 17일 | 양자화 명령 조정 대형 언어 모델의 종합 평가: 최대 405B까지의 실험 분석 | 이전 연구 작업에서는 복잡성이나 몇 가지 기본 지식 작업 및 오래된 데이터 세트와 같은 제한된 측정항목을 사용하여 양자화된 LLM을 평가했습니다. 또한 최대 405B의 Llama 3.1과 같은 최근 대규모 모델은 철저히 조사되지 않았습니다. 이 문서에서는 7B에서 405B까지의 모델에서 다양한 양자화 방법(GPTQ, AWQ, SmoothQuant 및 FP8)에 걸쳐 명령 조정 LLM의 성능을 평가합니다. 13개의 벤치마크를 사용하여 상식 Q&A, 지식 및 언어 이해, 지침 따르기, 환각 감지, 수학 및 대화 등 6가지 작업 유형에 대한 성과를 평가합니다. 우리의 주요 연구 결과에 따르면 (1) 더 큰 LLM을 더 작은 FP16 LLM과 비슷한 크기로 양자화하는 것이 일반적으로 환각 감지 및 지시 따르기를 제외하고 대부분의 벤치마크에서 더 나은 성능을 발휘합니다. (2) 성능은 다양한 양자화 방법, 모델 크기 및 비트 폭에 따라 크게 달라지며, 가중치 전용 방법은 더 큰 모델에서 더 나은 결과를 산출하는 경우가 많습니다. (3) 작업 난이도는 양자화로 인한 정확도 저하에 큰 영향을 미치지 않습니다. (4) MT-Bench 평가 방법은 최근 고성능 LLM 간의 차별력이 제한적입니다. |
2024년 9월 16일 | RetrievalAttention: 벡터 검색을 통해 장기 컨텍스트 LLM 추론 가속화 | Transformer 기반 LLM(대형 언어 모델)이 점점 더 중요해지고 있습니다. 그러나 Attention 계산의 2차 시간 복잡성으로 인해 LLM을 더 긴 컨텍스트로 확장하면 추론 지연 시간이 매우 느려지고 KV(키-값) 벡터 캐싱에 대한 GPU 메모리 소비가 높아집니다. 본 논문에서는 주의 계산을 가속화하고 GPU 메모리 소비를 줄이기 위한 훈련 없는 접근 방식인 RetrievalAttention을 제안합니다. Attention 메커니즘의 동적 희소성을 활용하여 RetrievalAttention은 CPU 메모리의 KV 벡터에 대해 ANNS(Approximous Nearest Neighbor Search) 인덱스를 사용하도록 제안하고 생성 중 벡터 검색을 통해 가장 관련성이 높은 인덱스를 검색합니다. 불행하게도 우리는 어텐션 메커니즘의 쿼리 벡터와 키 벡터 간의 OOD(Out-of-Distribution)로 인해 기성 ANNS 인덱스가 이러한 검색 작업에 효과적이지 않은 경우가 많다는 사실을 관찰했습니다. RetrievalAttention은 쿼리 벡터의 분포에 적응할 수 있는 주의 인식 벡터 검색 알고리즘을 설계하여 OOD 문제를 해결합니다. 우리의 평가에 따르면 RetrievalAttention은 높은 모델 정확도를 유지하면서 데이터의 1~3%에만 액세스하면 됩니다. 이로 인해 GPU 메모리 공간이 훨씬 적은 긴 컨텍스트 LLM의 추론 비용이 크게 절감됩니다. 특히 RetrievalAttention은 8B 매개변수가 있는 LLM에서 128K 토큰을 제공하기 위해 단일 NVIDIA RTX4090(24GB)만 필요하며, 이는 0.188초 안에 하나의 토큰을 생성할 수 있습니다. |
2024년 9월 16일 | 콜모고로프-아놀드 변압기 | Transformer는 현대 딥러닝의 초석입니다. 전통적으로 이러한 모델은 MLP(다층 퍼셉트론) 레이어를 사용하여 채널 간에 정보를 혼합합니다. 본 논문에서는 모델의 표현력과 성능을 향상시키기 위해 MLP 계층을 KAN(Kolmogorov-Arnold Network) 계층으로 대체하는 새로운 아키텍처인 KAT(Kolmogorov-Arnold Transformer)를 소개합니다. 그러나 KAN을 변압기에 통합하는 것은 특히 규모를 확장할 때 쉬운 일이 아닙니다. 구체적으로 우리는 세 가지 주요 과제를 식별합니다. (C1) 기본 기능. KAN에 사용되는 표준 B-스플라인 기능은 최신 하드웨어의 병렬 컴퓨팅에 최적화되어 있지 않아 추론 속도가 느려집니다. (C2) 매개변수 및 계산 비효율성. KAN은 각 입력-출력 쌍에 대해 고유한 기능이 필요하므로 계산량이 매우 커집니다. (C3) 가중치 초기화. KAN의 가중치 초기화는 심층 신경망에서 수렴을 달성하는 데 중요한 학습 가능한 활성화 기능으로 인해 특히 어렵습니다. 앞서 언급한 과제를 극복하기 위해 우리는 세 가지 핵심 솔루션을 제안합니다. (S1) 합리적인 기반. 최신 GPU와의 호환성을 향상시키기 위해 B-스플라인 함수를 합리적인 함수로 대체합니다. 이를 CUDA에서 구현함으로써 더 빠른 계산을 달성할 수 있습니다. (S2) 그룹 칸. 성능 저하 없이 계산 부하를 줄이기 위해 뉴런 그룹을 통해 활성화 가중치를 공유합니다. (S3) 분산 보존 초기화. 활성화 가중치를 신중하게 초기화하여 활성화 분산이 층에 걸쳐 유지되도록합니다. 이러한 설계를 통해 KAT는 기존의 MLP 기반 변압기를 효과적으로 쉽고 쉽게 능가합니다. |
2024 년 9 월 16 일 | 생각의 다이어그램에서 | 우리는 단일 모델 내에서 DAG (Directed Acyclic Graph)를 구성하는 대형 언어 모델 (LLM)의 반복적 추론을 모델링하는 프레임 워크 인 DOT (Diagram of Thought)를 소개합니다. 선형 체인이나 나무로 추론을 나타내는 전통적인 접근 방식과 달리 DOT는 제안, 비판, 개선 및 응집력있는 DAG 구조로의 검증을 구성하여 복잡한 추론 경로를 탐색하면서 논리적 일관성을 유지할 수 있습니다. 다이어그램의 각 노드는 제안, 비판, 개선 또는 검증 된 제안에 해당하여 LLM이 자연어 피드백을 통해 추론을 반복적으로 개선 할 수있게합니다. 역할 별 토큰으로 자동 요정 차세대 토큰 예측을 활용함으로써 DOT는 아이디어 제안과 비판적으로 평가하는 것 사이의 원활한 전환을 용이하게하여 이진 신호보다 풍부한 피드백을 제공합니다. 또한 Topos 이론을 사용하여 DOT 프레임 워크를 공식화하여 추론 프로세스에서 논리적 일관성과 건전성을 보장하는 수학적 기초를 제공합니다. 이 접근법은 단일 LLM 내의 훈련 및 추론 프로세스를 모두 향상시켜 여러 모델 또는 외부 제어 메커니즘의 필요성을 제거합니다. DOT는 차세대 추론 전문화 모델을 설계하기위한 개념적 프레임 워크를 제공하고 교육 효율성, 강력한 추론 능력 및 이론적 근거를 강조합니다. 이 코드는 https://github.com/diagram-of-thought/diagram-of-thought에서 사용할 수 있습니다. |
2024 년 9 월 12 일 | DSBENCH : 데이터 과학 전문가가되는 데 데이터 과학 에이전트는 얼마나 멀리 떨어져 있습니까? | 대형 언어 모델 (LLMS) 및 LVLM (Large Lange-Language Models)은 인상적인 언어/비전 추론 능력을 보여 주었으며, 쇼핑 비서 또는 AI 소프트웨어 엔지니어와 같은 대상 응용 프로그램에 대한 최근 건물 에이전트의 트렌드를 불러 일으켰습니다. 최근에, 많은 데이터 과학 벤치 마크가 데이터 과학 영역에서의 성능을 조사하기 위해 제안되었습니다. 그러나 기존 데이터 과학 벤치 마크는 단순화 된 설정으로 인해 실제 데이터 과학 응용 프로그램과 비교할 때 여전히 부족합니다. 이러한 격차를 해소하기 위해 우리는 현실적인 작업으로 데이터 과학 에이전트를 평가하도록 설계된 포괄적 인 벤치 마크 인 DSBench를 소개합니다. 이 벤치 마크에는 466 개의 데이터 분석 작업과 74 개의 데이터 모델링 작업이 포함되어 있으며 Eloquence 및 Kaggle 경쟁에서 발췌. DSBench는 긴 컨텍스트, 멀티 모달 작업 배경, 대형 데이터 파일 및 다중 테이블 구조로 추론 및 엔드 투 엔드 데이터 모델링 작업을 수행하여 현실적인 설정을 제공합니다. 최첨단 LLM, LVLM 및 에이전트에 대한 우리의 평가는 대부분의 작업과 함께 어려움을 겪고 있으며, 최상의 에이전트는 데이터 분석 작업의 34.12% 만 해결하고 34.74%의 상대 성능 격차 (RPG)를 달성합니다. 이러한 결과는보다 실용적이고 지능적이며 자율적 인 데이터 과학 에이전트를 개발할 때 추가 발전의 필요성을 강조합니다. |
2024 년 9 월 10 일 | Pingpong : 사용자 에뮬레이션 및 멀티 모델 평가를 통해 롤 플레잉 언어 모델의 벤치 마크 | 우리는 언어 모델의 역할 플레이 기능을 평가하기위한 새로운 벤치 마크를 소개합니다. 우리의 접근 방식은 언어 모델 자체를 활용하여 동적, 다중 회전 대화에서 사용자를 모방하고 결과 대화를 평가합니다. 프레임 워크는 세 가지 주요 구성 요소로 구성됩니다. 특정 문자 역할을 가정하는 플레이어 모델, 사용자 행동을 시뮬레이션하는 심문자 모델 및 대화 품질을 평가하는 판사 모델. 우리는 자동 평가를 인간 주석과 비교하여 접근 방식을 검증하여 여러 기준에서 강력한 상관 관계를 보여주었습니다. 이 작업은 대화식 시나리오에서 모델 기능에 대한 강력하고 역동적 인 평가를위한 토대를 제공합니다. |
2024 년 9 월 10 일 | llama-omni : 큰 언어 모델과의 원활한 음성 상호 작용 | GPT-4O와 같은 모델은 음성을 통해 대형 언어 모델 (LLM)과 실시간 상호 작용을 가능하게하여 전통적인 텍스트 기반 상호 작용에 비해 사용자 경험을 크게 향상시킵니다. 그러나 오픈 소스 LLM을 기반으로 음성 상호 작용 모델을 구축하는 방법에 대한 탐구가 여전히 부족합니다. 이를 해결하기 위해 LLMS와의 불가능하고 고품질의 음성 상호 작용을 위해 설계된 새로운 모델 아키텍처 인 Llama-Omni를 제안합니다. LLAMA-OMNI는 사전에 미리 연설 인코더, 음성 어댑터, LLM 및 스트리밍 음성 디코더를 통합합니다. 음성 전사가 필요하지 않으며, 대기 시간이 매우 낮은 음성 지침에서 직접 텍스트 및 음성 응답을 동시에 생성 할 수 있습니다. 우리는 최신 LLAMA-3.1-8B 강조 모델을 기반으로 모델을 구축합니다. 음성 상호 작용 시나리오와 모델을 정렬하려면 200k 음성 지침 및 해당 음성 응답이 포함 된 ordercts2s-200k라는 데이터 세트를 구성합니다. 실험 결과에 따르면 이전 음성 언어 모델과 비교하여 Llama-Omni는 콘텐츠와 스타일 모두에서 226ms의 응답 대기 시간을 더 잘 제공합니다. 또한 Llama-Omni를 훈련시키는 것은 단 4 개의 GPU에서 3 일 미만이 걸리며 향후 언어 모델의 효율적인 개발을위한 길을 열어줍니다. |
2024 년 9 월 10 일 | 대형 언어 모델이 새로운 과학적 연구 아이디어를 잠금 해제 할 수 있습니까? | "아이디어는 오래된 요소의 새로운 조합보다 더 많거나 적지 않습니다"(Young, JW). LLMS (Large Language Model)와 공개적으로 이용 가능한 Chatgpt의 광범위한 채택은 인공 지능 (AI)을 사람들의 일상 생활에 통합하는 데 중요한 전환점을 표시했습니다. 이 연구는 연구 논문의 정보를 기반으로 새로운 연구 아이디어를 생성 할 때 LLM의 능력을 탐구합니다. 우리는 5 개의 도메인 (예 : 화학, 컴퓨터, 경제, 의료 및 물리학)에서 4 개의 LLM을 철저히 검토합니다. 우리는 Claude-2와 GPT-4에 의해 생성 된 미래의 연구 아이디어가 GPT-3.5 및 Gemini보다 저자의 관점과 더 일치한다는 것을 발견했습니다. 우리는 또한 Claude-2가 GPT-4, GPT-3.5 및 Gemini 1.0보다 더 다양한 미래 연구 아이디어를 생성한다는 것을 발견했습니다. 우리는 생성 된 미래의 연구 아이디어의 참신, 관련성 및 타당성에 대한 인간 평가를 더욱 수행했습니다. 이 조사는 아이디어 생성에서 LLM의 진화하는 역할에 대한 통찰력을 제공하여 기능과 한계를 모두 강조합니다. 우리의 작업은 미래의 연구 아이디어를 생성하기 위해 언어 모델을 평가하고 활용하는 지속적인 노력에 기여합니다. 우리는 데이터 세트와 코드를 공개적으로 제공합니다. |
2024 년 9 월 9 일 | Songcreator : 가사 기반 보편적 인 노래 세대 | 음악은 인간의 지능과 창의성을 구현하는 인간 문화의 필수 부분으로, 노래는 필수 부분을 구성합니다. 노래 생성의 다양한 측면은 노래 음성, 보컬 작곡 및 악기 배열 등과 같은 이전 작품에 의해 탐구되었지만 가사가 주어진 보컬과 반주의 노래를 생성하는 노래를 생성하는 것은 여전히 중요한 도전으로 남아 있으며, 음악 생성 모델의 적용을 방해합니다. 현실 세계. 이러한 관점에서, 우리는이 도전을 해결하기 위해 설계된 송 세대 시스템 인 Songcreator를 제안합니다. 이 모델에는 송 생성을위한 보컬 및 반주의 정보를 캡처하기 위해 세 심하게 설계된 듀얼 시퀀스 언어 모델 (DSLM)과 DSLM을위한 추가주의 마스크 전략을 캡처하여 모델을 이해, 생성 및 편집 할 수 있습니다. , 다양한 노래 관련 세대 작업에 적합합니다. 광범위한 실험은 8 가지 작업 모두에서 최첨단 또는 경쟁력있는 성과를 달성함으로써 SongCreator의 효과를 보여줍니다. 특히, 그것은 가사와 가사에서 비판사에서 큰 마진으로 이전 작품을 능가합니다. 또한, 다양한 프롬프트를 통해 생성 된 노래의 보컬과 반주의 음향 조건을 독립적으로 제어하여 잠재적 인 적용 가능성을 나타냅니다. 당사의 샘플은 https://songcreator.github.io/에서 제공됩니다. |
2024 년 9 월 9 일 | Hyperagent : 일반 소프트웨어 엔지니어링 에이전트를 규모로 코딩 작업을 해결합니다. | LLM (Lange Language Models)은 소프트웨어 엔지니어링 (SE)에 혁명을 일으켜 다양한 코딩 작업에서 놀라운 기능을 보여줍니다. 최근의 노력으로 엔드 투 엔드 개발 작업을위한 LLM을 기반으로 자율 소프트웨어 에이전트를 생산했지만 이러한 시스템은 일반적으로 특정 SE 작업을 위해 설계되었습니다. 우리는 인간 개발자의 워크 플로를 모방함으로써 다양한 프로그래밍 언어에서 광범위한 SE 작업을 해결하도록 설계된 소설 일반인 다 사용 시스템 인 Hyperagent를 소개합니다. 플래너, 네비게이터, 코드 편집기 및 집행자의 4 가지 전문 에이전트로 구성됩니다. Hyperagent는 초기 개념에서 최종 검증에 이르기까지 SE 작업의 전체 수명주기를 관리합니다. Hyperagent는 광범위한 평가를 통해 다양한 SE 작업에서 최첨단 성과를 달성합니다. SWE-Bench-Lite에서 25.01%의 성공률을 달성하고 GitHub 문제 해결을 위해 SWE-Bench-VERIFIED에서 31.40%를 차지하여 기존 방법을 능가합니다. 또한 Hyperagent는 저장소 수준 코드 생성 (RepoExec) 및 결함 현지화 및 프로그램 수리 (DefectS4J)에서 SOTA 성능을 보여 주며, 종종 특수 시스템을 능가합니다. 이 작업은 다양한 도메인 및 언어에서 복잡한 다중 단계 SE 작업을 처리 할 수있는 다재다능하고 자율적 인 에이전트에 대한 상당한 발전을 나타냅니다. |
2024 년 9 월 9 일 | 메모리 : 메모리에서 영감을 얻은 지식 발견을 통해 차세대 걸레로 이동합니다 | 검색된 세대 (RAG)를 활용하여 검색 도구를 활용하여 외부 데이터베이스에 액세스하여 최적화 된 컨텍스트를 통해 LLMS (Large Language Model)의 생성 품질을 향상시킵니다. 그러나 기존 검색 방법은 명시 적으로 명시된 쿼리와 잘 형성된 지식간에 관련성을 일치시킬 수 있지만 모호한 정보 요구 또는 구조화되지 않은 지식과 관련된 작업을 처리 할 수 없으므로 본질적으로 제한됩니다. 결과적으로, 기존 래그 시스템은 주로 간단한 질문 응답 작업에 효과적입니다. 이 작품에서, 우리는 장기 기억에 힘 입어 소설 검색 세대 패러다임 인 Memorag를 제안합니다. Memorag는 듀얼 시스템 아키텍처를 채택합니다. 한편으로는 가볍지 만 장거리 LLM을 사용하여 데이터베이스의 글로벌 메모리를 형성합니다. 작업이 제시되면 초안 답변을 생성하여 데이터베이스 내에서 유용한 정보를 찾기 위해 검색 도구를 작성합니다. 반면에, 비싸지 만 표현적인 LLM을 활용하여 검색된 정보를 기반으로 궁극적 인 답변을 생성합니다. 이 일반적인 프레임 워크를 바탕으로 클루 링 메커니즘과 암기 능력을 향상시켜 메모아그의 성능을 더욱 최적화합니다. 우리의 실험에서 메모러는 기존의 헝겊이 실패하는 복잡한 헝겊과 헝겊이 일반적으로 적용되는 간단한 복잡한 것들을 포함하여 다양한 평가 작업에서 우수한 성능을 달성합니다. |
2024 년 9 월 8 일 | Onegen : 효율적인 1 패스 통합 생성 및 LLM에 대한 검색 | 다양한 NLP 작업의 생성 기능을 크게 향상시킨 LLM (Large Language Models)의 최근 발전에도 불구하고 LLM은 여전히 검색 작업을 직접 처리하는 데 제한이 직면하고 있습니다. 그러나 많은 실제 응용 프로그램은 검색과 세대의 원활한 통합을 요구합니다. 이 논문은 세대와 검색이 필요한 작업에 대한 LLMS의 성능을 향상 시키도록 설계된 새롭고 효율적인 1 패스 생성 및 검색 프레임 워크 (Onegen)를 소개합니다. 제안 된 프레임 워크는 자율적으로 생성 된 검색 토큰을 통합하여 전통적으로 별도의 훈련 접근법을 생성 및 검색 접근법을 연결합니다. 이를 통해 단일 LLM은 통합 된 포워드 패스에서 두 작업을 동시에 처리 할 수 있습니다. 우리는 훈련 및 추론에서 Onegen의 플러그 성, 효과 및 효율성을 검증하기 위해 두 가지 유형의 복합 작업, Rag 및 Entity Linking에 대한 실험을 수행합니다. 또한, 우리의 결과는 동일한 컨텍스트 내에서 생성 및 검색 통합이 검색 성능을 향상시키면서 LLM의 생성 기능을 유지한다는 것을 보여줍니다. 우리가 아는 한, Onegen은 LLM이 세대 동안 벡터 검색을 수행 할 수있는 최초의 사람입니다. |
2024 년 9 월 6 일 | Paper Copilot : 개인화 된 학업 지원을위한 자체 진화 및 효율적인 LLM 시스템 | 과학적 연구가 확산되면서 연구자들은 방대한 양의 문헌을 탐색하고 읽는 어려운 과제에 직면 해 있습니다. 문서 QA와 같은 기존 솔루션은 개인화되고 최신 정보를 효율적으로 제공하지 못합니다. 우리는 Thoughtreverval, 사용자 프로필 및 고성능 최적화를 기반으로 연구자들을 돕기 위해 설계된 자체 진화하고 효율적인 LLM 시스템 인 Paper Copilot을 제시합니다. 특히 Paper Copilot은 개인화 된 연구 서비스를 제공하여 실시간 업데이트 된 데이터베이스를 유지할 수 있습니다. 정량적 평가는 종이 사본이 효율적인 배치 후 69.92%를 절약한다는 것을 보여줍니다. 이 논문은 종이 부실로의 설계 및 구현을 자세히 설명하며, 개인화 된 학업 지원에 대한 기여와 연구 과정을 간소화 할 수있는 잠재력을 강조합니다. |
2024 년 9 월 5 일 | 대형 언어 모델의주의 헤드 : 설문 조사 | Chatgpt의 출현 이후, LLM (Large Language Models)은 다양한 작업에서 뛰어 났지만 블랙 박스 시스템으로 남아 있습니다. 결과적으로 LLM의 추론 병목 현상은 주로 내부 아키텍처의 영향을받습니다. 결과적으로 많은 연구자들은 LLM의 잠재적 인 내부 메커니즘을 탐색하기 시작했으며 대부분의 연구는주의 헤드에 중점을 둡니다. 우리의 설문 조사는주의 헤드의 기본 메커니즘에 집중함으로써 LLM의 내부 추론 프로세스에 대해 밝히는 것을 목표로합니다. 우리는 먼저 인간의 사고 과정을 4 단계 프레임 워크로 증류합니다 : 지식 리콜, 텍스트 내 식별, 잠재적 추론 및 표현 준비. 이 프레임 워크를 사용하여 기존 연구를 체계적으로 검토하여 특정주의 헤드의 기능을 식별하고 분류합니다. 또한, 우리는 이러한 특수 헤드를 발견하는 데 사용되는 실험 방법론을 요약하여 모델링이없는 방법과 모델링에 대한 방법의 두 가지 범주로 나뉩니다. 또한 관련 평가 방법 및 벤치 마크를 간략하게 설명합니다. 마지막으로, 우리는 현재 연구의 한계에 대해 논의하고 몇 가지 잠재적 인 미래 방향을 제안합니다. |
2024 년 9 월 5 일 | 코드 LLM은 어떻게 수행합니까? 고품질 데이터로 코드 명령 튜닝 권한 부여 | 최근에 더 나은 코드 명령 튜닝 데이터를 구성하는 방법을 연구하는 데 관심이 커지고 있습니다. 그러나 이러한 데이터 세트로 훈련 된 코드 모델은 HumaneVal에서 고성능을 보여 주지만 LiveCodeBench와 같은 다른 벤치 마크에서는 더 나빠집니다. 추가 조사 후, 우리는 많은 데이터 세트가 심각한 데이터 누출로 고통 받고 있음을 발견했습니다. 유출 된 데이터의 대부분을 정리 한 후 잘 알려진 고품질 데이터 세트가 제대로 작동하지 않습니다. 이 발견은 새로운 도전을 보여줍니다. 어떤 데이터 세트가 진정으로 고품질 코드 명령 데이터로 자격이되는지 식별합니다. 이를 해결하기 위해 우수한 샘플을 선택하기위한 효율적인 코드 데이터 치기 전략을 제안합니다. 우리의 접근 방식은 교육 복잡성, 응답 품질 및 교육 다양성의 세 가지 차원을 기반으로합니다. 선택된 데이터를 기반으로 LLAMA3에서 미세한 모델 제품군 인 Xcoder를 제시합니다. 우리의 실험에 따르면 Xcoder는 더 적은 교육 데이터를 사용하여 새로운 최첨단 성능을 달성하여 데이터 전략의 효과를 확인합니다. 또한 데이터 구성에 대한 포괄적 인 분석을 수행하고 기존 코드 데이터 세트가 건설 방법에 따라 다른 특성을 가지고 있으며 향후 코드 LLM에 대한 새로운 통찰력을 제공합니다. 우리의 모델과 데이터 세트는 https://github.com/banksy23/xcoder로 출시됩니다 |
2024 년 9 월 5 일 | MOOC에서 MAIC까지 : LLM 중심 에이전트를 통한 온라인 교육 및 학습 재구성 | 코스가 액세스 가능하고 공유 된 온라인 플랫폼에 업로드 된 온라인 교육의 첫 번째 사례 이후, 이러한 형태의 인간 지식의 보급을 광범위한 잠재 고객에게 도달 할 수있는이 형태는 광범위한 토론과 광범위한 채택을 일으켰습니다. 개인화 된 학습은 여전히 개선의 잠재력이 여전히 크다는 것을 인식하면서, 새로운 AI 기술은이 학습 형식에 지속적으로 통합되어 교육 추천 및 지능형지도와 같은 다양한 교육 AI 응용 프로그램이 생성되었습니다. LLM (Lange Language Model)에서의 지능의 출현으로 인해 이러한 교육 향상은 통합 된 기초 모델에 구축 될 수있어 더 깊은 통합을 가능하게했습니다. 이러한 맥락에서, 우리는 LLM 중심의 다중 에이전트 시스템을 활용하여 AI-augmented 교실을 구성하여 확장 성을 적응성으로 균형을 맞추는 새로운 형태의 온라인 교육 인 MAIC (Massive AI-Empowered Course)를 제안합니다. 우리는 개념적 틀과 기술 혁신을 탐구하는 것 외에도 중국의 주요 대학 중 하나 인 Tsinghua University에서 예비 실험을 수행합니다. 500 명 이상의 학생들에 대한 100,000 개 이상의 학습 기록에서 우리는 일련의 귀중한 관찰과 초기 분석을 얻습니다. 이 프로젝트는 궁극적으로 대규모 모델 AI 시대의 온라인 교육 가능성을 탐색 할 때 연구, 기술 및 응용 프로그램을 지원하고 통합하는 포괄적 인 개방 플랫폼을 설립하는 것을 목표로합니다. 우리는이 플랫폼을 협업 허브로 구상하여 교육자, 연구원 및 혁신가들을 모아 AI 중심의 온라인 교육의 미래를 집합 적으로 탐구합니다. |
2024 년 9 월 4 일 | Longcite : LLMS가 장기 텍스트 QA에서 세밀한 인용을 생성 할 수 있도록합니다. | 현재의 긴 컨텍스트 대형 언어 모델 (LLM)은 광범위한 텍스트를 기반으로 사용자 질문에 응답하는 데 인상적인 역량을 보여 주었지만 응답의 인용 부족으로 인해 사용자 검증이 어렵게되어 잠재적 환각으로 인한 신뢰성에 대한 우려를 초래합니다. 이 작업에서, 우리는 장기 텍스트 LLM이 세밀한 문장 수준 인용으로 응답을 생성하여 신실함과 검증 가능성을 향상시킬 수 있도록하는 것을 목표로합니다. 우리는 먼저 인용 (LQAC)에 대한 긴 컨텍스트 질문 (LQAC)에서 현재 LLM의 성능을 평가하기위한 자동화 된 벤치 마크 인 Longbench-Cite를 소개하여 개선의 상당한 공간을 보여줍니다. 이를 위해, 우리는 상용 LLM을 사용하여 정확한 문장 수준의 인용으로 긴 컨텍스트 QA 인스턴스를 자동으로 생성 하고이 파이프 라인을 활용하여 Longcite-45K, LQAC 용 대규모 SFT 데이터 세트. 마지막으로, 우리는 Longcite-45K 데이터 세트를 사용하여 Longcite-8B 및 Longcite-9B를 훈련시켜 단일 출력에서 정확한 응답과 세분화 된 문장 수준 인용을 성공적으로 가능하게합니다. Longbench-Cite에 대한 평가 결과는 우리의 숙련 된 모델이 GPT-4O를 포함한 고급 독점 모델을 능가하는 최첨단 인용 품질을 달성 함을 보여줍니다. |
2024 년 9 월 4 일 | Longllava : 하이브리드 아키텍처를 통해 멀티 모달 LLM을 1000 개의 이미지로 스케일링 | 멀티 모달 대형 언어 모델의 장기 텍스트 기능을 확장하는 것은 비디오 이해, 고해상도 이미지 이해 및 다중 모달 에이전트에 중요합니다. 여기에는 모델 아키텍처, 데이터 구성 및 교육 전략을 포함한 일련의 체계적인 최적화가 포함됩니다. 특히 textit {더 많은 이미지} 및 textit {High Computational Imer}와 같은 텍스트 {성능 저하 성능과 같은 문제를 해결합니다. 이 논문에서는 모델 아키텍처를 Mamba 및 Transformer 블록의 하이브리드에 조정하고 여러 이미지간에 시간적 및 공간 의존성을 사용하여 데이터 구성에 접근하고 점진적인 교육 전략을 사용합니다. 출시 된 모델 textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} ision textbf {a} ssistant) 첫 번째 하이브리드 MLLM은 효율성과 효과 사이의 균형을 향상 시켰습니다. Longllava는 다양한 벤치 마크에서 경쟁력있는 결과를 얻을뿐만 아니라 높은 처리량과 낮은 메모리 소비를 유지합니다. 특히 단일 A100 80GB GPU에서 거의 천 이미지를 처리 할 수 있으며 광범위한 작업에 대한 유망한 응용 프로그램 전망을 보여줍니다. |
2024 년 9 월 4 일 | 큰 언어 모델에 대한 선호도 학습에 대한 통일 된 견해를 향해 : 설문 조사 | 대형 언어 모델 (LLMS)은 놀랍도록 강력한 기능을 보여줍니다. 성공을 달성하기위한 중요한 요소 중 하나는 LLM의 출력을 인간 선호도와 정렬하는 것입니다. 이 정렬 프로세스는 종종 LLM의 성능을 효율적으로 향상시키기 위해 소량의 데이터 만 필요합니다. 효과적이지만이 분야의 연구는 여러 도메인에 걸쳐 있으며 관련된 방법은 이해하기에 비교적 복잡합니다. 다른 방법들 사이의 관계는 탐구되지 않았으며, 선호도 정렬의 발달을 제한합니다. 이에 비추어, 우리는 기존의 대중 정렬 전략을 다른 구성 요소로 분류하고 현재 정렬 전략을 연구 할 수있는 통합 프레임 워크를 제공하여 그들 사이에 연결을 설정합니다. 이 설문 조사에서는 선호하는 학습의 모든 전략을 모델, 데이터, 피드백 및 알고리즘의 네 가지 구성 요소로 분해합니다. 이 통합 관점은 기존 정렬 알고리즘에 대한 심층적 인 이해를 제공하고 다양한 전략의 강점을 상승 할 수있는 가능성을 열어줍니다. 또한 독자들에 대한 포괄적 인 이해를 촉진하기 위해 기존 알고리즘의 널리 사용되는 자세한 작업 예를 제시합니다. 마지막으로, 통일 된 관점을 바탕으로, 우리는 대형 언어 모델을 인간의 선호도와 정렬하기위한 도전과 미래의 연구 방향을 탐구합니다. |
2024 년 9 월 4 일 | 다중 회전 반복 선호도 학습을 가진 수학 에이전트 구축 | 최근의 연구에 따르면 코드 통역사와 같은 외부 도구를 통합하고 다중 회전 체인 (COT) 추론을 사용함으로써 대형 언어 모델 (LLMS) 수학적 문제 해결 기능을 향상시킬 수 있습니다. 현재의 방법은 합성 데이터 생성 및 SFT (Supervised Fine Tuning)에 중점을두고 있지만,이 논문은 모델 성능을 더욱 향상시키기위한 보완적인 직접적인 선호도 학습 접근법을 연구합니다. 그러나 기존 직접 환경 학적 학습 알고리즘은 원래 단일 회전 채팅 작업을 위해 설계되었으며 공구 통합 수학적 추론 작업에 필요한 다중 회전 추론 및 외부 도구 통합의 복잡성을 완전히 해결하지 못합니다. 이 차이를 메우기 위해, 우리는 코드 통역사의 피드백을 활용하고 궤적 수준 선호도를 최적화하는 이러한 맥락에 맞게 조정 된 다중 회전 직접 선호도 학습 프레임 워크를 소개합니다. 이 프레임 워크에는 다중 회전 DPO 및 다중 전환 KTO가 특정 구현으로 포함됩니다. 프레임 워크의 효과는 GSM8K 및 수학 데이터 세트에서 강화 된 프롬프트를 사용하여 다양한 언어 모델의 교육을 통해 검증됩니다. 우리의 결과는 상당한 개선을 보여줍니다. 감독 된 미세 조정 된 Gemma-1.1-IT-7B 모델의 성능은 GSM8K에서 77.5%에서 83.9%로, 수학에서 46.1%에서 51.2%로 증가했습니다. 마찬가지로 Gemma-2-IT-9B 모델은 GSM8K에서 84.1%에서 86.3%로, 수학에서 51.0%에서 54.5%로 향상되었습니다. |
2024 년 9 월 3 일 | Olmoe : 열린 혼합 언어 모델 | 우리는 Sparse Mix-of-Experts (MOE)를 활용하는 완전히 개방적이고 최신 언어 모델 인 Olmoe를 소개합니다. OLMOE-1B-7B에는 70 억 (B) 매개 변수가 있지만 입력 토큰 당 1B 만 사용합니다. 우리는 5 조 5 조의 토큰에 그것을 사전에 사전에 사전하고 olmoe-1B-7B 비조장을 만들기 위해 더 많이 적응합니다. 우리의 모델은 유사한 활성 매개 변수로 사용 가능한 모든 모델을 능가하며 LLAMA2-13B-Chat 및 DeepSeekMoe-16B와 같은 더 큰 모델을 능가합니다. 우리는 MOE 훈련에 대한 다양한 실험을 제시하고, 고급 전문화를 보여주는 모델에서 라우팅을 분석하며, 모델 가중치, 교육 데이터, 코드 및 로그와 같은 작업의 모든 측면을 오픈 소스로 보냅니다. |
2024 년 9 월 2 일 | Genagent : 자동화 된 워크 플로 생성을 갖춘 협업 AI 시스템 구축 - Comfyui에 대한 사례 연구 | 이전의 많은 AI 연구는 특정 작업에 대한 성능을 향상시키는 주요 목표와 함께 지능과 기능을 극대화하기 위해 모 놀리 식 모델을 개발하는 데 중점을 두었습니다. 대조적으로,이 논문은 대체 접근법을 탐구합니다. 워크 플로를 사용하여 모델, 데이터 소스 및 파이프 라인을 통합하여 복잡하고 다양한 작업을 해결하는 협업 AI 시스템. 우리는 복잡한 워크 플로를 자동으로 생성하는 LLM 기반 프레임 워크 인 Genagent를 소개하여 모 놀리 식 모델에 비해 유연성과 확장 성을 더 많이 제공합니다. Genagent의 핵심 혁신은 코드를 사용하여 워크 플로우를 표현하는 데 있으며 협업 에이전트와의 워크 플로우를 단계별로 구성하는 데 있습니다. 우리는 Comfyui 플랫폼에서 Genagent를 구현하고 새로운 벤치 마크 인 OpenComfy를 제안합니다. 결과는 Genagent가 런 레벨 및 작업 수준 평가에서 기준선 접근 방식을 능가하여 우수한 효과와 안정성을 갖는 복잡한 워크 플로를 생성 할 수있는 능력을 보여줍니다. |
2024 년 9 월 2 일 | videollamb : 반복적 인 메모리 브리지를 사용한 긴 컨텍스트 비디오 이해 | 대규모 비디오 언어 모델의 최근 발전은 실시간 계획과 상세한 상호 작용에 상당한 잠재력을 보여주었습니다. 그러나 높은 계산 요구와 주석이 달린 데이터 세트의 부족은 학술 연구자들에게 실용성을 제한합니다. 이 작업에서 우리는 브리지 레이어 내의 시간 메모리 토큰을 사용하여 역사적 시각적 데이터와 함께 전체 비디오 시퀀스를 인코딩하여 의미 론적 연속성을 효과적으로 보존하고 다양한 작업에서 모델 성능을 향상시킬 수있는 새로운 프레임 워크 인 Videollamb을 소개합니다. 이 접근법에는 반복 메모리 토큰과 SceneTilling allgorithm이 포함되어 있으며, 이는 동시에 동시성을 보존하기 위해 독립적 인 의미 단위로 비디오를 세그어링합니다. 경험적으로, Videollamb은 기존의 비디오 언어 모델을 크게 능가하여 3 개의 VideoQA 벤치 마크에서 경쟁 업체보다 5.5 점, 자아 중심 계획에서 2.06 점을 보여줍니다. MVbench의 포괄적 인 결과는 Videollamb-7B가 동일한 LLM의 이전 7B 모델보다 현저하게 더 나은 결과를 달성 함을 보여줍니다. 놀랍게도 비디오 길이가 최대 8 배 증가하더라도 Pllava로 강력한 성능을 유지합니다. 또한, NIAVH (Video Haystack) 벤치 마크에서 전문 바늘의 프레임 검색 결과는 긴 비디오 내에서 특정 프레임을 정확하게 식별 할 때 Videollamb의 능력을 더 검증합니다. 우리의 SceneTillalling 알고리즘은 추가 교육이 필요하지 않고 스트리밍 비디오 캡션을 직접 생성 할 수 있습니다. 효율성 측면에서 16 프레임으로 훈련 된 Videollamb은 선형 GPU 메모리 스케일링을 갖춘 단일 NVIDIA A100 GPU에서 최대 320 프레임을 지원하여 고성능 및 비용 효율성을 보장하여 장기 형식의 비디오 언어에 대한 새로운 기반을 설정합니다. 학업 및 실제 응용 프로그램의 모델. |
2024 년 9 월 1 일 | ContextCite : 모델 생성을 컨텍스트에 기인합니다 | 언어 모델은 응답을 생성 할 때 제공된 정보를 컨텍스트로 어떻게 사용합니까? 특정 생성 된 진술이 실제로 맥락에서 근거, 잘못 해석 또는 제작되었는지 여부를 추론 할 수 있습니까? 이러한 질문에 대한 답을 얻기 위해 컨텍스트 속성 문제를 소개합니다. 모델이 특정 진술을 생성하는 컨텍스트 (있는 경우)의 부분을 정확히 찾아냅니다. 그런 다음 기존 언어 모델 위에 적용 할 수있는 컨텍스트 속성을위한 간단하고 확장 가능한 방법 인 ContextCite를 제시합니다. 마지막으로, 우리는 세 가지 응용 프로그램을 통해 ContextCite의 유용성을 보여줍니다. (1) 생성 된 진술을 확인하는 데 도움을줍니다 (2) 컨텍스트를 치리하여 응답 품질 향상 및 (3) 중독 공격 감지. 우리는 https://github.com/madrylab/context-cite에서 ContextCite 코드를 제공합니다. |
2024 년 8 월 31 일 | Longrecipe : 대형 언어 모델에서 효율적인 긴 맥락 일반화를위한 레시피 | 대형 언어 모델 (LLMS)은 사전 조정 중에 제한된 효과적인 컨텍스트 창 크기로 인해 장기 텍스트 작업을 처리하는 데 중요한 문제에 직면하여 확장 된 시퀀스를 통해 일반화하는 능력을 제한합니다. 한편, 사후 예약을 통해 LLM의 컨텍스트 창을 확장하는 것은 매우 자원 집약적입니다. 이를 해결하기 위해 우리는 영향력있는 토큰 분석, 위치 색인 변환 및 교육 최적화 전략을 포함하여 LLM의 컨텍스트 창을 확장하기위한 효율적인 교육 전략 인 Longrecipe를 소개합니다. 교육 효율성을 유지하면서 긴 시퀀스 입력을 시뮬레이션하고 장거리 종속성에 대한 모델의 이해를 크게 향상시킵니다. 3 가지 유형의 LLM에 대한 실험은 Longrecipe가 긴 시퀀스를 활용하면서 목표 컨텍스트 창 크기의 30%만을 요구할 수 있으며 전체 시퀀스 교육에 비해 85% 이상의 계산 훈련 자원을 줄일 수 있음을 보여줍니다. 또한 Longrecipe는 일반 작업에서 원래 LLM의 기능을 보존합니다. 궁극적으로, 우리는 오픈 소스 LLM의 효과적인 컨텍스트 창을 8K에서 128K로 확장하여 80g 메모리가있는 단일 GPU를 사용하여 하루의 전용 교육을 통해 GPT-4에 가까운 성능을 달성 할 수 있습니다. 우리의 코드는 https://github.com/zhiyuanhubj/longrecipe에서 출시됩니다. |
2024 년 8 월 29 일 | MINI-OMNI : 언어 모델은들을 수 있습니다. | 최근 언어 모델의 발전으로 인해 상당한 진전이있었습니다. 새로운 이정표 인 GPT-4O는 인간과의 실시간 대화를 가능하게하여 인간에 가까운 자연 유창성을 보여주었습니다. 이러한 인간 컴퓨터 상호 작용은 오디오 모드와 직접 추론을 수행하고 스트리밍에서 출력을 생성 할 수있는 기능을 갖는 모델을 필요로합니다. 그러나 이것은 일반적으로 언어 합성을위한 추가 TTS 시스템에 의존하여 바람직하지 않은 대기 시간을 초래하기 때문에 현재 학업 모델의 범위를 벗어난다. 이 논문은 실시간 음성 상호 작용을 할 수있는 오디오 기반 엔드 투 엔드 대화 모델 인 미니 오노이를 소개합니다. 이 기능을 달성하기 위해, 우리는 성능을 더욱 향상시키기위한 추론 중에 배치-평행 전략과 함께 텍스트로 인한 음성 생성 방법을 제안합니다. 우리의 방법은 또한 최소한의 저하로 원래 모델의 언어 기능을 유지하는 데 도움이되므로 다른 작업이 실시간 상호 작용 기능을 설정할 수 있습니다. 우리는이 훈련 방법을 "모든 모델에 대해 이야기 할 수 있습니다"라고 부릅니다. 또한 음성 출력에 최적화 된 모델을 미세 조정하기 위해 Voiceassistant-400K 데이터 세트를 소개합니다. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research. |
29th August 2024 | Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever | Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this work we propose a number of incremental improvements to the ColBERT model architecture and training pipeline, using methods shown to work in the more mature single-vector embedding model training paradigm, particularly those that apply to heterogeneous multilingual data or boost efficiency with little tradeoff . Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks. |
28th August 2024 | CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization | Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available. |
28th August 2024 | SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding | Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks. |
Join 1000+ students on this 10-week adventure as we delve into the application of LLMs across a variety of use cases
?️*Week 1 [Jan 15 2024] *: Practical Introduction to LLMs
?️*Week 2 [Jan 22 2024] *: Prompting and Prompt Engineering
?️*Week 3 [Jan 29 2024] *: LLM Fine-tuning
?️*Week 4 [Feb 5 2024] *: RAG (Retrieval-Augmented Generation)
?️*Week 5 [ Feb 12 2024] *: Tools for building LLM Apps
?️*Week 6 [Feb 19 2024] *: Evaluation Techniques
?️*Week 7 [Feb 26 2024] *: Building Your Own LLM Application
?️*Week 8 [March 4 2024] *: Advanced Features and Deployment
?️*Week 9 [March 11 2024] *: Challenges with LLMs
?️*Week 10 [March 18 2024] *: Emerging Research Trends
?️*Week 11 *Bonus* [March 25 2024] *: Foundations
Large Language Models by ETH Zurich
Understanding Large Language Models by Princeton
Transformers course by Huggingface
NLP course by Huggingface
CS324 - Large Language Models by Stanford
Generative AI with Large Language Models by Coursera
Introduction to Generative AI by Coursera
Generative AI Fundamentals by Google Cloud
Introduction to Large Language Models by Google Cloud
Introduction to Generative AI by Google Cloud
Generative AI Concepts by DataCamp (Daniel Tedesco Data Lead @ Google)
1 Hour Introduction to LLM (Large Language Models) by WeCloudData
LLM Foundation Models from the Ground Up | Primer by Databricks
Generative AI Explained by Nvidia
Transformer Models and BERT Model by Google Cloud
Generative AI Learning Plan for Decision Makers by AWS
Introduction to Responsible AI by Google Cloud
Fundamentals of Generative AI by Microsoft Azure
Generative AI for Beginners by Microsoft
ChatGPT for Beginners: The Ultimate Use Cases for Everyone by Udemy
[1hr Talk] Intro to Large Language Models by Andrej Karpathy
ChatGPT for Everyone by Learn Prompting
Large Language Models (LLMs) (In English) by Kshitiz Verma (JK Lakshmipat University, Jaipur, India)
LLMOps: Building Real-World Applications With Large Language Models by Udacity
Full Stack LLM Bootcamp by FSDL
Generative AI for beginners by Microsoft
Large Language Models: Application through Production by Databricks
Generative AI Foundations by AWS
Introduction to Generative AI Community Course by ineuron
LLM University by Cohere
LLM Learning Lab by Lightning AI
LangChain for LLM Application Development by Deeplearning.AI
LLMOps by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Building Generative AI Applications Using Amazon Bedrock by AWS
Efficiently Serving LLMs by DeepLearning.AI
Building Systems with the ChatGPT API by DeepLearning.AI
Serverless LLM apps with Amazon Bedrock by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Build LLM Apps with LangChain.js by DeepLearning.AI
Advanced Retrieval for AI with Chroma by DeepLearning.AI
Operationalizing LLMs on Azure by Coursera
Generative AI Full Course – Gemini Pro, OpenAI, Llama, Langchain, Pinecone, Vector Databases & More by freeCodeCamp.org
Training & Fine-Tuning LLMs for Production by Activeloop
LangChain & Vector Databases in Production by Activeloop
Reinforcement Learning from Human Feedback by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Finetuning Large Language Models by Deeplearning.AI
LangChain: Chat with Your Data by Deeplearning.AI
Building Systems with the ChatGPT API by Deeplearning.AI
Prompt Engineering with Llama 2 by Deeplearning.AI
Building Applications with Vector Databases by Deeplearning.AI
ChatGPT Prompt Engineering for Developers by Deeplearning.AI
Advanced RAG Orchestration series by LlamaIndex
Prompt Engineering Specialization by Coursera
Augment your LLM Using Retrieval Augmented Generation by Nvidia
Knowledge Graphs for RAG by Deeplearning.AI
Open Source Models with Hugging Face by Deeplearning.AI
Vector Databases: from Embeddings to Applications by Deeplearning.AI
Understanding and Applying Text Embeddings by Deeplearning.AI
JavaScript RAG Web Apps with LlamaIndex by Deeplearning.AI
Quantization Fundamentals with Hugging Face by Deeplearning.AI
Preprocessing Unstructured Data for LLM Applications by Deeplearning.AI
Retrieval Augmented Generation for Production with LangChain & LlamaIndex by Activeloop
Quantization in Depth by Deeplearning.AI
If you want to add to the repository or find any issues, please feel free to raise a PR and ensure correct placement within the relevant section or category.
To cite this guide, use the below format:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT License]