Generative AI는 급속한 성장을 경험하고 있으며, 이 저장소는 Generative AI 연구, 인터뷰 자료, 노트북 등에 대한 업데이트를 위한 포괄적인 허브 역할을 합니다.
다음 리소스를 살펴보세요.
우리는 이 저장소를 정기적으로 업데이트할 예정이므로 최신 추가 사항을 주의 깊게 살펴보세요!
행복한 학습!
*매월말 업데이트
날짜 | 제목 | 추상적인 | 주제 |
---|---|---|---|
2024년 5월 31일 | LLM은 고차원 정신 이론 작업에서 성인 인간의 성과를 달성합니다. | 이 논문에서는 LLM(대형 언어 모델)이 ToM(고차원 정신 이론)을 개발한 정도를 조사합니다. 반복적인 방식으로 여러 정신적, 감정적 상태에 대해 추론하는 인간의 능력(예: 당신은 그녀가 알고 있다고 생각하는 것 같습니다). 이 문서는 이전 작업을 기반으로 손으로 작성한 테스트 모음인 다중 질서 이론 Q&A를 소개하고 이를 사용하여 5개의 LLM 성능을 새로 수집된 성인 인간 벤치마크와 비교합니다. 우리는 GPT-4와 Flan-PaLM이 전체 ToM 작업에서 성인 수준 및 거의 성인 수준 성능에 도달하고 GPT-4가 6차 추론에서 성인 성능을 초과한다는 것을 발견했습니다. 우리의 결과는 ToM 능력 실현을 위한 모델 크기와 미세 조정 사이에 상호 작용이 있으며, 최고 성능의 LLM이 ToM을 위한 일반화된 용량을 개발했음을 시사합니다. 고차원 ToM이 광범위한 협력적이고 경쟁적인 인간 행동에서 수행하는 역할을 고려할 때 이러한 발견은 사용자 대면 LLM 응용 프로그램에 중요한 영향을 미칩니다. | 마음이론 |
2024년 5월 30일 | JINA CLIP: 귀하의 CLIP 모델이 귀하의 텍스트 검색자이기도 합니다 | CLIP(Contrastive Language-Image Pretraining)는 이미지와 텍스트를 고정 크기 벡터에 매핑하여 공통 임베딩 공간에 정렬하도록 모델을 훈련하는 데 널리 사용됩니다. 이러한 모델은 다중 모드 정보 검색 및 관련 작업의 핵심입니다. 그러나 CLIP 모델은 일반적으로 특수 텍스트 모델에 비해 텍스트 전용 작업에서 성능이 떨어집니다. 이는 텍스트 전용 및 다중 모드 작업에 대해 별도의 임베딩 및 모델을 유지하는 정보 검색 시스템에 비효율성을 초래합니다. 우리는 이 문제를 해결하기 위해 텍스트 이미지와 텍스트 텍스트 검색 작업 모두에서 최첨단 성능을 달성하기 위해 jina-clip-v1 모델을 훈련하는 데 사용하는 새로운 다중 작업 대조 훈련 방법을 제안합니다. . | 다중 모드 모델 |
2024년 5월 30일 | Parrot: 의미 변수를 사용한 LLM 기반 애플리케이션의 효율적인 제공 | 대규모 언어 모델(LLM)의 등장으로 LLM과 기존 소프트웨어의 장점을 결합한 새로운 소프트웨어 패러다임인 LLM 기반 애플리케이션(일명 AI 에이전트 또는 부조종사)이 가능해졌습니다. 다양한 테넌트의 다양한 LLM 애플리케이션은 하나의 작업을 수행하기 위해 여러 LLM 요청을 사용하여 복잡한 워크플로를 설계할 수 있습니다. 그러나 오늘날의 공공 LLM 서비스에서 제공하는 지나치게 단순화된 요청 수준 API를 사용해야 하므로 필수 애플리케이션 수준 정보가 손실됩니다. 공공 LLM 서비스는 개별 LLM 요청을 맹목적으로 최적화해야 하므로 LLM 애플리케이션의 종단 간 성능이 차선으로 이어집니다. 본 논문에서는 LLM 기반 애플리케이션의 엔드투엔드 경험에 중점을 둔 LLM 서비스 시스템인 Parrot을 소개합니다. Parrot은 애플리케이션 수준 지식을 공개 LLM 서비스에 노출하기 위한 통합 추상화인 Semantic Variable을 제안합니다. 의미 변수는 요청 프롬프트에서 입력/출력 변수에 주석을 달고 여러 LLM 요청을 연결할 때 데이터 파이프라인을 생성하여 LLM 애플리케이션을 프로그래밍하는 자연스러운 방법을 제공합니다. 공개 LLM 서비스에 의미 변수를 노출하면 기존 데이터 흐름 분석을 수행하여 여러 LLM 요청 간의 상관 관계를 밝힐 수 있습니다. 이러한 상관관계는 LLM 기반 애플리케이션의 엔드투엔드 성능을 위한 완전히 새로운 최적화 공간을 열어줍니다. 광범위한 평가를 통해 Parrot은 LLM 응용 프로그램의 대중적이고 실용적인 사용 사례에 대해 최대 10배의 개선을 달성할 수 있음을 보여줍니다. | LLM 에이전트 |
2024년 5월 30일 | 당혹감으로 인한 당혹감: 작은 참조 모델을 사용한 당혹감 기반 데이터 정리 | 이 연구에서는 소규모 언어 모델이 대규모 언어 모델의 성능을 향상시키는 대규모 텍스트 데이터 세트의 고품질 하위 집합을 결정할 수 있는지 여부를 조사합니다. 기존 연구에서는 더 큰 모델의 perplexity를 기반으로 한 가지치기가 고품질 데이터를 생성할 수 있다는 것을 보여주었지만, 우리는 더 작은 모델을 perplexity 기반 가지치기에 사용할 수 있는지 여부와 가지치기가 정리되는 데이터의 도메인 구성에 의해 어떻게 영향을 받는지 조사합니다. 우리는 여러 데이터 세트 구성의 경우 사전 학습 데이터의 난관 기반 정리가 다운스트림 작업 성능을 크게 향상시킬 수 있음을 보여줍니다. 1억 2,500만 개의 매개변수 모델로 계산된 난관을 기반으로 한 가지치기는 30억 개의 매개변수 모델의 다운스트림 작업에 대한 평균 성능을 최대 2.04까지 향상시킵니다. 상응하는 기본 성능에 도달하기 위해 사전 훈련 단계를 최대 1.45배까지 줄입니다. 또한, 우리는 이러한 혼란 기반 데이터 정리가 과도하게 훈련되고 데이터가 제한된 체제에서 다운스트림 성능 향상을 가져온다는 것을 보여줍니다. | 소규모 언어 모델 |
2024년 5월 30일 | GNN-RAG: 대규모 언어 모델 추론을 위한 그래프 신경 검색 | 지식 그래프(KG)는 인간이 만든 사실적 지식을 세 쌍(머리, 관계, 꼬리)의 형태로 나타내며, 이를 집합적으로 그래프로 구성합니다. KGQA(Question Answering over KGs)는 KG가 제공하는 정보에 대한 추론을 바탕으로 자연스러운 질문에 답변하는 작업입니다. LLM(대형 언어 모델)은 자연어를 이해하는 놀라운 능력으로 인해 QA 작업을 위한 최첨단 모델입니다. 한편, 그래프 신경망(GNN)은 KG에 저장된 복잡한 그래프 정보를 처리할 수 있어 KGQA에 널리 사용되었습니다. 이 연구에서는 검색 증강 생성(RAG) 스타일로 LLM의 언어 이해 능력과 GNN의 추론 능력을 결합하는 새로운 방법인 GNN-RAG를 소개합니다. 첫째, GNN은 주어진 질문에 대한 답변 후보를 검색하기 위해 조밀한 KG 하위 그래프를 추론합니다. 둘째, 문제 개체와 답변 후보를 연결하는 KG 내 최단 경로를 추출하여 KG 추론 경로를 표현한다. 추출된 경로는 언어화되어 RAG를 사용한 LLM 추론을 위한 입력으로 제공됩니다. GNN-RAG 프레임워크에서 GNN은 유용한 그래프 정보를 추출하기 위한 조밀한 하위 그래프 추론기 역할을 하는 반면, LLM은 궁극적인 KGQA를 위해 자연어 처리 기능을 활용합니다. 또한 GNN-RAG를 사용하여 KGQA 성능을 더욱 향상시키기 위한 RA(검색 증대) 기술을 개발합니다. 실험 결과에 따르면 GNN-RAG는 널리 사용되는 두 가지 KGQA 벤치마크(WebQSP 및 CWQ)에서 최첨단 성능을 달성하여 7B 조정 LLM을 사용하여 GPT-4 성능을 능가하거나 일치시키는 것으로 나타났습니다. 또한 GNN-RAG는 F1 답변에서 경쟁 접근 방식보다 8.9~15.5% 포인트 더 뛰어난 다중 홉 및 다중 엔터티 질문에 탁월합니다. 우리는 https://github.com/cmavro/GNN-RAG에서 코드와 KGQA 결과를 제공합니다. | 지식 그래프의 RAG |
2024년 5월 29일 | 자체 탐색 언어 모델: 온라인 정렬을 위한 능동적 선호도 도출 | 특히 RLHF(인간 피드백 강화 학습)를 통한 선호도 최적화는 인간 의도를 준수하도록 LLM(대형 언어 모델)을 정렬하는 데 상당한 성공을 거두었습니다. 고정 데이터 세트를 사용한 오프라인 정렬과 달리, 모델 생성에 대한 인간 또는 AI의 온라인 피드백 수집은 일반적으로 반복 프로세스를 통해 더 유능한 보상 모델과 더 잘 정렬된 LLM으로 이어집니다. 그러나 전 세계적으로 정확한 보상 모델을 달성하려면 자연어의 광대한 공간에 걸쳐 다양한 반응을 생성하기 위한 체계적인 탐색이 필요합니다. 표준 보상 극대화 LLM의 무작위 샘플링만으로는 이 요구 사항을 충족하기에 충분하지 않습니다. 이 문제를 해결하기 위해 우리는 배포되지 않은 지역을 적극적으로 탐색하기 위해 잠재적으로 높은 보상을 받을 수 있는 응답에 대해 낙관적으로 편향된 2단계 목표를 제안합니다. 다시 매개변수화된 보상 함수로 내부 수준 문제를 해결함으로써 SELM(Self-Exploring Language Models)이라는 결과 알고리즘은 별도의 RM이 필요하지 않으며 간단한 목표로 LLM을 반복적으로 업데이트합니다. DPO(Direct Preference Optimization)와 비교하여 SELM 목표는 보이지 않는 외삽에 대한 무차별적인 선호를 줄이고 탐색 효율성을 향상시킵니다. 실험 결과에 따르면 Zephyr-7B-SFT 및 Llama-3-8B-Instruct 모델을 미세 조정하면 SELM이 MT-Bench 및 AlpacaEval 2.0과 같은 지침 준수 벤치마크는 물론 다양한 설정의 다양한 표준 학술 벤치마크에서 성능을 크게 향상시키는 것으로 나타났습니다. . 우리의 코드와 모델은 https://github.com/shenao-zhang/SELM에서 확인할 수 있습니다. | 정렬, 선호도 최적화 |
2024년 5월 28일 | OpenRLHF: 사용하기 쉽고 확장 가능한 고성능 RLHF 프레임워크 | 대규모 언어 모델(LLM)이 확장 법칙에 따라 지속적으로 성장함에 따라 인간 피드백을 통한 강화 학습(RLHF)은 뛰어난 성능으로 인해 큰 주목을 받았습니다. 그러나 단일 모델을 사전 훈련하거나 미세 조정하는 것과 달리, 대규모 언어 모델을 훈련하기 위해 인간 피드백(RLHF)을 통한 강화 학습 확장은 4가지 모델 전반에 걸쳐 조정 문제를 제기합니다. 효율적인 RLHF 확장을 가능하게 하는 오픈 소스 프레임워크인 OpenRLHF를 소개합니다. 동일한 GPU에 4개의 모델을 함께 배치하는 기존 RLHF 프레임워크와 달리 OpenRLHF는 향상된 리소스 활용도와 다양한 교육 접근 방식을 활용하여 Ray, vLLM 및 DeepSpeed를 사용하여 70B 매개변수를 초과하는 모델에 대한 스케줄링을 재설계합니다. Hugging Face와 완벽하게 통합된 OpenRLHF는 최적화된 알고리즘과 실행 스크립트를 갖춘 즉시 사용 가능한 솔루션을 제공하여 사용자 친화성을 보장합니다. OpenRLHF는 RLHF, DPO, 거부 샘플링 및 기타 정렬 기술을 구현합니다. 최첨단 LLM 개발을 지원하는 OpenRLHF의 코드는 https://github.com/OpenLLMAI/OpenRLHF에서 확인할 수 있습니다. | RLHF, 툴킷 |
2024년 5월 28일 | LLAMA-NAS: 대규모 언어 모델을 위한 효율적인 신경 아키텍처 검색 | 자연어 처리, 복잡한 추론, 정서 분석 및 기타 작업을 해결하는 현대 대형 언어 모델(LLM)의 능력은 탁월하여 광범위한 채택을 촉발했습니다. 불행하게도 이러한 기능에는 메모리와 계산 비용이 매우 높아 대부분의 하드웨어 플랫폼에서 LLM을 사용할 수 없습니다. 이를 완화하기 위해 원샷 NAS를 사용하여 LLaMA2-7B 기반의 파레토 최적 네트워크 아키텍처를 찾는 효과적인 방법을 제안합니다. 특히 LLaMA2-7B를 한 번만 미세 조정한 다음 유전자 알고리즘 기반 검색을 적용하여 더 작고 계산적으로 덜 복잡한 네트워크 아키텍처를 찾습니다. 특정 표준 벤치마크 작업의 경우 사전 훈련된 LLaMA2-7B 네트워크가 불필요하게 크고 복잡하다는 것을 보여줍니다. 보다 구체적으로, 특정 작업에 대해 모델 크기가 1.5배 감소하고 정확도가 거의 떨어지지 않으면서 처리량의 1.3배 속도 향상을 보여줍니다. 더 작고 더 높은 성능의 네트워크 아키텍처를 찾는 것 외에도 우리의 방법은 특정 가지치기 또는 희소화 기술보다 더 효과적이고 효율적입니다. 마지막으로, 우리는 양자화가 우리 방법을 어떻게 보완하는지, 우리가 찾은 네트워크의 크기와 복잡성이 양자화를 사용하여 더욱 줄어들 수 있음을 보여줍니다. 우리는 우리의 작업이 더 저렴하고 쉽게 사용할 수 있는 하드웨어 플랫폼에서 사용할 수 있는 LLM을 자동으로 생성하는 방법을 제공한다고 믿습니다. | 신경 아키텍처 검색, 모델 크기 감소 |
2024년 5월 28일 | 연결하는 것을 잊지 마세요! 그래프 기반 재순위로 RAG 개선 | RAG(검색 증강 생성)는 기존 문서의 컨텍스트를 기반으로 생성을 기반으로 LLM(대형 언어 모델) 응답 성능을 크게 향상시켰습니다. 이러한 시스템은 문서가 질문 맥락과 명확하게 관련될 때 잘 작동합니다. 하지만 문서에 부분적인 정보가 있거나 문맥과의 연결이 덜 명확하다면 어떨까요? 그리고 문서 간의 연결을 어떻게 추론해야 할까요? 이 연구에서 우리는 RAG 생성에 관한 두 가지 핵심 질문에 답하려고 합니다. RAG의 검색기와 판독기 사이의 그래프 신경망(GNN)을 기반으로 한 reranker인 G-RAG를 소개합니다. 우리의 방법은 문서와 의미론적 정보(추상 의미 표현 그래프를 통해) 간의 연결을 결합하여 RAG에 대한 컨텍스트 정보 순위를 제공합니다. G-RAG는 계산 공간이 더 작으면서도 최첨단 접근 방식보다 성능이 뛰어납니다. 또한 PaLM 2의 성능을 reranker로 평가한 결과 G-RAG보다 성능이 크게 저하된 것으로 나타났습니다. 이 결과는 대규모 언어 모델을 사용하는 경우에도 RAG 순위 재지정의 중요성을 강조합니다. | 추론을 위한 RAG |
2024년 5월 27일 | Meteor: 대규모 언어 및 비전 모델에 대한 Mamba 기반 이론적 근거 탐색 | LLVM(대규모 언어 및 비전 모델)의 급속한 개발은 시각적 명령 조정의 발전에 의해 주도되었습니다. 최근 오픈 소스 LLVM은 강력한 폐쇄 소스 LLVM과의 성능 격차를 줄이기 위해 고품질 시각적 명령 튜닝 데이터 세트를 선별하고 추가 비전 인코더 또는 여러 컴퓨터 비전 모델을 활용했습니다. 이러한 발전은 기본적인 이미지 이해, 상식적이고 비대상 개념(예: 차트, 도표, 기호, 기호, 수학 문제)에 대한 실제 지식, 단계별 정보 등 다양한 역량에 필요한 다각적인 정보에 기인합니다. -복잡한 문제를 해결하기 위한 단계적 절차. 다면적인 정보를 바탕으로 우리는 다면적인 근거를 활용하여 이해와 답변 능력을 향상시키는 새로운 효율적인 LLVM, Mamba 기반 근거 탐색(Meteor)을 제시합니다. 풍부한 정보가 포함된 장황한 근거를 삽입하기 위해 선형 시간 복잡도로 순차적 데이터를 처리할 수 있는 Mamba 아키텍처를 사용합니다. 우리는 근거의 효율적인 삽입을 용이하게 하는 새로운 근거 탐색 개념을 소개합니다. 그 후, 백본 다중 모드 언어 모델(MLM)은 근거의 도움을 받아 답을 생성하도록 훈련됩니다. 이러한 단계를 통해 Meteor는 모델 크기를 확장하거나 추가 비전 인코더 및 컴퓨터 비전 모델을 사용하지 않고도 다양한 기능이 필요한 여러 평가 벤치마크에서 비전 언어 성능이 크게 향상되었습니다. 코드는 https://github.com/ByungKwanLee/Meteor에서 확인할 수 있습니다. | 상태공간 모델, 다중 모드 모델 |
2024년 5월 27일 | 비전-언어 모델링 소개 | 최근 LLM(대형 언어 모델)의 인기에 따라 이를 시각적 영역으로 확장하려는 여러 시도가 이루어졌습니다. 익숙하지 않은 환경에서 우리를 안내할 수 있는 시각적 보조자부터 고급 텍스트 설명만을 사용하여 이미지를 생성하는 생성 모델에 이르기까지 VLM(비전 언어 모델) 애플리케이션은 우리와 기술의 관계에 큰 영향을 미칠 것입니다. 그러나 이러한 모델의 신뢰성을 향상시키기 위해서는 해결해야 할 많은 과제가 있습니다. 언어는 분리되어 있지만 비전은 개념이 항상 쉽게 분리될 수 없는 훨씬 더 높은 차원의 공간에서 진화합니다. 비전을 언어에 매핑하는 메커니즘을 더 잘 이해하기 위해 이 분야에 진출하려는 모든 사람에게 도움이 되기를 바라는 VLM에 대한 소개를 제시합니다. 먼저 VLM이 무엇인지, 작동 방식 및 교육 방법을 소개합니다. 그런 다음 VLM을 평가하는 방법을 제시하고 논의합니다. 이 작업은 주로 이미지를 언어로 매핑하는 데 중점을 두고 있지만 VLM을 비디오로 확장하는 방법도 논의합니다. | 다중모달 모델, 설문조사 |
2024년 5월 27일 | Matryoshka 다중 모드 모델 | LLaVA와 같은 LMM(Large Multimodal Model)은 시각적 언어 추론에서 강력한 성능을 보여주었습니다. 이러한 모델은 먼저 고정된 다수의 시각적 토큰에 이미지를 포함시킨 다음 이를 LLM(대형 언어 모델)에 제공합니다. 그러나 이러한 설계는 고해상도 이미지, 비디오 등 조밀한 시각적 시나리오에 과도한 양의 토큰을 발생시켜 큰 비효율성을 초래합니다. 토큰 가지치기 및 병합 방법이 존재하지만 각 이미지에 대해 단일 길이 출력을 생성하며 정보 밀도와 효율성을 절충하는 유연성을 제공할 수 없습니다. Matryoshka 인형의 개념에서 영감을 받아 우리는 M3: Matryoshka Multimodal Models를 제안합니다. 이는 시각적 콘텐츠를 여러 개의 대략적인 세부 단위에 걸쳐 정보를 캡처하는 중첩된 시각적 토큰 세트로 표현하는 방법을 학습합니다. 우리의 접근 방식은 LMM에 몇 가지 고유한 이점을 제공합니다. (1) 추론 중에 테스트 인스턴스당 시각적 세분성을 명시적으로 제어할 수 있습니다. 예를 들어 콘텐츠의 예상 복잡성 또는 단순성을 기반으로 이미지를 표현하는 데 사용되는 토큰 수를 조정합니다. (2) M3는 기존 데이터 세트에 필요한 세분성을 분석하기 위한 프레임워크를 제공합니다. 여기서 COCO 스타일 벤치마크는 576개의 토큰을 모두 사용하는 것과 유사한 정확도를 얻기 위해 약 9개의 시각적 토큰만 필요하다는 것을 알 수 있습니다. (3) 우리의 접근 방식은 샘플 수준에서 성능과 시각적 토큰 길이 사이의 최상의 균형을 탐색하기 위한 기반을 제공합니다. 여기서 조사에 따르면 오라클 상한과 현재 고정 규모 표현 사이에 큰 격차가 존재하는 것으로 나타났습니다. | 다중 모드 모델 |
2024년 5월 27일 | Trans-LoRA: 데이터 없는 전송 가능한 매개변수 효율적인 미세 조정을 향하여 | LoRA(낮은 순위 어댑터) 및 그 변형은 소수의 추가 매개변수만 필요로 하면서 전체 모델 미세 조정 성능과 거의 일치하는 널리 사용되는 PEFT(매개변수 효율적 미세 조정) 기술입니다. 이러한 추가 LoRA 매개변수는 적용되는 기본 모델에 따라 다릅니다. 기본 모델을 더 이상 사용하지 않고 새 모델로 교체해야 하는 경우 관련 LoRA 모듈을 모두 다시 학습해야 합니다. 이러한 재훈련에는 원래 기본 모델에 대한 LoRA 훈련에 사용된 데이터에 대한 액세스가 필요합니다. 이는 독점 클라이언트 작업 데이터를 호스팅하는 것이 허용되지 않을 수 있는 서비스 제공업체가 LoRA 모듈과 기본 모델을 호스팅하는 상용 클라우드 애플리케이션의 경우 특히 문제가 됩니다. 이러한 문제를 해결하기 위해 우리는 기본 모델 전반에 걸쳐 LoRA를 무손실, 거의 데이터 없이 전송하기 위한 새로운 방법인 Trans-LoRA를 제안합니다. 우리의 접근 방식은 합성 데이터를 사용하여 LoRA 모듈을 전송합니다. 대규모 언어 모델을 사용하여 관찰된 작업 데이터 하위 집합의 데이터 생성 프로세스를 근사화하는 합성 데이터 생성기를 설계합니다. 결과 합성 데이터 세트에 대한 교육은 LoRA 모듈을 새로운 모델로 이전합니다. LLama 및 Gemma 모델 계열을 모두 사용하여 접근 방식의 효율성을 보여줍니다. 우리의 접근 방식은 다양한 작업에서 서로 다른 기본 모델 제품군 내 및 모델 간, 심지어 서로 다른 PEFT 방법 간에 무손실(대부분 개선된) LoRA 전송을 달성합니다. | PEFT 방법, 미세 조정 |
2024년 5월 26일 | 언어 모델 정렬을 위한 자체 재생 선호도 최적화 | Bradley-Terry 모델과 같은 파라메트릭 모델에 의존하는 인간 피드백을 통한 전통적인 강화 학습(RLHF) 접근 방식은 인간 선호도의 비전환성과 비합리성을 포착하는 데 부족합니다. 최근의 발전에 따르면 선호 확률을 직접적으로 활용하면 인간 선호도를 더 정확하게 반영할 수 있어 더 유연하고 정확한 언어 모델 정렬이 가능해집니다. 본 논문에서는 내쉬 균형 정책을 식별하기 위한 상수합 2인 게임으로 문제를 처리하는 언어 모델 정렬을 위한 자체 플레이 기반 방법을 제안합니다. SPPO(Self-Play Preference Optimization)라고 불리는 우리의 접근 방식은 반복적인 정책 업데이트를 통해 내쉬 균형에 접근하고 이론적 수렴을 보장합니다. 우리의 방법은 선택한 응답의 로그 가능성을 효과적으로 높이고 거부된 응답의 로그 가능성을 줄일 수 있습니다. 이는 DPO(Direct Preference Optimization) 및 IPO(Identity Preference Optimization)와 같은 대칭 쌍 손실로는 쉽게 달성할 수 없습니다. 실험에서 UltraFeedback 데이터세트의 60k 프롬프트(응답 없음)만 사용하고 프롬프트 보강 없이 사전 훈련된 기본 설정 모델인 pairRM을 0.4B 매개변수만 활용하여 SPPO는 Mistral-7B를 미세 조정하여 모델을 얻을 수 있습니다. AlpacaEval의 GPT-4-Turbo에 대해 28.53%의 최첨단 길이 제어 승률을 달성하는 Instruct-v0.2 2.0. 또한 MT-Bench 및 Open LLM Leaderboard에서 (반복) DPO 및 IPO보다 성능이 뛰어납니다. 특히, SPPO의 강력한 성능은 GPT-4 또는 기타 강력한 언어 모델의 추가적인 외부 감독(예: 응답, 선호도 등) 없이 달성됩니다. | 정렬, 최적화 |
2024년 5월 23일 | 모든 언어 모델 기능이 선형인 것은 아닙니다. | 최근 연구에서는 언어 모델이 활성화 공간에서 개념("특성")의 1차원 표현을 조작하여 계산을 수행한다는 선형 표현 가설을 제안했습니다. 대조적으로 우리는 일부 언어 모델 표현이 본질적으로 다차원적일 수 있는지 여부를 조사합니다. 우리는 독립적이거나 동시 발생하지 않는 저차원 특징으로 분해될 수 있는지 여부에 따라 환원 불가능한 다차원 특징에 대한 엄격한 정의를 개발하는 것부터 시작합니다. 이러한 정의에 영감을 받아 우리는 희소 자동 인코더를 사용하여 GPT-2 및 Mistral 7B에서 다차원 기능을 자동으로 찾는 확장 가능한 방법을 설계합니다. 이러한 자동 발견 기능에는 요일과 월을 나타내는 원형 기능과 같이 놀랍도록 해석 가능한 예가 포함됩니다. 우리는 이러한 정확한 원을 사용하여 요일 및 월별 모듈러 산술과 관련된 계산 문제를 해결하는 작업을 식별합니다. 마지막으로 우리는 Mistral 7B 및 Llama 3 8B에 대한 개입 실험을 통해 이러한 원형 특징이 실제로 이러한 작업에서 계산의 기본 단위라는 증거를 제공하고 이러한 작업에 대한 숨겨진 상태를 해석 가능한 구성 요소로 분해하여 추가 순환 표현을 찾습니다. | 선형 표현 분석 |
2024년 5월 23일 | AlignGPT: 적응형 정렬 기능을 갖춘 다중 모드 대형 언어 모델 | MLLM(Multimodal Large Language Model)은 AGI(Artificial General Intelligence) 탐색에 중요한 것으로 널리 알려져 있습니다. MLLM의 핵심은 교차 모드 정렬을 달성하는 기능에 있습니다. 이 목표를 달성하기 위해 현재 MLLM은 일반적으로 사전 훈련 단계와 명령 조정 단계라는 2단계 훈련 패러다임을 따릅니다. 성공에도 불구하고 이러한 모델 내에서 정렬 기능을 모델링하는 데에는 단점이 있습니다. 첫째, 사전 학습 단계에서 모델은 일반적으로 모든 이미지-텍스트 쌍이 균일하게 정렬되어 있다고 가정하지만 실제로는 서로 다른 이미지 텍스트 쌍 간의 정렬 정도가 일관되지 않습니다. 둘째, 현재 미세 조정에 사용되는 지침에는 다양한 작업이 포함되어 있으며 다양한 작업의 지침에는 일반적으로 다양한 수준의 정렬 기능이 필요하지만 이전 MLLM은 이러한 차별화된 정렬 요구 사항을 간과합니다. 이러한 문제를 해결하기 위해 우리는 새로운 다중 모드 대형 언어 모델 AlignGPT를 제안합니다. 사전 훈련 단계에서는 모든 이미지 텍스트 쌍을 동일하게 처리하는 대신 서로 다른 이미지-텍스트 쌍에 서로 다른 수준의 정렬 기능을 할당합니다. 그런 다음 명령어 조정 단계에서 다양한 명령어의 동적 정렬 요구 사항을 충족하기 위해 이러한 다양한 수준의 정렬 기능을 적응적으로 결합합니다. 광범위한 실험 결과에 따르면 우리 모델은 12개 벤치마크에서 경쟁력 있는 성능을 달성했습니다. | 정렬, 다중 모드 모델 |
2024년 5월 23일 | HippoRAG: 신경생물학적으로 영감을 받은 대규모 언어 모델을 위한 장기 기억 | 적대적이고 끊임없이 변화하는 자연 환경에서 번성하기 위해 포유류의 두뇌는 세상에 대한 많은 양의 지식을 저장하고 치명적인 망각을 피하면서 지속적으로 새로운 정보를 통합하도록 진화했습니다. 인상적인 성과에도 불구하고 대규모 언어 모델(LLM)은 검색된 증강 생성(RAG)을 사용하더라도 사전 훈련 후 많은 양의 새로운 경험을 효율적이고 효과적으로 통합하는 데 여전히 어려움을 겪고 있습니다. 이 연구에서는 새로운 경험에 대한 더 깊고 효율적인 지식 통합을 가능하게 하기 위해 인간 장기 기억의 해마 색인 이론에서 영감을 받은 새로운 검색 프레임워크인 HippoRAG를 소개합니다. HippoRAG는 인간 기억에서 신피질과 해마의 다양한 역할을 모방하기 위해 LLM, 지식 그래프 및 개인화된 PageRank 알고리즘을 시너지 효과적으로 조율합니다. 우리는 다중 홉 질문 응답에 있어 HippoRAG와 기존 RAG 방법을 비교하고 우리의 방법이 최첨단 방법보다 최대 20%까지 현저하게 뛰어난 성능을 보인다는 것을 보여줍니다. HippoRAG를 사용한 단일 단계 검색은 IRCoT와 같은 반복 검색과 비슷하거나 더 나은 성능을 달성하면서 10~30배 더 저렴하고 6~13배 더 빠르며, HippoRAG를 IRCoT에 통합하면 훨씬 더 많은 이점을 얻을 수 있습니다. 마지막으로, 우리는 우리의 방법이 기존 방법으로는 도달할 수 없는 새로운 유형의 시나리오를 다룰 수 있음을 보여줍니다. | RAG 최적화 |
2024년 5월 21일 | OmniGlue: 기초 모델 지침과 일반화 가능한 기능 매칭 | 이미지 매칭 분야에서는 기존 벤치마크에서 성능이 계속 향상되면서 새로운 학습 가능한 특징 매칭 기술이 지속적으로 출현하고 있습니다. 그러나 우리의 조사에 따르면 이러한 이점에도 불구하고 새로운 이미지 도메인에 대한 일반화 기능이 제한되어 실제 적용 가능성이 제한되는 것으로 나타났습니다. 본 논문에서는 일반화를 핵심 원리로 설계한 최초의 학습 가능한 이미지 매칭기인 OmniGlue를 소개합니다. OmniGlue는 비전 기반 모델의 광범위한 지식을 활용하여 기능 일치 프로세스를 안내하고 훈련 시 볼 수 없는 도메인에 대한 일반화를 강화합니다. 또한 공간 정보와 모양 정보를 분리하여 향상된 일치 설명자를 생성하는 새로운 키포인트 위치 기반 주의 메커니즘을 제안합니다. 우리는 장면 수준, 객체 중심 및 항공 이미지를 포함한 다양한 이미지 도메인을 갖춘 7개 데이터 세트에 대해 포괄적인 실험을 수행합니다. OmniGlue의 새로운 구성 요소는 직접 비교 가능한 참조 모델과 관련하여 보이지 않는 영역에서 20.9%의 상대적 이득을 가져오는 동시에 최근 LightGlue 방법보다 상대적으로 9.5% 더 뛰어난 성능을 발휘합니다. 코드와 모델은 https://hwjiang1510.github.io/OmniGlue에서 찾을 수 있습니다. | 다중 모드 모델 |
2024년 5월 20일 | MoRA: 매개변수 효율적인 미세 조정을 위한 상위 업데이트 | LoRA(낮은 순위 적응)는 LLM(대형 언어 모델)에 널리 사용되는 PEFT(매개변수 효율적 미세 조정) 방법입니다. 본 논문에서는 LoRA에서 구현된 하위 순위 업데이트의 영향을 분석합니다. 우리의 연구 결과는 낮은 순위 업데이트 메커니즘이 LLM이 새로운 지식을 효과적으로 학습하고 기억하는 능력을 제한할 수 있음을 시사합니다. 이러한 관찰에서 영감을 받아 우리는 정사각형 행렬을 사용하여 동일한 수의 훈련 가능한 매개 변수를 유지하면서 높은 순위 업데이트를 달성하는 MoRA라는 새로운 방법을 제안합니다. 이를 달성하기 위해 해당 비매개변수 연산자를 도입하여 정사각 행렬의 입력 차원을 줄이고 출력 차원을 늘립니다. 또한 이러한 연산자는 가중치가 LLM으로 다시 병합될 수 있도록 보장하므로 우리의 방법을 LoRA처럼 배포할 수 있습니다. 우리는 명령 조정, 수학적 추론, 지속적인 사전 훈련, 기억 및 사전 훈련이라는 5가지 작업에 걸쳐 방법을 포괄적으로 평가합니다. 우리의 방법은 메모리 집약적인 작업에서 LoRA보다 성능이 뛰어나고 다른 작업에서는 비슷한 성능을 달성합니다. 우리 코드는 https://github.com/kongds/MoRA에서 확인할 수 있습니다. | PEFT 접근법, 미세 조정 |
2024년 5월 19일 | 귀하의 변압기는 비밀리에 선형입니다 | 본 논문에서는 GPT, LLaMA, OPT, BLOOM 등의 모델을 포함하여 트랜스포머 디코더에만 있는 새로운 선형 특성을 밝힙니다. 순차 레이어 간의 임베딩 변환을 분석하여 거의 완벽한 선형 관계를 찾아냅니다(Procrustes 유사성 점수 0.99). 그러나 변압기 레이어의 지속적으로 낮은 출력 표준으로 인해 잔류 구성 요소가 제거되면 선형성이 감소합니다. 우리의 실험은 가장 선형적인 변압기 블록 중 일부를 제거하거나 선형적으로 근사하는 것이 손실이나 모델 성능에 큰 영향을 미치지 않는다는 것을 보여줍니다. 또한 더 작은 모델에 대한 사전 훈련 실험에서는 레이어 선형성을 줄이기 위해 코사인 유사성 기반 정규화를 도입했습니다. 이러한 정규화는 Tiny Stories 및 SuperGLUE와 같은 벤치마크의 성능 지표를 개선할 뿐만 아니라 모델의 선형성을 성공적으로 감소시킵니다. 이 연구는 변압기 아키텍처에 대한 기존의 이해에 도전하며, 그 동작이 이전에 가정했던 것보다 더 선형적일 수 있음을 시사합니다.1 | 변압기 분석 |
2024년 5월 18일 | LoRA 라이브러리 구축 및 재사용을 통한 모듈형 LLM을 향하여 | 기본 LLM(대형 언어 모델)의 매개변수 효율적인 적응이 증가함에 따라 훈련된 어댑터를 재사용하여 새로운 작업의 성능을 향상시킬 수 있는지 여부를 연구해야 합니다. 우리는 다중 작업 데이터가 제공된 어댑터 라이브러리를 가장 잘 구축하는 방법을 연구하고 이러한 라이브러리의 라우팅을 통해 제로 샷 및 지도 작업 일반화를 위한 기술을 고안합니다. 우리는 이 라이브러리를 구축하기 위한 기존 접근 방식을 벤치마킹하고 모델 기반 클러스터링인 MBC를 도입합니다. 이 방법은 어댑터 매개 변수의 유사성을 기준으로 작업을 그룹화하여 다중 작업 데이터 세트 전체의 전송을 간접적으로 최적화하는 방법입니다. 라이브러리를 재사용하기 위해 우리는 재교육 없이도 새로운 입력에 가장 관련성이 높은 어댑터를 동적으로 선택할 수 있는 새로운 제로샷 라우팅 메커니즘인 Arrow를 제시합니다. 우리는 다양한 보류 작업에 대해 Phi-2 및 Mistral과 같은 여러 LLM을 실험하여 MBC 기반 어댑터 및 Arrow 라우팅이 새로운 작업에 대한 탁월한 일반화로 이어지는지 확인합니다. 우리는 기존의 합동 훈련과 일치하거나 그보다 뛰어난 성능을 발휘할 수 있는 모듈식 적응형 LLM을 만들기 위한 조치를 취하고 있습니다. | PEFT 접근법, 미세 조정, 툴킷 |
2024년 5월 16일 | 카멜레온: 혼합 모드 조기 융합 기초 모델 | 임의의 순서로 이미지와 텍스트를 이해하고 생성할 수 있는 초기 융합 토큰 기반 혼합 모드 모델 제품군인 Chameleon을 소개합니다. 우리는 초기 융합, 토큰 기반, 혼합 모드 설정에 맞는 초기 융합 방법, 정렬 레시피 및 아키텍처 매개변수화부터 안정적인 훈련 접근 방식을 간략하게 설명합니다. 모델은 시각적 질문 답변, 이미지 캡션 작성, 텍스트 생성, 이미지 생성 및 긴 형식 혼합 모달 생성을 포함한 포괄적인 범위의 작업에 대해 평가됩니다. Chameleon은 이미지 캡션 작업의 최첨단 성능을 포함하여 광범위하고 일반적인 기능을 보여주고, Mixtral 8x7B 및 Gemini-Pro와 같은 모델과 경쟁하면서 텍스트 전용 작업에서 Llama-2를 능가하며, 중요하지 않은 이미지를 수행합니다. 세대, 모든 것이 단일 모델에 담겨 있습니다. 또한 프롬프트 또는 출력에 이미지와 텍스트가 혼합된 시퀀스가 포함되어 있는 새로운 긴 형식 혼합 모드 생성 평가에 대한 인간의 판단에 따라 Gemini Pro 및 GPT-4V를 포함한 훨씬 더 큰 모델의 성능과 일치하거나 그 이상입니다. . Chameleon은 전체 다중 모드 문서의 통합 모델링에서 중요한 진전을 이루었습니다. | 다중 모드 모델, 기초 모델 |
2024년 5월 16일 | 다중 모드 기반 모델의 다중 샷 상황 내 학습 | 대형 언어 모델은 몇 가지 샷 내 텍스트 학습 (ICL)에서 효과적인 것으로 잘 알려져 있습니다. 멀티 모달 파운데이션 모델의 최근 발전으로 전례없는 긴 상황에 맞는 Windows가 가능해졌으며, 더 많은 시연 예를 가지고 ICL을 수행 할 수있는 능력을 탐색 할 수있는 기회를 제공했습니다. 이 작업에서는 소수의 샷에서 많은 샷 ICL로 스케일링하는 멀티 모달 파운데이션 모델의 성능을 평가합니다. 우리는 여러 도메인 (자연 이미지, 의료 이미지, 원격 감지 및 분자 이미지) 및 작업 (멀티 클래스, 다중 라벨 및 세분화 된 분류)에 걸친 10 개의 데이터 세트에서 GPT-4O 및 Gemini 1.5 Pro를 벤치마킹합니다. 우리는 최대 2,000 개의 멀티 모달을 포함하여 많은 샷 ICL이 모든 데이터 세트에서 소수의 샷 (<100 예제) ICL에 비해 상당한 개선으로 이어진다는 것을 관찰합니다. 또한 Gemini 1.5 Pro 성능은 많은 데이터 세트에서 테스트 된 최대 예제까지 로그를 계속 개선합니다. 많은 샷 ICL에 필요한 긴 프롬프트와 관련된 높은 추론 비용을 감안할 때, 우리는 단일 API 호출에서 여러 쿼리를 배치하는 영향을 탐구합니다. 우리는 최대 50 개의 쿼리를 배치하면 제로 샷과 많은 샷 ICL에서 성능 향상으로 이어질 수 있으며, 여러 데이터 세트의 제로 샷 설정에서 상당한 이익을 얻는 반면, 쿼리 당 비용과 대기 시간을 크게 줄입니다. 마지막으로, 모델의 ICL 데이터 효율성 또는 모델이 더 많은 시연 예에서 학습하는 속도를 측정합니다. 우리는 GPT-4O 및 Gemini 1.5 Pro가 데이터 세트에서 유사한 제로 샷 성능을 달성하지만 Gemini 1.5 Pro는 대부분의 데이터 세트에서 GPT-4O보다 높은 ICL 데이터 효율을 나타냅니다. 우리의 결과는 많은 샷 ICL을 통해 사용자가 멀티 모달 기초 모델을 새로운 응용 프로그램 및 도메인에 효율적으로 적용 할 수 있음을 시사합니다. 코드베이스는 https://github.com/stanfordmlgroup/manyicl에서 공개적으로 제공됩니다. | ICL, 멀티 모달 모델 |
2024 년 5 월 15 일 | 로라는 덜 배우고 덜 잊어 버립니다 | LORA (Low Rank Adaptation)는 대형 언어 모델에 대한 널리 사용되는 매개 변수 효율적인 Finetuning 방법입니다. Lora는 선택된 중량 매트릭스에 대한 낮은 순위 섭동 만 훈련하여 메모리를 저장합니다. 이 작업에서 우리는 LORA의 성능과 두 가지 대상 도메인, 프로그래밍 및 수학에 대한 완전한 결합을 비교합니다. 우리는 명령어 양조 (≈100K 프롬프트-응답 쌍)와 지속적인 사전 조정 (≈10B 비정형 토큰) 데이터 체제를 고려합니다. 우리의 결과는 대부분의 설정에서 Lora가 실질적으로 완전한 결합을 실질적으로 저조한다는 것을 보여줍니다. 그럼에도 불구하고 LORA는 바람직한 형태의 정규화를 보여줍니다. 대상 도메인 외부의 작업에 대한 기본 모델의 성능을 더 잘 유지합니다. 우리는 LORA가 중량 붕괴 및 드롭 아웃과 같은 일반적인 기술에 비해 더 강한 정규화를 제공한다는 것을 보여줍니다. 또한보다 다양한 세대를 유지하는 데 도움이됩니다. 우리는 완전한 FINETUNING이 일반적인 LORA 구성보다 10-100 배의 순위를 가진 섭동을 배우고,보고 된 격차 중 일부를 설명 할 수 있음을 보여줍니다. 우리는 LORA와의 결제를위한 모범 사례를 제안함으로써 결론을 내립니다. | PEFT 접근, 미세 조정 |
2024년 5월 14일 | 온라인 및 오프라인 정렬 알고리즘 간의 성능 차이 이해 | 인간 피드백 (RLHF)의 강화 학습은 큰 언어 모델 정렬을위한 표준 프레임 워크입니다. 그러나 오프라인 정렬 알고리즘에서 인기가 높아짐에 따라 RLHF의 정책 샘플링이 필요합니다. 보상 과잉 최적화의 맥락에서, 우리는 오프라인 방법에 대한 온라인 방법의 명확한 이점을 보여주는 오프닝 실험 세트로 시작합니다. 이것은 우리에게 일련의 신중하게 설계된 실험적인 절제를 통해 성능 불일치의 원인을 조사하도록 유도합니다. 우리는 오프라인 데이터 커버리지 및 데이터 품질 자체와 같은 가설이 성능 차이를 설득력있게 설명 할 수 없다는 것을 경험적으로 보여줍니다. 우리는 또한 오프라인 알고리즘이 정책을 쌍별 분류에 능숙 해지 기 위해 훈련하는 반면, 세대에 더 나쁘다는 것을 알았습니다. 그 동안 온라인 알고리즘으로 훈련 된 정책은 세대에 능숙하지만 쌍별 분류에서는 더 나쁩니다. 이것은 차별적 기능과 생성 기능 사이의 고유 한 상호 작용을 암시하며, 이는 샘플링 프로세스에 의해 크게 영향을받습니다. 마지막으로, 우리는 성능 불일치가 대조적 및 비공식 손실 기능 모두에 지속되며 정책 네트워크를 간단히 확장하여 해결되지 않는 것으로 보입니다. 종합하면, 우리의 연구는 AI 정렬에서 정책 샘플링의 중추적 인 역할을 밝히고 오프라인 정렬 알고리즘의 특정 근본적인 과제를 암시합니다. | 조정 |
2024 년 5 월 13 일 | RLHF 워크 플로 : 보상 모델링에서 온라인 RLHF에 이르기까지 | 우리는이 기술 보고서에서 인간 피드백 (RLHF)의 온라인 반복 강화 학습의 워크 플로우를 제시하며, 이는 최근 LLM (Large Language Model) 문헌에서 오프라인 상대를 능가하는 것으로 널리 알려져 있습니다. 그러나 기존 오픈 소스 RLHF 프로젝트는 여전히 오프라인 학습 설정에 크게 국한되어 있습니다. 이 기술 보고서에서 우리는이 격차를 메우고 온라인 반복 RLHF를 위해 쉽게 재현 할 수있는 세부 레시피를 제공하는 것을 목표로합니다. 특히, 온라인 인간 피드백은 일반적으로 자원이 제한된 오픈 소스 커뮤니티에 불가능하기 때문에 다양한 오픈 소스 데이터 세트를 사용하여 기본 설정 모델을 구성하고 구성된 프록시 환경 설정 모델을 사용하여 사람의 피드백을 근사화합니다. 그런 다음 온라인 반복 RLHF 뒤에있는 이론적 통찰력과 알고리즘 원칙에 대해 논의 한 다음 상세한 실용적 구현에 대해 논의합니다. 우리의 훈련 된 LLM, SFR-iterative-dpo-llama-3-8b-r은 Alpacaeval-2, Arena-Hard 및 MT-Bench를 포함한 LLM 챗봇 벤치 마크, Humaneval 및와 같은 기타 학업 벤치 마크에서 인상적인 성능을 달성합니다. 진실한 Qa. 우리는 감독 된 미세 조정 (SFT) 및 반복 RLHF가 완전히 오픈 소스 데이터 세트로 최첨단 성능을 얻을 수 있음을 보여주었습니다. 또한 모델, 선별 된 데이터 세트 및 포괄적 인 단계별 코드 안내서를 공개적으로 사용할 수있었습니다. 자세한 정보는 https://github.com/rlhflow/rlhf-reward-modeling 및 https://github.com/rlhflow/online-rlhf를 참조하십시오. | 선호도 최적화, RLHF |
2024년 5월 2일 | Prometheus 2 : 다른 언어 모델 평가에 특화된 오픈 소스 언어 모델 | GPT-4와 같은 독점적 인 LMS는 종종 다양한 LMS의 응답 품질을 평가하기 위해 사용됩니다. 그러나 투명성, 통제 성 및 경제성을 포함한 우려는 평가에 특화된 OpenSource LMS의 개발에 강력하게 동기를 부여합니다. 반면에 기존의 오픈 평가자 LMS는 중요한 단점을 나타냅니다. 1) 인간이 지정된 것과 크게 분기되는 점수를 발행하며 2) 직접 평가와 쌍별 순위를 모두 수행 할 수있는 유연성이 부족합니다. . 또한, 그들은 도움과 무해함과 같은 일반적인 속성에 중점을 둔 사용자 정의 평가 기준에 따라 평가할 수있는 능력을 가지고 있지 않습니다. 이러한 문제를 해결하기 위해, 우리는 인간과 GPT-4 판단을 밀접하게 반영하는 전임자보다 더 강력한 평가자 LM 인 Prometheus 2를 소개합니다. 또한 사용자 정의 평가 기준으로 그룹화 된 직접 평가 및 쌍별 순위 형식을 모두 처리 할 수 있습니다. 4 개의 직접 평가 벤치 마크와 4 개의 쌍별 순위 벤치 마크에서 Prometheus 2는 테스트 된 모든 공개 평가자 LM 중 가장 높은 상관 관계 및 인간 및 독점적 LM 판사와의 계약을 기록합니다. 우리의 모델, 코드 및 데이터는 모두 공개적으로 제공됩니다 1. | 평가, 에이전트 |
2024년 5월 2일 | WildChat : 1M ChatGpt 상호 작용 로그는 야생입니다 | GPT-4 및 Chatgpt와 같은 챗봇은 현재 수백만 명의 사용자에게 서비스를 제공하고 있습니다. 광범위한 사용에도 불구하고 실제로 사용자 인구가 이러한 도구를 사용하는 방법을 보여주는 공개 데이터 세트가 부족합니다. 이러한 격차를 해소하기 위해 우리는 온라인 사용자를위한 ChatGpt에 대한 무료 액세스를 제공하여 긍정적이고 합의 된 옵트 인을 익명으로 채팅 전 사자를 수집하고 요청 헤더를 요청했습니다. 이것으로부터, 우리는 1 백만 명의 사용자 chatgpt 대화의 코퍼스 인 Wildchat을 컴파일했으며, 이는 250 만 개가 넘는 상호 작용으로 구성됩니다. 우리는 WildChat을 다른 인기있는 사용자 chatbot 상호 작용 데이터 세트와 비교하고 데이터 세트가 가장 다양한 사용자 프롬프트를 제공하고, 가장 많은 수의 언어를 포함하며, 연구자들이 연구 할 수있는 가장 풍부한 잠재적 독성 사용 사례를 제시합니다. 타임 스탬프 채팅 성적표 외에도 요청 헤더와 함께 주, 국가 및 해시 IP 주소를 포함한 인구 통계 데이터로 데이터 세트를 풍부하게합니다. 이 증강은 다양한 지리적 지역과 시간적 차원에서 사용자 행동에 대한 자세한 분석을 가능하게합니다. 마지막으로, 광범위한 사용 사례를 캡처하기 때문에 미세 조정 명령어를 따르는 모델에서 데이터 세트의 잠재적 유용성을 보여줍니다. Wildchat은 https://wildchat.allen.ai에서 AI2 Impact Licenses 1에 의해 출시됩니다. | 벤치 마크, 평가 |
2024년 5월 2일 | StoryDiffusion : 장거리 이미지 및 비디오 생성에 대한 일관된 자체 변환 | 최근의 확산 기반 생성 모델의 경우, 일련의 생성 된 이미지, 특히 대상 및 복잡한 세부 사항을 포함하는 일련의 이미지에서 일관된 컨텐츠를 유지하는 것은 중요한 도전을 제시합니다. 이 논문에서, 우리는 일관된 자체 변환이라고 불리는 새로운 자체 변환 계산 방법을 제안하여 생성 된 이미지와 널리 알려진 확산 기반 텍스트-이미지 모델 사이의 일관성을 제로 샷 방식으로 증가시킵니다. 우리의 방법을 장거리 비디오 생성으로 확장하기 위해 Semantic Motion Predictor라는 새로운 시맨틱 스페이스 시간 모션 예측 모듈을 더 소개합니다. 시맨틱 공간에서 제공된 두 이미지 사이의 모션 조건을 추정하도록 훈련되었습니다. 이 모듈은 생성 된 일련의 이미지를 부드러운 전환과 일관된 공간을 기반으로 한 모듈보다 훨씬 안정적 인 일관된 주제를 비디오로 변환합니다. 이 두 가지 새로운 구성 요소를 병합함으로써 StoryDiffusion이라고 불리는 우리의 프레임 워크는 다양한 내용을 포함하는 일관된 이미지 또는 비디오로 텍스트 기반 스토리를 설명 할 수 있습니다. 제안 된 StoryDiffusion은 이미지와 비디오의 프리젠 테이션을 통해 시각적 스토리 생성의 선구적인 탐구를 포함합니다. | 멀티 모달 모델, 확산 |
2024년 5월 2일 | 화염 : 대형 언어 모델에 대한 사실적 인식 정렬 | 정렬은 사전 훈련 된 대형 언어 모델 (LLMS)을 미세 조정하여 자연어 지침을 따르고 도움이되는 AI 보조원 역할을하는 표준 절차입니다. 그러나 우리는 기존의 정렬 프로세스가 LLM의 사실 정확도를 향상시키지 못하고 종종 더 많은 허위 사실 (즉, 환각)을 생성한다는 것을 관찰했습니다. 이 논문에서는 우리는 먼저 정렬 단계에서 환각을 유발하는 요인을 먼저 식별함으로써 LLM 정렬 프로세스를보다 사실을보다 사실보다 사실으로 만드는 방법을 연구합니다 : 감독 미세 조정 (SFT) 및 강화 학습 (RL). 특히, 우리는 새로운 지식이나 익숙하지 않은 텍스트에 대해 LLM을 훈련시키는 것이 환각을 장려 할 수 있음을 발견했습니다. 이것은 LLM에 소설을 할 수있는 인간 라벨이 붙은 데이터를 훈련시키기 때문에 SFT는 사실을 덜 사실입니다. 또한 표준 RL에 사용 된 보상 기능은 환각을 장려 할 수 있습니다. 환각을 장려 할 수 있습니다. LLM은 다양한 지시 사항에 대해보다 유용한 응답을 제공하도록 LLM을 안내하며 종종 더 길고 자세한 응답을 선호합니다. 이러한 관찰에 기초하여, 우리는 직접 선호도 최적화를 통한 사실-인식 SFT 및 사실성 인식 RL로 구성된 사실-인식 정렬 (FLAME)을 제안합니다. 실험에 따르면 제안 된 사실 인식 정렬은 LLM이 교육을 따르는 기능을 유지하면서보다 사실적인 응답을 출력하도록 가이드합니다. | 정렬, 사실 |
2024년 5월 2일 | Nemo-Aligner : 효율적인 모델 정렬을위한 확장 가능한 툴킷 | 대형 언어 모델 (LLM)을 인간의 가치 및 선호도와 정렬하는 것은 도움이되고 안전하게 만드는 데 필수적입니다. 그러나 특히 수십만 또는 수억 개의 매개 변수를 포함하는 가장 크고 가장 유능한 LLM의 경우, 정렬을 수행하기위한 효율적인 도구를 구축하는 것은 어려울 수 있습니다. 우리는 교육을 위해 수백 개의 GPU를 사용하는 것까지 효율적으로 확장 할 수있는 모델 정렬을위한 툴킷 인 Nemo-Aligner를 만듭니다. Nemo-Aligner는 인간 피드백 (RLHF), DPO (Direct Preverence Optimization), SteerLM 및 자체 연극 미세 조정 (SPIN)과 같은 모델 정렬의 주요 패러다임에 대한 최적화되고 확장 가능한 구현을 제공합니다. 또한, 당사의 툴킷은 PEFT (Parameter Efficial Fine Tuning) 설정에서 대부분의 정렬 기술을 실행하는 것을 지원합니다. Nemo-Aligner는 확장 성을 위해 설계되어 최소한의 노력으로 다른 정렬 기술을 지원할 수 있습니다. Apache 2.0 라이센스로 오픈 소스이며 https://github.com/nvidia/nemo-aligner에서 커뮤니티 기부금을 초대합니다. | 정렬, 툴킷 |
2024 년 5 월 1 일 | 더 큰 편집 배치 크기가 항상 더 좋습니까? -Llama-3을 사용한 모델 편집에 대한 경험적 연구 | 이 연구는 최신 대형 언어 모델 LLAMA-3에 중점을 둔 대상 모델 편집 분석을 제시합니다. 우리는 정확한 층 개입을 위해 설계된 인기있는 모델 편집 기술 (Rome, Memit 및 Emmet)의 효능을 탐구합니다. 우리는 순차적 편집, 배치 편집 및 순차적 배치 편집이라고하는 세 가지 전략에 걸쳐 최대 4096 편집을 포함하는 평가를 통해 대상 편집을위한 가장 효과적인 계층을 식별합니다. 우리의 연구 결과에 따르면 배치 크기 편집이 증가하면 동일한 수의 편집을 위해 소규모 편집 배치를 순차적으로 사용하는 것보다 모델 성능이 더 크게 저하 될 수 있습니다. 이를 통해 순차적 모델 편집은 모델 편집 방법을 스케일링하는 데 중요한 구성 요소이며 향후 연구는 배치와 순차 편집을 모두 결합한 방법에 중점을 두어야한다고 주장합니다. 이 관찰은 더 큰 편집 배치 크기로 향하는 현재 모델 편집 방법의 잠재적 제한을 시사하며, 배치 크기 및 모델 편집 성능을 최적화하는 데 대한 향후 조사 방법을 포장하기를 희망합니다. | 모델 편집 |
2024 년 5 월 1 일 | 로라 랜드 : 310 GPT-4와 경쟁하는 미세 조정 된 LLM, 기술 보고서 | LORA (Low Rank Adaptation)는 LLM (Lange Language Models)의 PEFT (Parameter Efficiful Fine Tuning)를위한 가장 널리 채택 된 방법 중 하나로 부상했습니다. LORA는 훈련 가능한 매개 변수 및 메모리 사용량 수를 줄이면서 완전한 미세 조정과 비슷한 성능을 달성합니다. 우리는 실제 응용 프로그램에서 LORA와 미세 조정 된 LLMS 교육 및 서비스의 생존력을 평가하는 것을 목표로합니다. 먼저, 우리는 10 개의베이스 모델에서 양자화 된 저급 어댑터와 총 310 개의 모델에 대한 31 개의 작업에 미세 조정 된 LLM의 품질을 측정합니다. 우리는 4 비트 로라 미세 조정 모델이 기본 모델보다 평균적으로 10 점 x 기본 모델을 능가한다는 것을 발견했습니다. 둘째, 미세 조정을위한 가장 효과적인 기본 모델을 조사하고 미세 조정의 결과를 예측할 때 작업 복잡성 휴리스틱의 상관 및 예측 용량을 평가합니다. 마지막으로, 공유 기본 모델 가중치 및 동적 어댑터 로딩을 사용하여 단일 GPU에 여러 LORA 미세 조정 모델의 배포를 용이하게하는 오픈 소스 멀티 로라 추론 서버 인 Lorax의 대기 시간 및 동시성 기능을 평가합니다. Lorax는 80GB 메모리를 갖춘 단일 NVIDIA A100 GPU에서 25 LORA 미세 조정 된 Mistral-7B LLM을 호스팅하는 웹 응용 프로그램 인 Lora Land를 Powers에 파워합니다. Lora Land는 단일 일반 목적 LLM에 걸쳐 여러 전문 LLM을 사용하는 품질과 비용 효율성을 강조합니다. | PEFT 접근, 미세 조정 |
다양한 사용 사례에 걸쳐 LLM의 적용을 탐구 하면서이 10 주 모험에 1000 명 이상의 학생들과 함께하십시오.
? 닐 *1 주차 [1 월 15 일 2024] *: LLMS에 대한 실용적인 소개
? 닐 *2 주차 [1 월 2224] *: 프롬프트 및 프롬프트 엔지니어링
? 닐 *주 3 주차 [1 월 29 일 2024] *: LLM 미세 조정
? 닐 *4 주차 [Feb 5 2024] *: rag (검색 세대)
? 닐 *5 주차 [2 월 12 일 2024] *: LLM 앱 구축 도구
? 닐 *6 주차 [2024 년 2 월 19 일] *: 평가 기술
? 닐 *7 주차 [2 월 26 일 2024] *: 자신의 LLM 응용 프로그램 구축
? 닐 *8 주차 [3 월 4 일 2024] *: 고급 기능 및 배포
? 닐 *9 주차 [2024 년 3 월 11 일] *: LLMS와의 도전
? 닐 *주 10 주 [2024 년 3 월 18 일] *: 신흥 연구 동향
? 닐 *11 주 *보너스 *[2024 년 3 월 25 일] *: 기초
ETH 취리히의 대형 언어 모델
프린스턴의 큰 언어 모델 이해
껴안는 트랜스포머 코스
Huggingface를 통한 NLP 코스
CS324- 스탠포드의 대형 언어 모델
Coursera의 큰 언어 모델을 가진 생성 AI
Coursera의 생성 AI 소개
Google Cloud의 생성 AI 기초
Google Cloud의 대형 언어 모델 소개
Google Cloud의 생성 AI 소개
DataCamp의 생성 AI 개념 (Daniel Tedesco Data Lead @ Google)
WecloudData의 LLM (대형 언어 모델) 소개 1 시간
LLM Foundation Models From the Bound | Databricks의 프라이머
생성 AI는 Nvidia에 의해 설명되었습니다
Google Cloud의 변압기 모델 및 Bert 모델
AWS의 의사 결정자를위한 생성 AI 학습 계획
Google Cloud의 책임있는 AI 소개
Microsoft Azure에 의한 생성 AI의 기초
Microsoft의 초보자를위한 생성 AI
초보자를위한 chatgpt : Udemy의 모든 사람을위한 최고의 사용 사례
[1HR 토크] Andrej Karpathy의 대형 언어 모델에 대한 소개
학습을 통해 모든 사람을위한 chatgpt
Kshitiz Verma의 대형 언어 모델 (LLMS) (영어) (JK Lakshmipat University, Jaipur, India)
llmops : udacity의 대형 언어 모델로 실제 응용 프로그램 구축
FSDL의 전체 스택 LLM 부트 캠프
Microsoft의 초보자를위한 생성 AI
대형 언어 모델 : Databricks의 생산을 통한 응용 프로그램
AWS의 생성 AI 기초
Ineuron의 생성 AI 커뮤니티 과정 소개
Cohere의 LLM University
Llm Learning Lab의 Lightning AI
DeePlearning.ai의 LLM 응용 프로그램 개발을위한 Langchain
deeplearning.ai의 llmops
deeplearning.ai에 의한 LLMOPS에 대한 자동 테스트
AWS의 Amazon Bedrock을 사용하여 생성 AI 애플리케이션 구축
DeePlearning.ai에 의해 효율적으로 LLMS에 서비스를 제공합니다
DeePlearning.ai의 ChatGpt API를 사용한 시스템 구축
DeePlearning.ai의 Amazon Bedrock을 사용한 Serverless LLM 앱
deeplearning.ai의 벡터 데이터베이스를 사용한 응용 프로그램 구축
deeplearning.ai에 의한 LLMOPS에 대한 자동 테스트
deeplearning.ai의 llmops
deeplearning.ai의 langchain.js로 LLM 앱을 구축하십시오
deeplearning.ai에 의한 Chroma를 사용한 AI의 고급 검색
Coursera의 Azure에서 LLMS 운영
생성 AI 전체 코스 - Gemini Pro, Openai, Llama, Langchain, Pinecone, Vector Database 등의 freecodecamp.org
Activeloop의 생산을위한 교육 및 미세 조정 LLM
Activeloop의 Langchain & Vector 데이터베이스
deeplearning.ai의 인간 피드백으로부터의 강화 학습
deeplearning.ai의 벡터 데이터베이스를 사용한 응용 프로그램 구축
deeplearning.ai에 의한 대형 언어 모델을 찾아냅니다
Langchain : deeplearning.ai를 통해 데이터와 채팅
DeePlearning.ai의 ChatGpt API를 사용한 시스템 구축
deeplearning.ai의 llama 2를 사용한 프롬프트 엔지니어링
deeplearning.ai의 벡터 데이터베이스를 사용한 응용 프로그램 구축
DeePlearning.ai의 개발자를위한 ChatGpt 프롬프트 엔지니어링
Llamaindex의 고급 헝겊 오케스트레이션 시리즈
Coursera의 신속한 엔지니어링 전문화
Nvidia의 검색 증강 생성을 사용하여 LLM을 보강하십시오
deeplearning.ai에 의한 헝겊에 대한 지식 그래프
deeplearning.ai의 포옹 얼굴이있는 오픈 소스 모델
벡터 데이터베이스 : 임베딩에서 deeplearning.ai의 응용 프로그램에 이르기까지
deeplearning.ai의 텍스트 임베딩 이해 및 적용
deeplearning.ai의 llamaindex가있는 JavaScript Rag 웹 앱
deeplearning.ai에 의한 포옹 얼굴을 가진 양자화 기초
deeplearning.ai에 의한 LLM 애플리케이션에 대한 구조화되지 않은 데이터 전처리
Activeloop의 Langchain & Llamaindex와의 생산을위한 증강 세대 검색
deeplearning.ai에 의한 깊이있는 양자화
저장소에 추가하거나 문제를 찾으려면 PR을 높이고 관련 섹션 또는 범주 내에서 올바른 배치를 받으십시오.
이 안내서를 인용하려면 아래 형식을 사용하십시오.
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT 라이센스]