OpenGPTAndBeyond
1.0.0
중국어 간체 |
오픈 소스 ChatGPT 모델의 구현과 초월로 가는 길
LLaMA 가중치의 우발적인 유출과 자가 지시 방식으로 gpt-3 API에서 구축된 데이터를 사용하여 LLaMA를 미세 조정한 Stanford Alpaca의 놀라운 성능 이후 오픈 소스 커뮤니티에서는 대규모 가중치를 실현하는 데 점점 더 많은 관심을 갖게 되었습니다. ChatGPT 수준의 언어 모델이 점점 더 기대됩니다.
이 저장소는 재생산과 초월의 과정을 기록하고 커뮤니티에 대한 개요를 제공하기 위한 것입니다.
포함: 관련 기술 진보, 기본 모델, 도메인 모델, 교육, 추론, 기술, 데이터, 다중 언어, 다중 양식 등
기부자 | 모델/프로젝트 | 특허 | 언어 | 주요 특징 |
---|---|---|---|---|
메타 | 라마/LLaMA2 | 멀티 | LLaMA-13B는 GPT-3(175B)보다 성능이 뛰어나며 LLaMA-65B는 PaLM-540M과 경쟁적입니다. 대부분의 후속 작업에 대한 기본 모델입니다. | |
HuggingFace-BigScience | 꽃 | 멀티 | HuggingFace BigScience에서 훈련한 자동 회귀 대형 언어 모델(LLM)입니다. | |
HuggingFace-BigScience | 블룸즈 | 멀티 | 교차 언어 작업 혼합에 대한 BLOOM 및 mT5 사전 훈련된 다국어 언어 모델의 지침 미세 조정 버전입니다. | |
엘레우더AI | GPT-J | ko | Ben Wang의Mesh Transformer JAX를 사용하여 훈련된 변환기 모델. | |
메타 | 고르다 | ko | 사전 훈련된 변환기 언어 모델을 공개합니다. 이 OPT 모델 제품군을 개발하는 목적은 재현 가능하도록 하는 것입니다. 대규모의 책임 있는 연구를 수행하고 이러한 LLM의 영향을 연구하는 데 더 많은 의견을 제시합니다. | |
대뇌 시스템 | 대뇌-GPT | ko | 사전 훈련된 LLM, GPT-3 유사, 상업적으로 이용 가능, Andromeda AI 슈퍼컴퓨터에서 효율적으로 훈련됨, 컴퓨팅에 최적화된 Chinchilla 확장 법칙(모델 매개변수당 20개 토큰)에 따라 교육되었습니다. | |
엘레우더AI | 파이썬 | ko | 해석 가능성 분석과 확장 법칙을 결합하여 지식이 어떻게 발전하는지 이해합니다. 자기회귀 변환기를 훈련하는 동안 진화합니다. | |
안정성-AI | 안정LM | ko | 안정성 AI 언어 모델 | |
FDU | 이끼 | ko/zh | Fudan University의 오픈 소스 도구로 강화된 대화형 언어 모델입니다. | |
대칭&FDU | BBT-2 | zh | 12B 오픈 소스 LM. | |
@mlfoundations | 오픈플라밍고 | ko | 대규모 다중 모드 모델 학습을 위한 오픈 소스 프레임워크입니다. | |
엘레우더AI | GPT-NeoX-20B | ko | 아키텍처는 의도적으로 GPT-3의 아키텍처와 유사하며 GPT-J-6B의 아키텍처와 거의 동일합니다. | |
UCB | 오픈LLaMA | 아파치-2.0 | ko | LLaMA의 공개 재생산. |
모자이크ML | MPT | 아파치-2.0 | ko | MPT-7B는 GPT 스타일 모델이며 모자이크ML 파운데이션 시리즈 모델의 첫 번째 모델입니다. mosaicML이 선별한 데이터세트의 1T 토큰으로 훈련된 MPT-7B는 오픈 소스입니다. 상업적으로 사용 가능하며 평가 지표 측면에서 LLaMa 7B와 동일합니다. |
Together컴퓨터 | RedPajama-INCITE-Base-3B-v1 | 아파치-2.0 | ko | RedPajama-Data-1T에서 사전 훈련된 2.8B 매개변수 사전 훈련된 언어 모델, 지침 조정 버전과 채팅 버전이 함께 제공됩니다. |
번개-AI | Lit-LLaMA | 아파치-2.0 | - | Apache 2.0 라이선스에 따른 완전 오픈 소스인 LLaMA의 독립적 구현입니다. |
@conceptofmind | PLM | MIT 라이센스 | ko | Google PaLM 모델의 오픈소스 구현입니다. |
TII | 팔콘-7B | TII 팔콘 LLM 라이센스 | ko | TII가 구축하고 엄선된 코퍼스로 강화된 RefinedWeb의 1,500B 토큰에 대해 훈련된 7B 매개변수 인과 디코더 전용 모델입니다. |
TII | 팔콘-40B | TII 팔콘 LLM 라이센스 | 멀티 | TII가 구축하고 선별된 말뭉치를 통해 강화된 RefinedWeb의 1,000B 토큰에 대해 훈련된 40B 매개변수 인과 디코더 전용 모델입니다. |
타이거연구 | 타이거봇 | 아파치-2.0 | ko/zh | 다중 언어 및 다중 작업 LLM. |
BAAI | 아퀼라/아퀼라2 | BAAI_Aquila_Model_License | ko/zh | Aquila 언어 모델은 GPT-3 및 LLaMA의 아키텍처 설계 장점을 계승하여 보다 효율적인 기본 언어 배치를 대체합니다. 연산자 구현 및 중국어-영어 이중 언어 지원을 위한 토크나이저 재설계. |
오픈BMB | CPM-벌 | 범용 모델 라이센스 계약-출처 설명-공개 제한-상업 승인 | ko/zh | CPM-Bee 는 100억 개의 매개변수 용량을 갖춘 완전히 오픈 소스이며 상업적으로 사용 가능한 중국어-영어 이중 언어 기본 모델입니다. 그리고 1조 규모의 광범위한 토큰 코퍼스에 대해 사전 훈련을 받았습니다. |
바이촨 | 백천-7B | 아파치-2.0 | ko/zh | 표준형 동일 사이즈 모델 중 최고의 성능을 달성했습니다. 중국어 및 영어 권위 있는 벤치마크(C-EVAL, MMLU 등). |
텐센트 | 거문고채팅GLM | MIT 라이센스 | ko/zh | 우리가 아는 한, ChatGLM-6B의 첫 번째 가속 버전 입니다. lyraChatGLM의 추론 속도는 초기 원본 버전보다 300배 가속을 달성했습니다. 우리는 성능을 더욱 향상시키기 위해 여전히 열심히 노력하고 있습니다. |
세일즈포스 | XGen | 아파치-2.0 | 멀티 | 8k 시퀀스 길이의 Salesforce 오픈 소스 LLM |
상하이 AI 연구소 | 인턴LM | 아파치-2.0 | ko/zh | InternLM은 70억 개의 매개변수 기본 모델과 실제 시나리오에 맞춰진 채팅 모델을 오픈 소스로 제공했습니다. 이 모델은 다음과 같은 특징을 가지고 있습니다. 강력한 지식 기반을 구축하기 위해 교육에 수조 개의 고품질 토큰을 활용합니다. 8k 컨텍스트 창 길이를 지원하여 더 긴 입력 시퀀스와 더 강력한 추론 기능을 지원합니다. 사용자가 자신만의 워크플로우를 유연하게 구축할 수 있는 다목적 도구 세트를 제공합니다. |
xverse-ai | 엑스버스 | 아파치-2.0 | 멀티 | XVERSE Technology Inc.에서 개발한 다국어 LLM |
작가 | 가장 우수한 | 아파치-2.0 | ko | 매우 강력하면서도 매우 빠른 이 모델은 다양한 미묘한 작업에 탁월합니다. 감정 분류, 요약 등이 있습니다. |
미스트랄 AI | 미스트랄 | 아파치-2.0 | ko | Mistral 7B는 다음과 같은 7.3B 매개변수 모델입니다. 1. 모든 벤치마크에서 Llama 2 13B를 능가합니다. 2. 많은 벤치마크에서 Llama 1 34B를 능가합니다. 3. 영어 작업에 능숙함을 유지하면서 CodeLlama 7B 성능에 접근합니다. 4. 더 빠른 추론을 위해 GQA(Grouped-query attention)를 사용합니다. 5. SWA(Sliding Window Attention)를 사용하여 더 적은 비용으로 더 긴 시퀀스를 처리합니다. |
스카이워크AI | 스카이워크 | - | ko/zh | 주요 평가 벤치마크에서 Skywork-13B는 중국 오픈 소스 모델의 최전선에 있으며 동일한 매개변수 척도에서 최적 수준입니다. 응용 프로그램 없이 상업적으로 사용할 수 있으며, 600G(1,500억 토큰)의 중국 데이터 세트도 오픈 소스로 제공합니다. |
01.AI | 이 | - | ko/zh | Yi 시리즈 모델은 01.AI 개발자가 처음부터 훈련한 대규모 언어 모델입니다. |
IEIT 시스템 | 위안-2.0 | - | ko/zh | 본 연구에서는 자연어의 지역적 종속성에 대한 사전 지식을 Attention에 통합하기 위해 LFA(Localized Filtering-based Attention)가 도입되었습니다. LFA를 기반으로 21억에서 1,026억까지의 매개변수를 갖는 대규모 언어 모델인 Yuan 2.0을 개발 및 출시합니다. 고품질의 사전 훈련 및 미세 조정 데이터 세트를 구축하기 위해 비균일 파이프라인 병렬, 데이터 병렬 및 최적화 병렬을 갖춘 분산 훈련 방법을 제안합니다. 이는 노드 내 통신의 대역폭 요구 사항을 크게 줄이고 대규모 분산 교육에서 우수한 성능을 달성합니다. Yuan 2.0 모델은 기존 모델에 비해 코드 생성, 수학 문제 해결, 채팅에서 인상적인 능력을 보여줍니다. |
난베이지 | 난베이지 | 아파치-2.0 | ko/zh | Nanbeige-16B는 Nanbeige LLM Lab에서 개발한 160억 개의 매개변수 언어 모델로, 사전 학습을 위해 2.5T 토큰을 사용합니다. 학습 데이터에는 대량의 고품질 인터넷 코퍼스, 다양한 서적, 코드 등이 포함됩니다. 다양한 권위 있는 평가 데이터 세트에서 좋은 결과를 얻었습니다. 이 릴리스에는 Base, Chat, Base-32k 및 Chat-32k가 포함되어 있습니다. |
deepseek-ai | 딥시크-LLM | MIT 라이센스 | ko/zh | 670억 개의 매개변수로 구성된 고급 언어 모델은 영어와 중국어로 구성된 2조 개의 토큰으로 구성된 방대한 데이터 세트를 바탕으로 처음부터 훈련되었습니다. |
LLM360 | LLM360 | - | - | 대부분의 오픈 소스 LLM 릴리스에는 모델 가중치 및 평가 결과가 포함되어 있습니다. 그러나 모델의 동작을 실제로 이해하려면 추가 정보가 필요한 경우가 많으며 일반적으로 이 정보는 대부분의 연구자에게 제공되지 않습니다. 따라서 우리는 모든 중간 체크포인트를 공개합니다( 최대 360개!), 모든 훈련 데이터(및 체크포인트에 대한 매핑), 수집된 모든 측정항목(예: 손실, 기울기 표준, 평가 결과), 전처리 데이터 및 모델 훈련을 위한 모든 소스 코드가 추가됩니다. 아티팩트가 도움이 될 수 있습니다 연구원과 실무자가 LLM의 구성 프로세스를 더 깊이 살펴보고 모델 역학 분석과 같은 연구를 수행할 수 있기를 바랍니다. LLM360이 고급 LLM을 더욱 투명하게 만들고 소규모 실험실에서 연구를 촉진하며 AI 연구의 재현성을 향상시키는 데 도움이 되기를 바랍니다. |
FDU 등 | CT-LLM | - | zh/en | CT-LLM은 처음부터 중국어 8,000억 개, 영어 3,000억 개, 코드 토큰 1,000억 개를 포함한 1,200억 개의 토큰 코퍼스의 중국어 데이터를 주로 사용합니다. 데이터 처리 및 MAP-CC(Massive Appropriate Pretraining Chinese Corpus), CHC-Bench(중국 하드 케이스 벤치마크) 도입을 통해 추가 연구와 혁신을 장려합니다. 보다 포괄적이고 적응 가능한 언어 모델을 위해. |
타이거랩 | MAP-NEO | - | zh/en | 데이터 처리부터 모델 훈련, 모델 가중치까지 전 과정을 오픈소스로 제공하는 최초의 대규모 모델입니다. |
데이터캠프 | DCLM | - | - | 원시 데이터 처리, 토큰화, 데이터 셔플링, 모델 교육 및 성능 평가를 위한 도구와 지침을 제공합니다. 기본 베이스라인 7B 모델은 성능이 뛰어납니다. |
기부자 | 모델 | 도메인 | 언어 | 기본 모델 | 주요 특징 |
---|---|---|---|---|---|
유타 사우스웨스턴/ UIUC/OSU/HDU | 챗닥터 | 의료 | ko | 야마 | 아마도 LLaMA에서 조정된 최초의 도메인별 채팅 모델일 것입니다. |
케임브리지 | 비주얼메드-알파카 | 생물의학 | ko | LLaMA-7B | 생물의학 분야를 위해 특별히 설계된 다중 모드 기반 모델입니다. |
때리다 | BenTsao/ChatGLM-Med | 의료 | zh | LLaMA/채팅GLM | gpt3.5 API를 사용하여 생성된 중국 의학 지식 데이터 세트로 미세 조정되었습니다. |
상하이테크 등 | 닥터GLM | 의료 | ko/zh | 채팅GLM-6B | ChatGLM-6B에서 중국 의료 상담 모델을 미세 조정했습니다. |
목공기 | 바이오메드GPT-1.6B | 생물의학 | ko/zh | - | 2D 분자 그래프를 텍스트와 연결하는 1.6B 매개변수를 갖춘 사전 훈련된 다중 모드 분자 기반 모델입니다. |
@LiuHC0428 | LawGPT_ko | 합법적인 | zh | 채팅GLM-6B | Reliable-Self-Instruction을 통해 생성된 데이터에 대해 훈련된 중국 법률 영역의 일반 모델입니다. |
SJTU | 의료GPT-zh | 의료 | zh | 채팅GLM-6B | 한의학 영역의 일반 모델, 자가 지시를 통해 생성된 다양한 데이터. |
SJTU | PMC-LLaMA | 의료 | zh | 야마 | 의료 논문에 대한 LLaMA 교육을 계속하세요. |
포옹얼굴 | 스타코더 | 코드 생성 | ko | - | 소스 코드와 자연어 텍스트에 대해 훈련된 언어 모델(LM)의 훈련 데이터에는 다음 이상의 내용이 포함됩니다. 80가지 프로그래밍 언어와 GitHub 문제 및 커밋, 노트북에서 추출한 텍스트입니다. |
@코그스택 | NHS-LLM | 의료 | ko | 명확하지 않다 | OpenGPT를 사용하여 훈련된 의료용 대화형 모델입니다. |
@pengxiao-송 | 법WGPT | 합법적인 | zh | LLaMA/채팅GLM | 중국어 법률 용어로 단어 확장, 자가 지시를 통해 생성된 데이터에 대한 미세 조정 지시. |
덕샤오만 | 쉬안위안 | 재원 | zh | 블룸-176B | 수천억 개의 매개변수를 사용하는 대규모 중국 금융 채팅 모델. |
CUHK | 화타GPT | 의료 | zh | 명확하지 않다 | HuatuoGPT는 방대한 중국 의학 자료에서 훈련된 대규모 언어 모델(LLM)입니다. HuatuoGPT의 목표는 다음과 같습니다. 의료 상담 시나리오를 위한 보다 전문적인 'ChatGPT'를 구축합니다. |
PKU | 변호사 LLaMA | 합법적인 | zh | 야마 | 중국 법률 데이터에 대한 사전 교육, 법률 시험 조정 교육, 법률 컨설팅 QA 쌍을 계속 진행합니다. |
목 | 렉시로 | 합법적인 | zh | 채팅GLM-6B | 일반 데이터(BELLE 1.5M)와 법률 데이터를 혼합하여 학습했습니다. |
목 등 | 타올리 | 교육 | zh | 야마 | 국제 중국어 교육을 위한 대규모 모델입니다. 기본 모델에 특정 어휘를 확장합니다. 명령 미세 조정을 위해 도메인의 독점 데이터 세트를 사용합니다. |
NUS | 염소 | 산수 | ko | 야마 | 다양한 산술 작업에서 GPT-4보다 훨씬 뛰어난 성능을 발휘하는 미세 조정된 LLaMA 모델입니다. 종합적으로 생성된 데이터 세트를 미세 조정한 Goat는 BIG 벤치 산술 하위 작업에서 최첨단 성능을 달성합니다. |
CU/NYU | 핀GPT | 재원 | ko | - | 금융용 대형 언어 모델(FinLLM)을 위한 엔드투엔드 오픈 소스 프레임워크입니다. |
마이크로소프트 | WizardCoder | 코드 생성 | ko | 스타코더 | 78k 진화된 코드 지침으로 훈련되었으며 HumanEval 벤치마크에서 Claude-Plus(+6.8) , Bard(+15.3) 및 InstructCodeT5+(+22.3)를 능가합니다. |
유카스 | 풍부 | 재원 | zh | 야마 | 중국 금융 지식에 대한 LLaMA를 미세 조정하고, |
PKU | ChatLaw | 합법적인 | zh | 지야/아니마 | 중국의 법적 도메인 모델. |
@michael-wzhu | 챗메드 | 의료 | zh | 야마 | LLaMA-7B를 기반으로 한 중국 의학 LLM. |
짧은 꼬리 | 소울챗 | 정신 건강 | zh | 채팅GLM-6B | ChatGLM-6B를 기반으로 한 정신 건강 영역의 중국어 대화 LLM. |
@시빙624 | 의료GPT | 의료 | zh | 채팅GLM-6B | ChatGPT 교육 파이프라인을 사용하여 자신만의 의료 GPT 모델을 교육하세요. |
BJTU | 트랜스GPT | 운송 | zh | LLaMA-7B | 중국 교통 모델. |
BAAI | Aquila코드 | 코드 생성 | 멀티 | 아굴라 | AquilaCode-multi는 Python/C++/Java/Javascript/Go 등 다양한 프로그래밍 언어에 대한 고정밀 코드 생성을 지원하는 다국어 모델입니다. HumanEval-X에서는 Pass@1, Pass@10 및 Pass@100 점수가 각각 26/45.7/71.6으로 HumanEval(Python) 평가에서 인상적인 결과를 얻었습니다. 다국어 코드 생성 평가를 통해 유사한 매개변수를 사용하는 다른 오픈소스 모델보다 훨씬 뛰어난 성능을 발휘합니다(2023년 7월 19일 기준). 반면 AquilaCode-py는 Python 코드 생성에 초점을 맞춘 모델의 단일 언어 Python 버전입니다. 또한 HumanEval 평가에서도 Pass@1, Pass@10, Pass@100 점수가 28.8/50.6/76.9(2023년 7월 19일 기준)로 탁월한 성능을 보여주었습니다. |
메타 | 코드LLaMA | 코드 생성 | 멀티 | LLaMA-2 | 개방형 모델 중 최첨단 성능을 제공하는 Llama 2 기반 코드용 대규모 언어 모델 제품군, 채우기 기능, 대규모 입력 컨텍스트를 지원하고 프로그래밍 작업을 위한 제로샷 명령 추적 기능을 제공합니다. |
UNSW 등 | 다윈 | 자연과학 | ko | LLaMA-7B | 주로 물리학, 화학 및 재료 과학 분야의 자연 과학을 위한 최초의 오픈 소스 LLM입니다. |
알리바바 | 에코GPT | 전자상거래 | ko/zh | 블룸즈 | 전자상거래를 위한 명령어 조정 대형 언어 모델. |
TIGER-AI-Lab | 거대한 | 수학 | ko | LLaMA2/CodeLLaMA | MAmmoTH 모델은 MathInstruct에서 훈련됩니다. 가벼우면서도 일반화 가능한 세심하게 선별된 명령 튜닝 데이터 세트입니다. MathInstruct는 13개의 수학 이론적 근거 데이터 세트에서 컴파일됩니다. 그 중 6개는 이 작업에 의해 새롭게 큐레이팅되었으며, 특히 CoT(사고 사슬)와 PoT(사고 프로그램) 이론적 근거의 하이브리드 사용에 중점을 두고 있습니다. 다양한 수학 분야의 광범위한 범위를 보장합니다. |
SJTU | 아벨 | 수학 | ko | LLaMA2 | 우리는 Parental Oversight *, A Babysitting Strategy for Supervised Fine-tuning을 제안합니다. Parental Oversight 는 특정 데이터 처리 방법에 국한되지 않고 Generative AI GAI 시대에 Supervised Fine-tuning을 안내해야 하는 데이터 처리 철학을 정의합니다. . |
FDU | DISC-LawLLM | 합법적인 | zh | 바이촨-13B | FudanDISC는 대규모 언어 모델을 기반으로 하는 중국 지능형 법률 시스템인 DISC-LawLLM을 출시했습니다. 또한 다양한 사용자 그룹을 대상으로 다양한 법률 서비스를 제공할 수 있습니다. 또한 DISC-Law-Eval은 객관적인 측면과 주관적인 측면 모두에서 대규모 법률 언어 모델을 평가할 수 있도록 구성되었습니다. 이 모델은 기존의 대규모 법적 모델에 비해 분명한 장점을 가지고 있습니다. 또한 팀은 300,000개의 고품질 SFT(감독 미세 조정) 데이터 세트인 DISC-Law-SFT를 제공했습니다. |
홍콩대 등 | 채팅정신과 의사 | 정신 건강 | ko | LLaMA-7B | 이 저장소는 상담용 DOMI 명령 데이터로 미세 조정된 Instruct-tuned LLaMA-7B 모델을 오픈 소스로 제공합니다. 8K 크기의 강의 조정 데이터세트를 구축하기 위해 실제 상담 대화 예시를 수집하고 GPT-4를 추출기 및 필터로 사용했습니다. 또한 도메인 상담 평가 기준을 통합하여 LLM+상담 도메인에 특별히 맞춤화된 포괄적인 측정 기준 세트를 도입했습니다. 이러한 측정 기준을 사용하면 다차원 상담 기술이 포함된 언어 콘텐츠 생성 성능을 평가할 수 있습니다. |
카스 | 스타위스퍼 | 천문학적인 | zh | - | 대형 천문모델인 StarWhisper는 전문가가 라벨링한 천체물리학 코퍼스의 미세 조정을 통해 모델의 추론 논리와 무결성을 크게 향상시킵니다. Keguei AI 연구소와 LanguageX AI Lab이 공동으로 발표한 CG-Eval에서는 논리적 긴 텍스트 훈련 및 직접 선호도 최적화에서 전체 2위에 올랐습니다. GPT-4 바로 아래에 있으며 수학적 추론과 천문학적 능력은 GPT 3.5 Turbo에 가깝거나 그 이상입니다. |
지푸아이 | 핀GLM | 재원 | zh | 채팅GLM | SMP2023-ELMFT(금융 기술의 대형 모델 평가) 솔루션입니다. |
PKU 등 | 코드쉘 | 코드 생성 | ko/zh | - | CodeShell은 북경대학교 Knowledge Computing Lab과 Sichuan Tianfu Bank AI팀이 공동으로 개발한 코드 대형 언어 모델(LLM)로, 70억 개의 매개변수를 가지고 있습니다. 5000억 개의 토큰에 대해 훈련되었으며 컨텍스트 창 길이는 8192입니다. 권위 있는 코드 평가 벤치마크(HumanEval 및 MBPP)에서 CodeShell은 해당 규모의 모델에 대해 최고의 성능을 달성합니다. |
FDU | DISC-FinLLM | 재원 | zh | Baichuan-13B-채팅 | DISC-FinLLM은 금융 분야의 대규모 언어 모델로, 금융 컨설팅, 금융 컨설팅, 금융 시나리오 등 4가지 모듈로 구성된 다중 전문가 지능형 금융 시스템입니다. 금융 텍스트 분석, 재무 계산, 금융 지식 검색 및 질문 답변. |
심해탐색 | Deepseek 코더 | 코드 생성 | ko/zh | - | Deepseek Coder는 영어와 중국어의 87% 코드와 13% 자연어에 대해 훈련된 일련의 코드 언어 모델로 구성되며, 각 모델은 2T 토큰에 대해 사전 훈련됩니다. 코딩 기능의 경우 Deepseek Coder는 여러 프로그래밍 언어 및 다양한 벤치마크에서 오픈 소스 코드 모델 중에서 최첨단 성능을 달성합니다. |
마이크로소프트 | 수학문어 | 수학 | 멀티 | LLaMA2 | 이 작업은 강력한 다국어 수학 추론(xMR) LLM을 탐색하고 구축하는 데 앞장서고 있습니다. 이를 달성하기 위해 우리는 다음 작업을 수행합니다. 1. MGSM8KInstruct는 10개의 개별 언어를 포함하는 최초의 다국어 수학 추론 명령 데이터세트로 xMR 작업의 훈련 데이터 부족 문제를 해결합니다. 2. 도메인 외부 xMR 테스트 데이터 세트 인 MSVAMP는 모델의 다국어 수학적 기능에 대한 보다 철저하고 포괄적인 평가를 수행합니다. 3. 효과적인 다국어 수학 추론 LLM인 MathOctopus는 다양한 전략으로 교육합니다. 이는 기존 오픈 소스 LLM보다 훨씬 뛰어난 성능을 발휘하며 몇 번의 시나리오에서 ChatGPT보다 우수합니다. |
ITREC | Zh-MT-LLM | 해상 | ko/zh | 채팅GLM3-6b | 훈련 데이터는 3개의 주요 세그먼트로 구성된 해양 도메인 데이터인 Zh-mt-sft와 30w 일반 대화 데이터moss-003-sft-data를 사용하며 특히 CrimeKgAssitant-1.8w, Zh-law-qa 및 해양법규 관련 Q&A, 해양교육훈련 관련 Zh-edu-qa, Zh-edu-qb, 해양전문 지식 Q&A 관련 Zh-mt-qa입니다. |
@SmartFlowAI | EmoLLM | 정신 건강 | zh | - | EmoLLM 은 LLM 지침에 따라 세부 조정된 사용자 이해 - 사용자 지원 - 사용자 정신 건강 상담 링크 지원을 지원할 수 있는 일련의 대규모 정신 건강 모델입니다. |
일부 의료 모델: 여기
일부 도메인 llms: Awesome-Domain-LLM
치유 모델: Awesome-Healthcare-Foundation-Models
기부자 | 모델/프로젝트 | 언어 | 기본 모델 | 주요 특징 |
---|---|---|---|---|
스탠포드 | 알파카 | ko | 라마/OPT | Self-Instructt 기술로 생성된 52K 명령 따르기 데이터를 사용하여 7B LLaMA를 미세 조정합니다. 결과 모델인 Alpaca는 Self-Instruct 지침 따르기 평가 제품군의 text-davinci-003 모델과 유사하게 동작합니다.알파카는 많은 후속 모델에 영감을 주었습니다. |
리안지아테크 | 미인 | ko/zh | BLOOMZ-7B1-mt | 아마도 알파카를 따르는 최초의 중국 모델일 것입니다. |
목 | 채팅GLM-6B | ko/zh | - | 중국의 유명 모델. |
데이터브릭스 | 인형 | ko | GPT-J 6B | 알파카 데이터를 사용해 2년 된 모델 미세 조정: 놀라울 정도로 높은 품질을 보여주는 GPT-J 지시에 따른 행동은 그것이 기반으로 하는 기초 모델의 특징이 아닙니다. |
@tloen | 알파카-LoRA | ko | LLaMA-7B | 단일 RTX 4090에서 몇 시간 내에 훈련되었으며, LoRA(Low-Rank Adaptation)를 사용하여 Stanford Alpaca 결과를 재현하고, 라즈베리 파이에서 실행할 수 있습니다. |
거대AI | Coati7B | ko/zh | LLaMA-7B | ColossalChat 프로젝트에서 개발한 대규모 언어 모델 |
상하이 AI 연구소 | LLaMA 어댑터 | ko | LLaMA-7B | 1시간 및 1.2M 매개변수 내에서 지침을 따르도록 LLaMA를 미세 조정함 |
에테르피질 | 라마-X | ko | 야마 | LLaMA를 SOTA LLM으로 개선하는 공개 학술 연구. |
Together컴퓨터 | 오픈챗킷 | ko | GPT-NeoX-20B | OpenChatKit은 다양한 애플리케이션을 위한 특수 및 범용 챗봇을 생성할 수 있는 강력한 오픈 소스 기반을 제공합니다. 키트에는 명령 조정 언어 모델, 조정 모델 및 다음을 포함하는 확장 가능한 검색 시스템이 포함되어 있습니다. 사용자 정의 저장소의 최신 응답. |
노믹-AI | GPT4모두 | ko | 야마 | 코드, 스토리, 대화를 포함한 방대한 양의 깔끔한 어시스턴트 데이터에 대한 교육을 받았습니다. |
@ymcui | 중국어-LLaMA-알파카 | ko/zh | LLaMA-7B/13B | 원본 LLaMA를 기반으로 중국어 어휘를 확장하고 중국어 데이터를 2차 사전 학습에 사용하고, 또한, 이 프로젝트는 중국어 명령어 데이터를 사용하여 중국어 기본 의미 이해를 더욱 향상시킵니다. 중국어 LLaMA를 기반으로 미세 조정하여 모델의 이해와 지침 실행을 크게 향상시킵니다. |
UC 버클리 스탠포드 CMU | 비쿠나 | ko | LLaMA-13B | 90% ChatGPT 품질로 GPT-4에 깊은 인상을 남깁니다. |
UCSD/SYSU | 베이즈 | ko/zh | 야마 | LoRA로 미세 조정되었습니다. ChatGPT가 자체 채팅을 통해 생성된 100,000개의 대화 상자를 사용합니다. 알파카의 데이터는 성능 향상에도 사용됩니다. |
UC 버클리 | 코알라 | ko | 야마 | 팀은 가능한 한 많은 웹 데이터를 스크랩하여 수량을 극대화하기보다는 소규모의 고품질 데이터 세트를 수집하는 데 중점을 둡니다. |
@imClumsyPanda | 랭체인-ChatGLM | ko/zh | 채팅GLM-6B | langchain을 사용한 지역 지식 기반 ChatGLM. |
@yangjianxin1 | 반딧불이 | zh | 꽃-1b4-zh 꽃-2b6-zh | 중국어 데이터 세트에 대한 지침 조정, 어휘 정리, ZeRO 및 텐서 병렬 처리 효과적으로 메모리 소비를 줄이고 훈련 효율성을 향상시키는 데 사용됩니다. |
마이크로소프트 | GPT-4-LLM | ko/zh | 야마 | 지도 학습 및 강화 학습을 통해 지침을 따르는 LLM을 구축하기 위해 GPT-4에서 생성된 데이터를 공유하는 것을 목표로 합니다. |
포옹하는 얼굴 | 스택LLaMA | ko | 야마 | StackExchange 데이터에 대한 교육을 받았으며 주요 목표는 다음에 대한 튜토리얼 및 연습 역할을 하는 것입니다. 주로 모델 성능이 아닌 RLHF를 사용하여 모델을 훈련하는 방법. |
네블리 | 채팅LLaMA | ko | - | 자신의 데이터와 가능한 최소한의 컴퓨팅 양을 사용하여 고도로 개인화된 ChatGPT와 같은 도우미를 만들 수 있는 라이브러리입니다. |
@juncongmoo | 채팅LLaMA | ko | 야마 | 단일 GPU에서 실행 가능한 LLaMA 기반 RLHF 모델. |
@juncongmoo | 미니챗gpt | ko | GPT/OPT... | ColossalAI로 5분 안에 ChatGPT를 훈련하려면. |
@LC1332 | Luotuo-중국어-LLM | zh | LLaMA/채팅GLM | Colab이 제공되는 미세 조정된 중국어 모델 교육! |
@파시코 | 중국어-비쿠나 | zh | 야마 | Lora로 미세 조정된 중국어 지침을 따르는 LLaMA 기반 모델, cpp 추론 지원, colab 제공. |
@yanqiangmiffy | GLM 지시하기 | ko/zh | 채팅GLM-6B | 다양한 데이터 소스에 대해 미세 조정된 ChatGLM 기반 명령 따르기 모델은 DeepSpeed 가속 및 LoRA를 지원합니다. |
알리바바 | 웜뱃 | ko | 야마 | RLHF의 대안으로 RRHF라는 새로운 학습 패러다임이 제안되었습니다. 다양한 샘플링 정책을 적용하고 순위 손실을 통해 이를 인간의 선호도에 맞게 조정하는 방법을 학습합니다. 프로세스에 사용되는 모델이 적다는 점에서 RLHF와 유사합니다. |
@우준데 | 알파카 글래스오프 | ko | 야마 | 스탠포드 알파카(stanford-alpaca)와 알파카 로라(alpaca-lora)를 기반으로 하는 미니 이미지 수용 가능 Chat AI는 자신의 노트북에서 실행될 수 있습니다. |
@JosephusCheung | 과나코 | 멀티 | LLaMA-7B | 다국어 지시 따르기 언어 모델. |
@FreedomIntelligence | LLM 동물원 | 멀티 | 블룸즈/라마 | 대규모 언어 모델에 대한 데이터, 모델 및 평가 벤치마크를 제공하는 프로젝트입니다. 출시 모델 : Phoenix, Chimera |
SZU | 린리 | ko/zh | 야마 | 중국어 어휘 확장 , 완전 미세 조정 모델, 최대 LLaMA 기반 중국어 모델, 중국어 지침 데이터 집계, 재현 가능한 세부 사항.. |
@라미니-ai | 라미니 | 멀티 | - | 지침을 따르는 LLM을 훈련하기 위한 지침을 생성하기 위한 데이터 생성기입니다. |
안정성-AI | 마구간비쿠나 | ko | 야마 | Vicuna v0 13b의 미세 조정 및 RLHF 훈련 버전으로 Vicuna보다 더 나은 성능을 제공합니다. |
포옹하는 얼굴 | 포옹채팅 | ko | 야마 | ChatGPT와 유사한 플랫폼으로 접근할 수 있는 최초의 플랫폼인 것 같습니다. |
마이크로소프트 | WizardLM | ko | 야마 | 70,000개의 진화된 명령어로 훈련된 Evol-Instruct는 인간 대신 LLM을 사용하여 자동으로 대량 생산하는 새로운 방법입니다. LLM의 성과를 향상시키기 위해 다양한 난이도와 기술 범위의 오픈 도메인 지침을 제공합니다. |
FDU | Open중국어LLaMA | ko/zh | LLaMA-7B | 중국 데이터에 대한 LLaMA 사전 훈련을 강화하여 중국 작업에 대한 LLaMA 성능을 향상합니다. |
@chenfeng357 | 오픈 중국어-ChatLLaMA | ko/zh | 야마 | 사전 훈련 지도 및 RLHF의 전체 프로세스를 포함하는 오픈 소스 중국어-라마 모델의 전체 훈련 코드입니다. |
@FSoft-AI4Code | 코드카피바라 | ko | 야마 | 코드 생성을 위한 명령 조정을 따르는 오픈 소스 LLaMA 모델입니다. |
@mbzuai-nlp | 라미니-LM | ko | LLaMA/Flan-T5... | 대규모 지침에서 추출된 다양한 모델 무리. |
NTU | 팬더 | ko/zh | 야마 | LLaMA 모델의 전체 크기인 중국 데이터에 대한 추가 사전 학습. |
IBM/CMU/MIT | 단봉 낙타 | ko | LLaMA-65B | 최소한의 인간 감독으로 처음부터 언어 모델의 원칙 중심 자체 정렬. |
@melodysdreamj | 마법사VicunaLM | 멀티 | 비쿠나 | Wizard의 데이터 세트 + ChatGPT의 대화 확장 + Vicuna의 튜닝 방법, Vicuna에 비해 약 7%의 성능 향상을 달성했습니다. |
삼바노바시스템 | BLOOMChat | 멀티 | 꽃 | BLOOMChat은 1760억 매개변수의 다국어 채팅 모델입니다. BLOOM(176B)에서 조정된 명령입니다. 보조자 스타일의 대화 데이터세트를 제공하며 여러 언어로 대화, 질문 답변 및 생성적 답변을 지원합니다. |
TII | Falcon-7B-지시 | ko | 팔콘-7B | Falcon-7B를 기반으로 TII가 구축하고 채팅/지시 데이터세트를 혼합하여 미세 조정한 7B 매개변수 인과 디코더 전용 모델입니다. |
TII | Falcon-40B-지시 | 멀티 | 팔콘-40B | Falcon-40B를 기반으로 TII가 구축하고 Baize의 혼합으로 미세 조정된 40B 매개변수 인과 디코더 전용 모델입니다. |
USTC 등 | 전문가LLaMA | ko | 야마 | In-Context Learning을 사용하여 맞춤형 전문가 아이덴티티를 자동으로 작성하고 매우 만족스러운 품질을 찾아보세요. 그런 다음 각 명령에 해당 전문가 ID를 추가하여 증강된 명령 따르기 데이터를 생성합니다. 전체 프레임워크를 ExpertPrompting 이라고 합니다. 자세한 내용은 논문에서 확인하세요. |
쭈 | 카마 | ko/zh | 야마 | 정보 추출(IE) 작업에 최적화된 어휘 확장 없이 중국어 강의에 대해 추가로 사전 훈련되었습니다. LoRA 명령어 미세 조정 스크립트뿐만 아니라 대규모 말뭉치의 변환, 구성 및 로딩을 포함하는 사전 학습 스크립트도 사용할 수 있습니다. |
목 | 울트라챗 | ko | 야마 | 첫째, UltraChat 데이터세트는 LLaMA 모델을 미세 조정하여 챗봇 교육을 위한 풍부한 리소스를 제공합니다. 연구진은 뛰어난 성능을 갖춘 대화 모델 UltraLLaMA를 성공적으로 만들었습니다. |
RUC | YuLan-채팅 | ko/zh | 야마 | 고품질 영어 및 중국어 지침이 포함된 미세 조정 LLaMA를 기반으로 개발되었습니다. |
AI2 | 툴루 | ko | LLaMA/피티아/OPT | 다양한 데이터세트를 기반으로 완전히 미세 조정된 LLaMa 모델 모음입니다. |
카이스트 | 셀피 | ko | 야마 | 자기 피드백 생성을 통해 강화된 반복적 자기 수정 LLM. |
@lyogavin | 아니마 | ko/zh | 야마 | QLoRA의 33B guanaco를 기반으로 학습되었으며 10,000단계로 미세 조정되었습니다. |
목 | 채팅GLM2-6B | ko/zh | - | ChatGLM 2 -6B는 오픈 소스 이중 언어(중국어-영어) 채팅 모델 ChatGLM-6B의 2세대 버전입니다. 1세대 모델의 원활한 대화 흐름과 낮은 배포 임계값을 유지하는 동시에 다음과 같은 새로운 기능을 도입합니다. -강한 성능 - 더 긴 맥락 - 더 효율적인 추론 - 더 많은 오픈 라이선스 |
오픈챗 | 오픈챗 | ko | LLaMA 등 | 작지만 다양한 고품질의 다단계 대화 데이터세트를 기반으로 미세 조정된 일련의 오픈 소스 언어 모델입니다. 특히, 우리는 ~90K ShareGPT 대화에서 직접 필터링된 ~6K GPT-4 대화만 활용합니다. 데이터 세트의 작은 크기에도 불구하고 OpenLLM은 놀라운 성능을 보여주었습니다. |
카스 | 베이링 | 멀티 | 야마 | BayLing은 고급 언어 조정 기능을 갖춘 영어/중국어 LLM입니다. 영어/중국어 세대, 지시 따르기, 멀티턴 상호 작용에서 뛰어난 능력을 보여줍니다. |
안정성 | 프리윌리/프리윌리2 | ko | 라마/LLaMA2 | FreeWilly 는 Orca 스타일 데이터 세트에서 미세 조정된 Llama65B 모델입니다.FreeWilly2 는 Orca 스타일 데이터 세트에서 미세 조정된 Llama2 70B 모델입니다.FreeWilly2 허깅페이스 Open LLM 리더보드에서 Llama2 70B보다 성능이 뛰어납니다. |
알리바바 | Qwen-7B | ko/zh | - | Alibaba Cloud가 제안한 대규모 언어 모델 시리즈 Qwen(약어 Tongyi Qianwen)의 7B 매개변수 버전입니다. |
쭈 | KnowLM | ko/zh | 야마 | 딥러닝 기술의 급속한 발전으로 ChatGPT와 같은 대규모 언어 모델은 자연어 처리 영역에서 상당한 발전을 이루었습니다. 그러나 이러한 확장 모델은 지식 및 잠재적 지식 업데이트의 어려움을 포함하여 지식을 획득하고 이해하는 데 여전히 여러 가지 과제에 직면해 있습니다. 불일치와 편견, 집합적으로 지식 오류 라고 알려져 있습니다. KnowLM 프로젝트는 오픈 소스 대규모 지식 언어 모델 프레임워크를 출시하고 해당 모델을 출시함으로써 이러한 문제를 해결하기 위해 노력하고 있습니다. |
NEU | TechGPT | ko/zh | 야마 | TechGPT는 주로 다음 세 가지 유형의 작업을 강화합니다. - "지식 그래프 구축"을 핵심으로 관계 삼중항 추출 등 다양한 정보 추출 작업 - '독해'를 중심으로 한 다양한 지능형 질의응답 과제입니다. - "텍스트 이해"를 핵심으로 하는 키워드 생성 등 다양한 시퀀스 생성 작업. |
@미우랩 | 대만-LLaMa | ko/zh | LLaMA2 | 대만의 중국어 번체 LLM. |
Xwin-LM | Xwin-LM | ko | LLaMA2 | Xwin-LM은 SFT(Supervised Fine-Tuning), 보상 모델(RM), 거부 샘플링, 인간 피드백 강화 학습(RLHF) 등 Llama2 기본 모델은 AlpacaEval에서 TOP 1 로 평가되었으며, 특히 이 벤치마크에서 GPT-4를 능가한 최초의 모델 입니다. |
웬지 연구 | 야이 | ko/zh | 라마/LLaMA2 | YaYi는 인위적으로 구성된 수백만 개의 고품질 도메인 데이터를 미세 조정했습니다. 이 교육 데이터는 5가지 주요 도메인을 다룹니다. 미디어 홍보, 여론 분석, 공공 안전, 금융 위험 통제, 도시 거버넌스 등 100개 이상의 자연어 교육 작업을 포괄합니다. |
포옹얼굴 | 미풍 | ko | 미스트랄 | Zephyr는 유용한 보조자 역할을 하도록 훈련된 일련의 언어 모델입니다. Zephyr-7B-α는 시리즈의 첫 번째 모델이며, mistralai/Mistral-7B-v0.1은 DPO(직접 선호 최적화)를 사용하여 공개적으로 사용 가능한 합성 데이터 세트의 혼합에 대해 훈련되었습니다. |
코히어 | Command-R / Command R+ | 멀티 | - | Command-R은 10개 언어로 평가된 다국어 생성 기능과 고성능 RAG 기능을 갖추고 있습니다. |
XAI | 그로크 | ko | - | 314B MoE; 컨텍스트 길이: 8192 |
데이터브릭 | dbrx-지시 | - | - | 총 132B개의 매개변수를 갖춘 세분화된 전문가 혼합(MoE) 아키텍처이며 그 중 36B개의 매개변수는 모든 입력에서 활성화됩니다. 8x7B 및 Grok-1, DBRX는 세분화되어 있습니다. 즉, DBRX에는 16명의 전문가가 있고 4명을 선택합니다. Mixtral-8x7B와 Grok-1에는 전문가가 8명 있고 2명을 선택합니다. |
기부자 | 모델/방법 | 주요 특징 | 주요 특징 |
---|---|---|---|
퓨즈AI | 퓨즈챗 | 첫째, 소스 LLM에 대한 쌍별 지식 융합을 수행하여 경량 미세 조정을 통해 동일한 구조와 크기의 여러 대상 LLM을 파생합니다. 그런 다음 이러한 대상 LLM은 매개변수 공간 내에서 병합되며, 병합 가중치를 결정하기 위한 새로운 방법 VaRM을 제안합니다. 미세 조정 전후의 매개변수 행렬의 변동 비율을 기준으로 합니다. | 다양한 아키텍처와 규모를 갖춘 세 가지 주요 채팅 LLM, 즉 NH2-Mixtral-8x7B, NH2-Solar-10.7B 및 OpenChat-3.5-7B의 융합은 MT-Bench에서 평균 8.22 의 성능을 달성합니다. Starling-7B와 같은 7B 및 34B 규모의 다양하고 강력한 채팅 LLM Yi-34B-Chat은 GPT-3.5(3월), Claude-2.1까지 능가하며 Mixtral-8x7B-Instruct에 접근합니다. |
아르세아이 | 병합 키트 | 사전 학습된 대규모 언어 모델을 병합하기 위한 도구입니다. | |
사카나AI | EvoLLM | 모델 병합 레시피의 진화적 최적화. |
(아마도 후임?)
기부자 | 방법 | 주요 기능 |
---|---|---|
Blinkdl | RWKV-LM | RWKV는 변압기 수준 LLM 성능을 가진 RNN입니다. 따라서 훌륭한 성능, 빠른 추론, VRAM, 빠른 훈련, "무한"CTX_LEN 및 무료 문장 임베딩을 결합합니다. |
MSRA | 레넷 | 동시에 훈련 평행, 저렴한 추론 및 우수한 성능을 달성하는 것은 이론적으로 재발과 관심 사이의 연결을 도출합니다. 그런 다음 서열 모델링에 대한 보유 메커니즘을 제안하는데, 이는 세 가지 계산 패러다임 (즉, 평행선, 재발 및 청크 시위 재발을 지원합니다. 구체적으로, 병렬 표현은 반복적 인 보복을 훈련시킬 수있게하여 저비용 O ( 1 ) 주행을 가능하게합니다. 성능을 희생하지 않고 Latender 및 GPU Memiry. 각 청크는 언어 모델링에 대한 실험 결과를 요약하면서 구식으로 인코딩되는 경우, Retnet은 유리한 Caling 결과를 달성합니다. 병렬 교육, 저비용 배치 및 효율적인 추론으로 인해 Retnet은 큰 언어 모델에 대한 강력한 성공을 거두었습니다. |
스탠포드 | bapcpack | Abackpack은 해석 가능성을 위한 새로운 도구를 제공하는 변압기의 드롭 인 교체품입니다. 배낭은 텍스트로 단어의 유전적인 의미를 촉진시키고 가중 합계로 집계하여 정확하고 예측 가능한 인턴 벤트를 허용합니다. |
스탠포드 등 | 군주 믹서 (M2) | 기본 아이디어는 변압기의 주요 요소를 Monarch Matrice Datic으로 대체하는 것입니다. 하드웨어-효율적이고 표현력이있는 Monarch Mixer에서는 Monarch Matres에서 구축 된 층을 사용하여 시퀀스 용어를 가로 질러 혼합) 및 모델 차원을 가로 질러 혼합합니다 (밀도가 높은 MLP 교체). |
CMU 등 | 맘바 | Mamba는 언어 모델링 L과 같은 정보 밀도 데이터에 대한 성능을 보여주는 새로운 상태 공간 모델 아키텍처입니다. FlashAttent. |
함께 컴퓨터 | Stripedhyna | Stripedhyna는 유사한 최고의 오픈 소스 변압기와 경쟁하는 최초의 대체 모델 입니다. Stripedhyna는 다중 헤드, Groupd-query주의 및 게이트 컨볼 루션 인한 블록, 다른 Fraditi onal decoder 전용 변압기로 구성된 하이브리드 아키텍처입니다. 1. 컨볼 루션을 상태 공간 모델 (모달 오르노 릭 형태) 또는 잘린 필터로 표현하여 하이에나 블록에서의 원가 요인 메모리 디코딩. 2. 트랜스포머보다 낮은 대기 시간, 더 빠른 디코딩 및 처리량이 높습니다. 3. Improvement to training and inference-optimal scaling laws, compared to optimized Transformer architectures such as Llama-2. 4. 최대 32K 시퀀스에 대해 훈련되어 더 긴 프롬프트를 처리 할 수 있습니다. |
마이크로소프트 | bgpt | BGPT는 모든 유형의 데이터에 대한 다음 바이트 예측을 통해 생식적으로 모델링을 지원하고 컴퓨터에서 작업 실행 파일을 수행 할 수 있으며, 디지털 세계 내에서의 모든 활동을 동시에 동시에 수행 할 수있는 능력을 보여줍니다. |
딥마인드 | 그리핀-옥스 | Jax + Flax 구현 : GRIFFIN의 구현 : 게이트 선형 재발을 사무실 코드가 아닌 효율적인 언어 모델에 대한 로컬주의와 혼합합니다 (사무실 코드는 아직 장상 기반). RG-LRO 층인 새로운 게이트 선형 반복 층인 RG-LRO 층은 MQA를 대체하기 위해 새로운 recurren 블록을 설계합니다. 반복되는 블록의 혼합 및 국소 관심과 MLP를 연결하는 모델 Griffin-3B는 Mamba-3B를 능가하고 Griffin-7b 및 Gripin-14B는 LLAMA-2와의 성능을 달성합니다. 그리핀은 훈련 중에 보이는 시퀀스보다 훨씬 더 오래 외삽 할 수 있습니다. |
AI21 | 잠바 | Jamba는 최초의 제품 규모의 Mamba Imagentation입니다. MoE (Mix-of-Exits)는 12b 활성 매개 변수와 모든 전문가의 52b 매개 변수입니다 단일 80GB GPU의 토큰. |
메타 | 메갈로돈 | Megalodon은 Mega의 아키텍처 (게이트주의가있는 지수 이동 평균)를 상속하고 복잡한 지수 이동 평균 (CEMA), 타임 스텝 정규화 층, 정규화 된주의 메커니즘 및 H 2 -HOP를 포함한 여러 기술의 기능 및 안정성을 추가로 소개합니다. 잔류 구성 LLAMA2와 제어 된 헤드 헤드 비교에서 Megalodon은 70 억 아라 메터 규모와 2 조 훈련 토큰의 더 나은 효율성을 달성합니다. |
기부자 | 모델/프로젝트 | 주요 기능 |
---|---|---|
Mistralai | 믹스 트랄 -8x7b | Mixtral-8x7b 대형 언어 모델 (LLM)은 Exce d의 사전에 사전 생성 스파 스 혼합물입니다. |
상하이 AI 실험실 등 | llama-moe | 활성화 된 모델 매개 변수의 수는 3.0 ~ 3.5B에 불과한 작고 저렴한 MOE 모델입니다. |
NUS 등 | OpenMoe | 오픈 소스 믹스 믹서 (MOE) 대형 언어 모델. |
눈송이 | 북극 | Arctic 독특한 밀도가있는 하이브리드 변압기 아키텍처는 Top-2 게이팅을 사용하여 480b TOT 및 17b 활성 매개 변수를 만들어 낸 잔류 128x3.66B MOE MLP와 결합합니다. |
기부자 | 프로젝트 | 언어 | 기본 모델 | 주요 기능 |
---|---|---|---|---|
Baihaiaoen | idpchat | en/zh | llama-13b 안정적인 확산 | 열린 중국의 멀티 모달 모델, 단일 GPU 런 가능, 배포하기 쉬운 UI 제공. |
카우스트 | MiniGPT-4 | en/zh | 야마 | Minigpt-4는 단 하나의 프로젝트 계층을 사용하여 단 하나의 프로젝트 계층을 사용하여 얼어 붙은 LLM 인 Vicuna와 Blip-2의 동결 된 비주얼 인코더를 정렬합니다. GPT-4에서 입증 된 것과 유사한 많은 신흥 비전 언어 기능을 생성합니다. |
MSR 등 | llava | ko | 야마 | GPT-4 레벨 기능을 갖춘 큰 언어 및 비전 모델을 구축하기 위해 시각적 명령 튜닝이 제안됩니다. |
NUS/THU | vpgtrans | ko | llama/opt/ FLAN-T5/BLIP-2 ... | LLMS에서 VPG를 전송하여 상당히 저렴한 비용으로 VL-LLM을 구축합니다. 10 배 이상 줄어들 수 있으며 교육 데이터는 ART 10%로 줄일 수 있습니다. VL-Llama 및 VL-Vicuna를 포함한 VPGTRARANS를 통해 2 개의 새로운 VL-LLM이 방출됩니다. VL-Llama는 VPGTRANS를 통해 Blip-2 OPT-6.7B를 LLAMA로 전송하여 멀티 모달 버전 라마입니다. VL-Vicuna는 Vicuna LLM을 바탕으로 GPT-4와 같은 멀티 모달 챗봇입니다. |
CAS 등 | x-llm | en/zh | 채팅GLM-6B | X-LLM은 다중 모달 (이미지, 음성, 비디오)을 외국어로 변환하여이를 공급합니다. 인상적인 다중 모드 기능을 달성하는 멀티 모달 LLM을 달성하기위한 큰 언어 모델 (ChatGLM). |
NTU | 수달 | ko | Openflamingo | OpenFlamingo를 기반으로 한 멀티 모달 모델 (DeepMind 's Flamingo의 오픈 소스 버전), 모방 된 교육 및 개선 된 교육 기능 및 텍스트 내 학습을 보여주는 교육. Futhermore, OpenFlamingo의 구현을 최적화하여 필요한 것을 민주화합니다 1X A100 GPU에서 4X RTX-3090 GPU의 교육 리소스. |
XMU | 라빈 | ko | 야마 | 비전 언어 강사 튜닝, 즉 MMA (Mixture-of-Modality)를위한 참신하고 저렴한 솔루션을 제안하십시오. 특히, MMA는 가벼운 어댑터를 통해 이미지 인코더와 LLM을 커넥터하는 엔드 투 라인 엔드 최적화 체제입니다. 한편, 우리는 또한 MMA에 새로운 라우팅 알고리즘을 제안하는데, 이는 모델 자동으로 추론 경로를 변화시키는 데 도움이 될 수 있습니다. 단일 및 멀티 모달 지침의 경우. |
USTC | 딱따구리 | - | - | 다중 모드 laconuage 모델에서 환각을 교정하는 첫 번째 연구. |
hpcaitech | 오픈-소라 | - | - | Openai Sora의 오픈 소스 대안. |
참조 : 멋진 다중 지모-언어 모델도 참조하십시오
기부자 | 데이터/프로젝트 | 언어 | 주요 기능 |
---|---|---|---|
함께 컴퓨터 | 레드 파자마-다타 | ko | 이후에 재배치 할 오픈 소스 레시피. |
@goldsmith | 위키피디아 | 멀티 | Wikipedia API를위한 Pythonic 래퍼. |
Alpaca-Cot 데이터 수집을 참조하십시오
기부자 | 데이터 | 언어 | 주요 기능 |
---|---|---|---|
세일즈포스 | Dialogstudio | ko | Dialogstudio : 대화 AI를위한 가장 풍부하고 가장 다양한 통합 데이터 세트 컬렉션 인식 모델을 향해. |
기부자 | 방법 | 주요 기능 |
---|---|---|
UW 등 | 자체 추적 | 모델 자체 세대를 사용하여 대량의 교육 데이터를 생성합니다. |
@liuhc0428 | 신뢰할 수있는 셀프 삽입 | chatgpt를 사용하여 주어진 텍스트를 기반으로 몇 가지 질문과 답변을 생성하십시오. |
PKU | 진화 보수 | 인간 대신 LLM을 사용하여 자동 대량 생산 Open-Domain LLM의 성능을 향상시키기위한 다양한 차이 수준과 기술 범위의 강사. |
카우스트 등 | 낙다 | 롤 플레잉 이라는 새로운 커뮤니케이션 에이전트 프레임 워크가 제안되며, 여기에는 채팅 에이전트를 안내하기 위해 Inception을 사용합니다. 인간 의도와 일관성을 유지하면서 작업 완료를 향해. 역할극은 스피치 한 작업/도메인에서 전환 데이터를 생성하는 데 사용될 수 있습니다. |
@Chatarena | Chatarena | 자율 LLM 에이전트 및 사회적 상호 작용에 대한 다중 에이전트 언어 게임 환경 및 시설 연구를 제공하는 도서관. 여러 플레이어, 환경 및 그 사이의 인터넷을 정의 할 수있는 유연한 프레임 워크를 제공합니다. |
기부자 | 방법 | 주요 기능 |
---|---|---|
- | 인간 평가 | - |
오픈AI | gpt-4/chatgpt | - |
PKU/CMU/MSRA ... | 팬돌 | 재현 가능하고 자동화 된 언어 모델 평가. |
UCB | 챗봇 아레나 | 두 개의 익명 모델 사이즈 사이드와 채팅하고 White One에 대한 투표가 더 좋습니다. 그런 다음 ELO 등급 시스템을 사용하여 모델의 상대 성능을 계산하십시오. |
스탠포드 | 알파카에 발 | gpt-4/claude 평가 onalpacafarm 데이터 세트. |
클루 아이 | SuperCluelyb | Chatbot Arena의 중국어 버전 Clueai가 부정했습니다. |
sjtu 등 | Auto-J | 새로운 오픈 소스 세대 판사는 인간의 선호도에 따라 다른 LLM을 효과적으로 평가할 수 있습니다. |
CMU | Codebertscore | Onbertscore 기반 코드 생성에 대한 자동 메트릭. Bertscore로서 Codebertscore는 Codebert 및 Cose Ine Similority의 참조 문장의 Codebert 및 Matcher와 같은 모델에서 미리 훈련 된 상황에 맞는 임베딩을 활용합니다. Bertscore와는 달리 Codebertscore는 자연어 입력 또는 기타 컨텍스트, 생성 된 코드를 인코딩하지만 해당 컨텍스트를 COSINE 유사성으로 수행합니다. |
국내 대형 모델 평가의 현 상태
기부자 | 기준 | 주요 기능 |
---|---|---|
프린스턴 | Swe-Bench | Real World Software에서 대형 언어 모델을 평가하기위한 벤치 마크는 Codebase 와 문제가 제공됩니다 언어 모델은 해상도 문제를 해결하는 패치를 생성해야합니다. |
마이크로소프트 | AGI평가 | a human-centric benchmark specifically designed to evaluate the general abilities of foundation models in tasks pertinent to human cognition and problem-solving. |
클루 아이 | 슈퍼 클루 에이전트 | 중국 기본 작업을 기반으로 한 에이전트 평가 벤치 마크. |
바이트댄스 | gpt-fathom | GPT-Fathom은 오픈 소스 및 재현 가능한 LLM 평가 제품군으로, 정렬 된 설정 하에서 20 개 이상의 곡률 벤치 마크에서 OpenAI의 초기 모델 S로 10 개 이상의 주요 오픈 소스 및 폐쇄 소스 LLM을 벤치마킹합니다. |
OpenCompass, Huggingface
기부자 | 프로젝트 | 주요 기능 |
---|---|---|
카스 | 알파카 코트 | COT 데이터를 Alpaca로 확장하여 추론 능력을 향상시킵니다. 광범위한 지침 컬렉션을 갖춘 IFT (Instruction Finetuning) 플랫폼 구축을 목표로합니다. 및 다양한 laconuage 모델에 대한 통합 인터페이스. |
@hiyouga | chatglm- 효율적인 튜닝 | PEFT와 함께 효율적인 미세 조정 ChatGLM-6B. |
@hiyouga | llama-effict-tring | PEFT (PT+SFT+RLHF)가있는 미세 조정 라마. |
@jianzhnie | 효율적인 조정 -LMS | Qlora LLM의 효율적인 발견. |
Colossalai | ColossalChat | 완전한 RLHF 파이프 라인을 갖춘 클로닝 chatgpt에 대한 오픈 소스 저렴한 솔루션. |
마이크로소프트 | DeepSpeed-채팅 | 모든 규모의 Chatgpt와 같은 모델에 대한 쉽고 빠르며 저렴한 RLHF 교육. |
Laion-Ai | 오픈 조수 | 모든 사람이 훌륭한 채팅 기반 언어 모델에 액세스 할 수 있도록하는 프로젝트. |
hkust | lmflow | 대형 머신 러닝 모델을 미세 조정하기위한 확장 가능, 연결 및 효율적인 도구 상자, 친숙하고 Spey 및 신뢰할 수있는 및 Acc 확장하다
관련 애플리케이션
추천
|