미스트랄 라지 2 | 미스트랄 AI | 123B | Mistral-Large는 최첨단 추론, 지식 및 코딩 기능을 갖춘 123B 매개변수의 고급 고밀도 LLM(대형 언어 모델)입니다. 128k 컨텍스트 창이 있습니다. | 블로그 포옹 얼굴 |
라마 3.1 | 메타AI | 8B, 70B, 405B | 다국어 대형 언어 모델(LLM)의 Meta Llama 3.1 제품군은 8B, 70B 및 405B 크기의 사전 훈련되고 명령 조정된 생성 모델 모음입니다. Llama 3.1 명령 조정 텍스트 전용 모델은 다국어 대화 사용 사례에 최적화되어 있으며 일반적인 업계 벤치마크에서 사용 가능한 많은 오픈 소스 및 비공개 채팅 모델보다 성능이 뛰어납니다. 이러한 모델은 최적화된 변환기 아키텍처를 사용하는 자동 회귀 언어 모델입니다. 조정된 버전은 SFT(지도 미세 조정) 및 RLHF(인간 피드백을 통한 강화 학습)를 사용하여 유용성과 안전성에 대한 인간 선호도에 맞춰 조정합니다. | 블로그 포옹 얼굴 |
미스트랄 네모 | 엔비디아 미스트랄 AI | 12B | Mistral-Nemo Large Language Model은 Mistral AI와 NVIDIA가 공동으로 훈련한 12B 매개변수의 사전 훈련된 생성 텍스트 모델로, 크기가 작거나 유사한 기존 모델보다 훨씬 뛰어난 성능을 발휘합니다. | 블로그 포옹 얼굴 |
네모트론 4 | 엔비디아 | 340B | Nemotron 4 기본 모델은 다양한 영어 기반 텍스트, 50개 이상의 자연어 및 40개 이상의 코딩 언어로 구성된 9조 개의 토큰 모음에서 사전 학습되었습니다. | 포옹하는 얼굴 |
DCLM | 사과 | 7B | DCLM은 디코더 전용 Transformer 언어 모델입니다. 컨텍스트 길이는 2,048개 토큰입니다. 2.5T 토큰으로 훈련되었습니다. 특정 정렬이나 안전 미세 조정을 거치지 않았으므로 출력을 주의해서 사용해야 합니다. | 포옹하는 얼굴 |
젬마 2 | Google | 9B 27B | Gemma 2는 텍스트 대 텍스트, 디코더 전용 대형 언어 모델로 영어로 제공되며 사전 훈련된 변형과 명령 조정 변형 모두에 대한 개방형 가중치를 제공합니다. Gemma 모델은 질문 답변, 요약, 추론을 포함한 다양한 텍스트 생성 작업에 매우 적합합니다. | 포옹하는 얼굴 |
카멜레온 | 메타AI | 7B 30B | Chameleon은 FAIR의 혼합 모드 초기 융합 기반 모델입니다. 7B와 30B의 2가지 사이즈로 제공됩니다. | 포옹 얼굴 Github |
미스트랄 7B v3 | 미스트랄 AI | 7B | Mistral-7B-v0.3 LLM(대형 언어 모델)은 확장된 어휘를 갖춘 Mistral-7B-v0.2입니다. | 포옹 얼굴 Github |
북극(Dense-MoE) | 눈송이 | 480B 액티브 17B | Arctic은 처음부터 사전 훈련된 고밀도 MoE 하이브리드 변압기 아키텍처입니다. Arctic은 10B 밀도 변환기 모델과 잔여 128x3.66B MoE MLP를 결합합니다. Mistral-7B-v0.3 LLM(대형 언어 모델)은 확장된 어휘를 갖춘 Mistral-7B-v0.2입니다. 총 480B 및 17B 활성 매개변수로 구성됩니다. Top-2 게이팅을 사용하여 선택되었습니다. | HuggingFace Github 블로그 |
라마 3 | 메타AI | 8B 70B | Llama 3은 8B 및 70B 크기의 사전 훈련 및 명령 조정 생성 텍스트 모델 모음인 대규모 언어 모델 제품군입니다. 최적화 변환기 아키텍처를 사용하는 자동 회귀 언어 모델입니다. 조정된 버전은 감독된 미세 조정(SFT) 및 인간 피드백을 통한 강화 학습(RLHF)을 사용합니다. | HuggingFace 블로그 Github |
파이 3 비전 | 마이크로소프트 | | Phi3-3-Vision은 합성 데이터 및 공개적으로 필터링된 웹 사이트를 포함하는 데이터 세트를 기반으로 구축된 경량의 최첨단 개방형 다중 모드 모델로, 텍스트와 비전 모두에 대한 매우 높은 품질의 추론 밀집 데이터에 중점을 두고 있습니다. . 컨텍스트 길이는 128k입니다. | 포옹하는 얼굴 |
피 3 | 마이크로소프트 | 3.8B 7B 14B | Phi-3은 모델 모음입니다. 다양한 크기로 제공됩니다: Phi3-mini, Phi3-small, Phi3-medium. 이는 Phi-3 데이터 세트를 사용하여 훈련된 경량의 최첨단 개방형 모델입니다. 이 데이터세트에는 합성 데이터와 공개적으로 사용 가능한 웹사이트 데이터가 모두 포함되어 있으며 고품질 및 추론 밀도가 높은 속성에 중점을 두고 있습니다. Phi-3 모델은 가장 유능하고 비용 효율적인 소규모 언어 모델(SLM)입니다. | HuggingFace 블로그 |
오픈ELM | 사과 | 270M 450M 1.1B 3B | 오픈 소스 효율적인 언어 모델 제품군인 OpenELM. OpenELM은 레이어별 스케일링 전략을 사용하여 변환기 모델의 각 레이어 내에 매개변수를 효율적으로 할당함으로써 정확성을 향상시킵니다. RefinedWeb, 중복 제거된 PILE, RedPajama의 하위 집합 및 Dolma v1.6의 하위 집합(총 약 1조 8천억 개의 토큰)에서 교육을 받았습니다. 270M, 450M, 1.1B 및 3B 매개변수를 사용하여 사전 훈련된 모델과 명령 조정 모델을 모두 출시했습니다. | HuggingFace OpenELM HuggingFace OpenELM-Instruct |
Deepseek V2 (MoE) | 깊은 탐색 | 236B 액티브 21B | DeepSeek-V2는 경제적인 훈련과 효율적인 추론을 특징으로 하는 강력한 MoE(Mixture-of-Experts) 언어 모델입니다. 이는 총 236B개의 매개변수로 구성되며, 그 중 21B는 각 토큰에 대해 활성화됩니다. DeepSeek 67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 달성하는 동시에 42.5%를 절약합니다. | 포옹 얼굴 Github |
믹스트랄 8x22B(MoE) | 미스트랄 AI | 176B 액티브 40B | Mixtral-8x22B LLM(대형 언어 모델)은 사전 훈련된 생성적 희소 전문가 혼합입니다. 토큰 길이는 65,000개입니다. | HuggingFace 블로그 |
Command-R+ | 코히어 | 104B | C4AI Command R+는 고도로 발전된 기능을 갖춘 1040억 매개변수 모델의 개방형 가중치 연구 릴리스입니다. 여기에는 검색 증강 생성(RAG) 및 정교한 작업을 자동화하는 도구 사용이 포함됩니다. Command R+는 추론, 요약, 질문 답변 등 다양한 사용 사례에 최적화되어 있습니다. | 포옹하는 얼굴 |
잠바(MoE) | AI21 연구소 | 52B 활성 12B | Jamba는 최첨단 하이브리드 SSM-Transformer LLM입니다. 이는 기존 Transformer 기반 모델에 비해 처리량 향상을 제공합니다. 이는 12B 활성 매개변수와 모든 전문가에 걸쳐 총 52B 매개변수를 포함하는 사전 훈련된 전문가 혼합(MoE) 생성 텍스트 모델입니다. 256K 컨텍스트 길이를 지원하며 단일 80GB GPU에 최대 140K 토큰을 수용할 수 있습니다. | HuggingFace 블로그 |
DBRX (MoE) | 데이터브릭스 | 132B 액티브 36B | DBRX는 다음 토큰 예측을 사용하여 훈련된 변환기 기반 디코더 전용 LLM(대형 언어 모델)입니다. 이는 총 132B 매개변수를 갖춘 세분화된 전문가 혼합(MoE) 아키텍처를 사용하며 그 중 36B 매개변수는 모든 입력에서 활성화됩니다. 텍스트 및 코드 데이터의 12T 토큰에 대해 사전 훈련되었습니다. Mixtral-8x7B 및 Grok-1과 같은 다른 개방형 MoE 모델과 비교할 때 DBRX는 세분화되어 있어 더 많은 수의 소규모 전문가를 사용합니다. DBRX에는 16명의 전문가가 있고 4명을 선택하는 반면, Mixtral-8x7B 및 Grok-1에는 8명의 전문가가 있고 2명을 선택합니다. 이는 모델 품질을 향상시키는 65배 더 많은 전문가 조합을 제공합니다. | HuggingFace Github 블로그 |
그록 1.0(MoE) | xAI | 314B | Grok 1.0은 8명의 전문가 혼합(MoE)을 사용합니다. Grok 1.0은 대화와 같은 특정 응용 프로그램에 맞게 미세 조정되지 않았지만 GPT-3.5 및 Llama 2와 같은 다른 모델에 비해 강력한 성능을 보여줍니다. GPT-3/3.5보다 큽니다. | Github 포옹얼굴 |
아체 | Google | 2B 7B | Gemma는 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술을 바탕으로 구축된 Google의 경량 최첨단 개방형 모델 제품군입니다. 이는 텍스트 대 텍스트, 디코더 전용 대형 언어 모델로 영어로 제공되며 개방형 가중치, 사전 훈련된 변형 및 명령 조정 변형이 있습니다. Gemma 모델은 질문 답변, 요약, 추론을 포함한 다양한 텍스트 생성 작업에 매우 적합합니다. | HuggingFace Kaggle Github 블로그 |
반복되는 젬마 | Google | 2B | RecurrentGemma는 새로운 순환 아키텍처를 기반으로 구축된 개방형 언어 모델 제품군입니다. Gemma와 마찬가지로 RecurrentGemma 모델은 질문 답변, 요약, 추론을 포함한 다양한 텍스트 생성 작업에 적합합니다. 새로운 아키텍처로 인해 RecurrentGemma는 Gemma보다 적은 메모리를 필요로 하며 긴 시퀀스를 생성할 때 더 빠른 추론을 달성합니다. | 포옹얼굴 캐글 |
믹스트랄 8x7B(MoE) | 미스트랄 AI | 45B 액티브 12B | Mixtral-8x7B LLM(대형 언어 모델)은 사전 훈련된 생성적 전문가의 희소 혼합입니다. Mixtral-8x7B는 대부분의 벤치마크에서 Llama 2 70B보다 성능이 뛰어납니다. | HuggingFace 캐글 블로그 |
Qwen1.5-MoE(MoE) | 알리바바 | 14.3B 액티브 2.7B | Qwen1.5-MoE는 대량의 데이터에 대해 사전 학습된 변환기 기반 MoE 디코더 전용 언어 모델입니다. 이는 밀도가 높은 언어 모델에서 모델을 업사이클링하는 MoE(Mixture of Experts) 아키텍처를 사용합니다. 총 14.3B 매개변수와 런타임 동안 2.7B 활성화 매개변수가 있으며, Qwen1.5-7B와 비슷한 성능을 달성하면서도 훈련 리소스의 25%만 필요합니다. | 포옹얼굴 |
미스트랄 7B v2 | 미스트랄 AI | 7B | Mistral 7B v2는 Mistral 7B와 비교하여 다음과 같은 변경 사항이 있습니다. - 32k 컨텍스트 창(v0.1의 8k 컨텍스트와 비교), Rope-theta = 1e6, 슬라이딩 창 주의 없음. | HuggingFace Github |
미스트랄 7B | 미스트랄 AI | 7B | Mistral-7B-v0.1 LLM(대형 언어 모델)은 70억 개의 매개변수를 갖춘 사전 학습된 생성 텍스트 모델입니다. Mistral-7B-v0.1은 대부분의 벤치마크에서 Llama 2 13B보다 성능이 뛰어납니다. | Github HuggingFace 캐글 블로그 |
라마 2 | 메타AI | 7B 13B 70B | Llama 2는 70억에서 700억 개의 매개변수 범위에 걸쳐 사전 훈련되고 미세 조정된 생성 텍스트 모델의 모음입니다. 최적화된 변환기 아키텍처를 사용하는 자동 회귀 언어 모델입니다. 조정된 버전은 SFT(감독 미세 조정) 및 RLHF(인간 피드백을 통한 강화 학습)를 사용하여 유용성과 안전성에 대한 인간 선호도에 맞춰 조정합니다. | HuggingFace Kaggle Github 블로그 |
돌리 v2 | 데이터브릭스 | 3비 7비 12비 | Dolly v2는 EleutherAI의 Pythia-12b에서 파생되고 ~15K 레코드 명령 코퍼스에서 미세 조정된 Databricks에서 만든 인과 언어 모델입니다. | 포옹Face Dolly3B HuggingFace Dolly7B HuggingFace Dolly12B Kaggle Github |
Command-R | 코히어 | 35B | Command-R은 350억 개의 매개변수를 갖춘 고성능 생성 모델의 연구 릴리스입니다. Command-R은 추론, 요약, 질문 답변을 포함한 다양한 사용 사례에 최적화된 개방형 가중치를 갖춘 대규모 언어 모델입니다. Command-R에는 10개 언어로 평가된 다국어 생성 기능과 고성능 RAG 기능이 있습니다. | 포옹얼굴 캐글 |
Qwen1.5 | 알리바바 | 0.5B 1.8B 4B 7B 14B 32B 72B | Qwen1.5는 대량의 데이터에 대해 사전 학습된 변환기 기반 디코더 전용 언어 모델입니다. 이는 SwiGLU 활성화, 어텐션 QKV 바이어스, 그룹 쿼리 어텐션, 슬라이딩 윈도우 어텐션과 전체 어텐션의 혼합 등을 갖춘 Transformer 아키텍처를 기반으로 합니다. | HuggingFace Github |
비쿠나 v1.5 | 리즘 | 7B 13B | Vicuna v1.5는 감독 지침 미세 조정을 통해 Llama 2에서 미세 조정되었습니다. 훈련 데이터는 ShareGPT.com에서 수집된 약 125,000개의 대화입니다. Vicuna의 주요 용도는 대규모 언어 모델 및 챗봇에 대한 연구입니다. | 포옹얼굴 비쿠나7B 포옹얼굴 비쿠나13B |
피 2 | 마이크로소프트 | 2.7B | Phi-2는 27억 개의 매개변수를 가진 Transformer입니다. 다양한 NLP 합성 텍스트와 필터링된 웹 사이트로 구성된 새로운 데이터 소스로 보강된 Phi-1.5와 동일한 데이터 소스를 사용하여 훈련되었습니다. 상식, 언어 이해 및 논리적 추론을 테스트하는 벤치마크와 비교하여 평가했을 때 Phi-2는 130억 개 미만의 매개변수를 사용하는 모델 중에서 거의 최첨단 성능을 보여주었습니다. | HuggingFace 캐글 블로그 |
오르카 2 | 마이크로소프트 | 7B 13B | Orca 2는 연구 목적으로만 제작되었으며 사용자가 제공한 데이터에 대한 추론, 독해, 수학 문제 해결 및 텍스트 요약과 같은 작업에서 단일 회전 응답을 제공합니다. 이 모델은 특히 추론 능력이 뛰어나도록 설계되었습니다. 모델은 채팅에 최적화되어 있지 않으며 RLHF 또는 DPO로 교육받지 않았습니다. | HuggingFace 블로그 |
스마우그 | 주판 AI | 34B 72B | Smaug는 새로운 미세 조정 기술인 DPOP(DPO-Positive)과 ARC, HellaSwag 및 MetaMath(및 기타 기존 데이터 세트)의 새로운 쌍별 선호 버전을 사용하여 생성되었습니다. | 포옹얼굴 |
MPT | 모자이크ml | 1B 7B 30B | MPT는 영어 텍스트 및 코드의 1T 토큰에 대해 처음부터 사전 학습된 디코더 스타일 변환기입니다. 이러한 모델은 효율적인 훈련 및 추론에 최적화된 수정된 변환기 아키텍처를 사용합니다. 이러한 아키텍처 변경에는 성능 최적화 레이어 구현과 위치 임베딩을 ALiBi(Attention with Linear Biases)로 대체하여 컨텍스트 길이 제한 제거가 포함됩니다. | HuggingFace 캐글 Github |
매 | TLL | 7B 40B 180B | Falcon은 TII가 구축하고 엄선된 말뭉치로 강화된 RefinedWeb의 1,000B/1,500B/3,500B 토큰으로 훈련된 7B/40B/180B 매개변수 인과 디코더 전용 모델입니다. | 포옹얼굴 |
얄름 | 얀덱스 | 100B | YaLM 100B는 텍스트를 생성하고 처리하기 위한 GPT와 유사한 신경망입니다. 65일 동안 800개의 A100 그래픽 카드 클러스터에서 훈련되었습니다. 텍스트 생성 및 처리를 위해 설계되었습니다. | HuggingFace Github |
데시LM | DeciAI | 6B 7B | DeciLM은 디코더 전용 텍스트 생성 모델입니다. 8K 토큰 시퀀스 길이를 지원하는 이 매우 효율적인 모델은 가변 GQA(Grouped-Query Attention)를 사용하여 정확성과 계산 효율성 간의 탁월한 균형을 달성합니다. | 포옹얼굴 |
버트 | Google | 110M ~ 350M | BERT는 자체 감독 방식으로 대규모 영어 데이터 코퍼스에 대해 사전 훈련된 변환기 모델입니다. 즉, 원시 텍스트에 대해서만 사전 훈련되었으며 해당 텍스트에서 입력 및 레이블을 생성하는 자동 프로세스를 사용하여 인간이 어떤 방식으로든 레이블을 지정하지 않았음을 의미합니다. | HuggingFace Kaggle GitHub |
올모 | 알렌AI | 1B 7B | OLMo는 언어 모델의 과학을 활성화하도록 설계된 일련의 개방형 언어 모델입니다. OLMo 모델은 Dolma 데이터 세트에서 학습되었습니다. | HuggingFace Github |
오픈챗3.5 | 오픈채팅 | 7B | Openchat2.5는 최고의 성능을 자랑하는 7B LLM입니다. | HuggingFace Github |
꽃 | 빅사이언스 | 176B | BLOOM은 산업 규모의 계산 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 이어가도록 훈련된 자동 회귀 LLM(대형 언어 모델)입니다. | 포옹얼굴 |
헤르메스 2 프로 미스트랄 | 누스 연구 | 7B | Mistral 7B의 Hermes 2 Pro는 새로운 플래그십 7B Hermes입니다. Hermes 2 Pro는 Nous Hermes 2의 업그레이드되고 재교육된 버전으로, OpenHermes 2.5 데이터 세트의 업데이트되고 정리된 버전과 사내에서 개발된 새로 도입된 함수 호출 및 JSON 모드 데이터 세트로 구성됩니다. 이 새 버전의 Hermes는 탁월한 일반 작업 및 대화 기능을 유지하면서 함수 호출, JSON 구조적 출력에서도 탁월합니다. | 포옹얼굴 |
헤르메스 2 Mixtral 7x8B (MoE) | 누스 연구 | 액티브 12B | Nous Hermes 2 Mixtral 8x7B DPO는 Mixtral 8x7B MoE LLM을 통해 훈련된 새로운 주력 Nous Research 모델입니다. 이 모델은 주로 GPT-4에서 생성된 데이터로 구성된 1,000,000개 이상의 항목과 AI 환경 전반에 걸쳐 공개 데이터 세트의 기타 고품질 데이터에 대해 훈련되어 다양한 작업에서 최고 수준의 성능을 달성했습니다. Mixtral Hermes 2의 SFT + DPO 버전입니다. | 포옹얼굴 |
멀린나이트 | IBM | 7B | Merlinite-7b는 Mixtral-8x7b-Instruct를 교사 모델로 사용하여 LAB 방법론으로 훈련된 Mistral-7b 파생 모델입니다. | 포옹얼굴 |
래브라도라이트 | IBM | 13B | Labradorite-13b는 Mixtral-8x7b-Instruct를 교사 모델로 사용하여 LAB 방법론으로 훈련된 LLaMA-2-13b 파생 모델입니다. | 포옹얼굴 |
엑스젠 | 세일즈포스 | 7B | Xgen은 8K, 4K의 컨텍스트 길이를 가지며 긴 시퀀스 작업에 최적화된 대규모 언어 모델입니다. | HuggingFace Github |
태양광 | 도도한 | 10.7B | SOLAR-10.7B는 107억 개의 매개변수를 갖춘 고급 LLM(대형 언어 모델)로, 다양한 자연어 처리(NLP) 작업에서 탁월한 성능을 보여줍니다. 컴팩트하지만 놀랍도록 강력하며 매개변수가 30B 미만인 모델에서 비교할 수 없는 최첨단 성능을 보여줍니다. | 포옹얼굴 |
GPT-네옥스 | 엘레우터 AI | 20B | GPT-NeoX-20B는 GPT-NeoX 라이브러리를 사용하여 Pile에서 훈련된 200억 매개변수 자동 회귀 언어 모델입니다. 아키텍처는 의도적으로 GPT-3의 아키텍처와 유사하며 GPT-J-6B의 아키텍처와 거의 동일합니다. | HuggingFace GitHub |
플랜-T5 | Google | 80M ~ 11B | FLAN-T5는 T5의 수정된 버전이며 동일한 수의 매개변수를 가지고 있습니다. 이 모델은 더 많은 언어를 다루는 1000개 이상의 추가 작업에 대해 미세 조정되었습니다. 다양한 크기:- flan-t5-small, flan-t5-base, flan-t5-large, flan-t5-xxl | 포옹얼굴 캐글 |
고르다 | 메타AI | 125M ~ 175B | OPT는 125M~175B 매개변수 범위의 디코더 전용 사전 훈련된 변환기입니다. 주로 영어 텍스트로 사전 학습되었지만 CommonCrawl을 통해 학습 코퍼스 내에 영어가 아닌 데이터가 소량 남아 있습니다. | 포옹얼굴 |
안정적인 LM 2 | 안정성 AI | 1.6B 12B | Stable LM 2는 두 시대에 걸쳐 2조 토큰의 다양한 다국어 및 코드 데이터세트에 대해 사전 훈련된 디코더 전용 언어 모델입니다. | 포옹얼굴 |
안정 LM 제퍼 | 안정성 AI | 3B | StableLM Zephyr 3B 모델은 변환기 디코더 아키텍처를 기반으로 하는 자동 회귀 언어 모델입니다. StableLM Zephyr 3B는 DPO(Direct Preference Optimization)를 사용하여 공개적으로 사용 가능한 데이터 세트와 합성 데이터 세트의 혼합에 대해 훈련된 30억 개의 매개변수입니다. | 포옹얼굴 |
아야 | 코히어 | 13B | Aya 모델은 101개 언어의 지침을 따르는 변환기 스타일 자동 회귀 대규모 다중 언어 생성 언어 모델입니다. mt5-xxl과 동일한 아키텍처를 가지고 있습니다. | HuggingFace 캐글 블로그 |
네모트론 3 | 엔비디아 | 8B | Nemotron-3은 기업이 맞춤형 LLM을 구축할 수 있는 대규모 언어 기반 모델입니다. 이 기반 모델에는 80억 개의 매개변수가 있으며 4,096개의 토큰의 컨텍스트 길이를 지원합니다. Nemotron-3은 NVIDIA NeMo 프레임워크와 호환되는 기업용 생성 텍스트 모델 제품군입니다. | 포옹얼굴 |
신경 채팅 v3 | 인텔 | 7B | Neural Chat은 오픈 소스 데이터 세트 Open-Orca/SlimOrca의 mistralai/Mistral-7B-v0.1에서 Intel Gaudi 2 프로세서의 미세 조정된 7B 매개 변수 LLM입니다. 모델은 DPO(Direct Performance Optimization) 방법을 사용하여 정렬되었습니다. | 포옹얼굴 |
이 | 01 AI | 6B 9B 34B | Yi 시리즈 모델은 차세대 오픈 소스 대형 언어 모델입니다. 이중 언어 모델을 목표로 하고 3T 다국어 코퍼스에 대한 교육을 받아 언어 이해, 상식 추론, 독해 등에 대한 가능성을 보여줍니다. | 허깅페이스(HuggingFace) Github |
스탈링 LM | 넥서스플로우 | 7B | RLAIF(Reinforcement Learning from AI Feedback)로 훈련된 개방형 대형 언어 모델(LLM)인 Starling LM. Starling LM은 새로운 보상 모델 Starling-RM-34B와 정책 최적화 방법인 PPO(Pine-Tuning Language Models from Human Preferences)를 사용하여 Openchat-3.5-0106에서 교육을 받았습니다. | 포옹얼굴 |
넥서스레이븐 v2 | 넥서스플로우 | 13B | NexusRaven은 함수 호출 기능의 최첨단 기능을 능가하는 LLM을 호출하는 상업적으로 실행 가능한 오픈 소스 함수입니다. NexusRaven-V2는 깊게 중첩된 함수 호출, 병렬 함수 호출 및 간단한 단일 호출을 생성할 수 있습니다. 또한 생성된 함수 호출을 정당화할 수도 있습니다. | 포옹얼굴 |
DeepSeek LLM | 딥시크 AI | 7B 67B | DeepSeek LLM은 고급 언어 모델입니다. 영어와 중국어 모두로 구성된 2조 개의 토큰으로 구성된 방대한 데이터 세트를 바탕으로 처음부터 훈련되었습니다. | HuggingFace Github |
Deepseek VL(다중 모드) | 딥시크 AI | 1.3B 7B | DeepSeek-VL은 실제 비전 및 언어 이해 애플리케이션을 위해 설계된 오픈 소스 VL(Vision-Language) 모델입니다. DeepSeek-VL은 복잡한 시나리오에서 논리 다이어그램, 웹 페이지, 공식 인식, 과학 문헌, 자연 이미지 및 구현된 지능을 처리할 수 있는 일반적인 다중 모드 이해 기능을 보유하고 있습니다. 1024 x 1024 이미지 입력을 지원하는 하이브리드 비전 인코더로 2T 텍스트 토큰의 대략적인 코퍼스를 학습한 DeepSeek-7b 기반을 기반으로 구성됩니다. | 허깅페이스(HuggingFace) Github |
Llava 1.6(다중 모드) | 라바 HF | 7B 13B 34B | LLaVa는 다중 모드 챗봇 사용 사례를 위해 사전 훈련된 대규모 언어 모델과 사전 훈련된 비전 인코더를 결합합니다. 사용 가능한 모델:- Llava-v1.6-34b-hf, Llava-v1.6-Mistral-7b-hf, Llava-v1.6-Vicuna-7b-hf, Llava-v1.6-vicuna-13b-hf | 포옹 얼굴 포옹얼굴 |
Yi VL(다중 모드) | 01 AI | 6B 34B | Yi-VL 모델은 Yi Large Language Model(LLM) 시리즈의 오픈 소스 다중 모드 버전으로, 이미지에 대한 콘텐츠 이해, 인식 및 다각적인 대화를 가능하게 합니다. | HuggingFace YiVL6B HuggingFace YiVL34B |