Mistral Groß 2 | Mistral-KI | 123B | Mistral-Large ist ein fortschrittliches, dichtes Large Language Model (LLM) mit 123B Parametern und modernsten Argumentations-, Wissens- und Codierungsfunktionen. Es verfügt über ein 128 KB großes Kontextfenster. | Blog umarmendes Gesicht |
Lama 3.1 | Meta-KI | 8B, 70B, 405B | Die Meta Llama 3.1-Familie mehrsprachiger großer Sprachmodelle (LLMs) ist eine Sammlung vorab trainierter und durch Anweisungen abgestimmter generativer Modelle in den Größen 8B, 70B und 405B. Die auf Anweisungen abgestimmten Nur-Text-Modelle von Llama 3.1 sind für mehrsprachige Dialog-Anwendungsfälle optimiert und übertreffen viele der verfügbaren Open-Source- und Closed-Chat-Modelle bei gängigen Branchen-Benchmarks. Bei diesen Modellen handelt es sich um autoregressive Sprachmodelle, die eine optimierte Transformatorarchitektur verwenden. Die optimierten Versionen nutzen Supervised Fine-Tuning (SFT) und Reinforcement Learning with Human Feedback (RLHF), um sich an den menschlichen Präferenzen für Hilfsbereitschaft und Sicherheit auszurichten. | Blog umarmendes Gesicht |
Mistral Nemo | Nvidia Mistral KI | 12B | Das Mistral-Nemo Large Language Model ist ein vorab trainiertes generatives Textmodell mit 12B Parametern, das gemeinsam von Mistral AI und NVIDIA trainiert wurde und bestehende Modelle kleinerer oder ähnlicher Größe deutlich übertrifft. | Blog umarmendes Gesicht |
Nemotron 4 | Nvidia | 340B | Das Basismodell von Nemotron 4 wurde auf einem Korpus von 9 Billionen Token vorab trainiert, der aus einer vielfältigen Auswahl an englischsprachigen Texten, über 50 natürlichen Sprachen und über 40 Codierungssprachen besteht. | Umarmendes Gesicht |
DCLM | Apfel | 7B | DCLM ist ein reines Decoder-Transformer-Sprachmodell. Es hat eine Kontextlänge von 2.048 Token. Es wird auf 2,5T-Token trainiert. Es wurde keiner besonderen Ausrichtung oder Sicherheitsfeinabstimmung unterzogen, daher sollten Ausgänge mit Vorsicht verwendet werden. | Umarmendes Gesicht |
Gemma 2 | Google | 9B 27B | Gemma 2 sind Text-zu-Text-Modelle für große Sprachen, die nur über einen Decoder verfügen und auf Englisch verfügbar sind. Sie verfügen über offene Gewichtungen sowohl für vorab trainierte Varianten als auch für anweisungsoptimierte Varianten. Gemma-Modelle eignen sich gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich der Beantwortung von Fragen, der Zusammenfassung und der Begründung. | Umarmendes Gesicht |
Chamäleon | Meta-KI | 7B 30B | Chameleon ist ein gemischtmodales Early-Fusion-Foundation-Modell von FAIR. Es ist in 2 Größen erhältlich: 7B und 30B. | Umarmendes Gesicht Github |
Mistral 7B v3 | Mistral-KI | 7B | Das Mistral-7B-v0.3 Large Language Model (LLM) ist ein Mistral-7B-v0.2 mit erweitertem Vokabular. | Umarmendes Gesicht Github |
Arktis (Dense-MoE) | Schneeflocke | 480B Aktiv 17B | Arctic ist eine von Grund auf vorab trainierte Dense-MoE-Hybrid-Transformatorarchitektur. Arctic kombiniert ein 10B-Dense-Transformer-Modell mit einem restlichen 128x3,66B MoE-MLP-re. Das Mistral-7B-v0.3 Large Language Model (LLM) ist ein Mistral-7B-v0.2 mit erweitertem Vokabular. Das Ergebnis sind insgesamt 480B und 17B aktive Parameter anhand eines Top-2-Gatings ausgewählt. | HuggingFace Github Blog |
Lama 3 | Meta-KI | 8B 70B | Llama 3 ist eine Familie großer Sprachmodelle, eine Sammlung vorab trainierter und durch Anweisungen abgestimmter generativer Textmodelle in den Größen 8 und 70B. Es handelt sich um ein autoregressives Sprachmodell, das eine optimierte Transformatorarchitektur verwendet. Die optimierten Versionen nutzen Supervised Fine-Tuning (SFT) und Reinforcement Learning with Human Feedback (RLHF). | HuggingFace Blog Github |
Phi 3 Vision | Microsoft | | Phi3-3-Vision ist ein leichtes, hochmodernes offenes multimodales Modell, das auf Datensätzen basiert, die synthetische Daten und gefilterte öffentlich verfügbare Websites umfassen, wobei der Schwerpunkt auf sehr hochwertigen, begründungsdichten Daten sowohl zu Text als auch zu Visionen liegt . Die Kontextlänge beträgt 128 KB. | Umarmendes Gesicht |
Phi 3 | Microsoft | 3,8B 7B 14B | Phi-3 ist eine Sammlung von Modellen. Erhältlich in verschiedenen Größen: Phi3-mini, Phi3-small, Phi3-medium. Es handelt sich um ein leichtes, hochmodernes offenes Modell, das mithilfe der Phi-3-Datensätze trainiert wurde. Dieser Datensatz umfasst sowohl synthetische Daten als auch öffentlich verfügbare Website-Daten, wobei der Schwerpunkt auf qualitativ hochwertigen und begründungsdichten Eigenschaften liegt. Phi-3-Modelle sind die leistungsfähigsten und kostengünstigsten verfügbaren Small Language Models (SLMs). | HuggingFace-Blog |
OpenELM | Apfel | 270M 450M 1.1B 3B | OpenELM, eine Familie effizienter Open-Source-Sprachmodelle. OpenELM verwendet eine schichtweise Skalierungsstrategie, um Parameter innerhalb jeder Schicht des Transformatormodells effizient zuzuordnen, was zu einer höheren Genauigkeit führt. Geschult auf RefinedWeb, dedupliziertem PILE, einer Teilmenge von RedPajama und einer Teilmenge von Dolma v1.6, insgesamt etwa 1,8 Billionen Token. Veröffentlichung sowohl vorab trainierter als auch durch Anweisungen abgestimmter Modelle mit den Parametern 270M, 450M, 1.1B und 3B. | HuggingFace OpenELM HuggingFace OpenELM-Instruct |
Deepseek V2 (MoE) | tiefseek | 236B Aktiv 21B | DeepSeek-V2 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell, das sich durch wirtschaftliches Training und effiziente Inferenz auszeichnet. Es umfasst insgesamt 236B Parameter, von denen 21B für jeden Token aktiviert sind. Im Vergleich zu DeepSeek 67B erreicht DeepSeek-V2 eine stärkere Leistung und spart mittlerweile 42,5 %. | Umarmendes Gesicht Github |
Mixtral 8x22B (MoE) | Mistral-KI | 176B Aktiv 40B | Das Mixtral-8x22B Large Language Model (LLM) ist eine vorab trainierte generative Sparse-Expertenmischung. Die Inhaltslänge beträgt 65.000 Token. | HuggingFace-Blog |
Befehl-R+ | Zusammenhängen | 104B | C4AI Command R+ ist eine offene Forschungsversion eines 104 Milliarden Parametermodells mit hochentwickelten Funktionen, darunter Retrieval Augmented Generation (RAG) und Tool-Nutzung zur Automatisierung anspruchsvoller Aufgaben. Command R+ ist für eine Vielzahl von Anwendungsfällen optimiert, darunter Argumentation, Zusammenfassung und Beantwortung von Fragen. | Umarmendes Gesicht |
Jamba (MoE) | AI21-Labore | 52B aktiv 12B | Jamba ist ein hochmodernes, hybrides SSM-Transformer-LLM. Es bietet Durchsatzsteigerungen gegenüber herkömmlichen Transformer-basierten Modellen. Es handelt sich um ein vorab trainiertes generatives Textmodell mit Expertenmix (MoE) mit 12B aktiven Parametern und insgesamt 52B Parametern für alle Experten. Es unterstützt eine Kontextlänge von 256 KB und kann bis zu 140 KB Token auf einer einzelnen 80-GB-GPU unterbringen. | HuggingFace-Blog |
DBRX (MoE) | Datenbausteine | 132B Aktiv 36B | DBRX ist ein transformatorbasiertes, nur auf Decoder beschränktes Large Language Model (LLM), das mithilfe der Next-Token-Vorhersage trainiert wurde. Es verwendet eine feinkörnige Expertenmix-Architektur (MoE) mit insgesamt 132 B Parametern, von denen 36 B Parameter bei jedem Eingang aktiv sind. Es wurde auf 12T-Tokens mit Text- und Codedaten vorab trainiert. Im Vergleich zu anderen offenen MoE-Modellen wie Mixtral-8x7B und Grok-1 ist DBRX feinkörnig, was bedeutet, dass eine größere Anzahl kleinerer Experten eingesetzt wird. DBRX hat 16 Experten und wählt 4 aus, während Mixtral-8x7B und Grok-1 8 Experten haben und 2 auswählen. Dies bietet 65x mehr mögliche Kombinationen von Experten, was die Modellqualität verbessert. | HuggingFace Github Blog |
Grok 1.0 (MoE) | xAI | 314B | Grok 1.0 verwendet eine Mischung aus 8 Experten (MoE). Grok 1.0 ist nicht auf bestimmte Anwendungen wie Dialoge abgestimmt, bietet aber im Vergleich zu anderen Modellen wie GPT-3.5 und Llama 2 eine starke Leistung. Es ist größer als GPT-3/3.5. | Github HuggingFace |
Gemma | Google | 2B 7B | Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google, die auf der gleichen Forschung und Technologie basieren wie die Gemini-Modelle. Es handelt sich um Text-zu-Text-Modelle für große Sprachen, die nur über einen Decoder verfügen und auf Englisch mit offenen Gewichten, vorab trainierten Varianten und auf Anweisungen abgestimmten Varianten verfügbar sind. Gemma-Modelle eignen sich gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich der Beantwortung von Fragen, der Zusammenfassung und der Begründung. | HuggingFace Kaggle Github Blog |
Wiederkehrende Gemma | Google | 2B | RecurrentGemma ist eine Familie offener Sprachmodelle, die auf einer neuartigen wiederkehrenden Architektur basieren. Wie Gemma eignen sich RecurrentGemma-Modelle gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich der Beantwortung von Fragen, der Zusammenfassung und der Begründung. Aufgrund seiner neuartigen Architektur benötigt RecurrentGemma weniger Speicher als Gemma und erreicht schnellere Rückschlüsse bei der Generierung langer Sequenzen. | HuggingFace Kaggle |
Mixtral 8x7B (MoE) | Mistral-KI | 45B Aktiv 12B | Das Mixtral-8x7B Large Language Model (LLM) ist eine vorab trainierte generative Sparse-Expertenmischung. Der Mixtral-8x7B übertrifft Llama 2 70B in den meisten Benchmarks. | HuggingFace Kaggle Blog |
Qwen1,5-MoE (MoE) | Alibaba | 14,3B Aktiv 2,7B | Qwen1.5-MoE ist ein transformatorbasiertes MoE-Decoder-Sprachmodell, das anhand einer großen Datenmenge vorab trainiert wurde. Es nutzt die Mixture of Experts (MoE)-Architektur, bei der die Modelle aus dichten Sprachmodellen upgecycelt werden. Es verfügt über insgesamt 14,3 Milliarden Parameter und 2,7 Milliarden aktivierte Parameter während der Laufzeit. Dabei erreicht es eine vergleichbare Leistung wie Qwen1,5-7B, benötigt aber nur 25 % der Trainingsressourcen. | Umarmendes Gesicht |
Mistral 7B v2 | Mistral-KI | 7B | Mistral 7B v2 weist im Vergleich zu Mistral 7B die folgenden Änderungen auf: - 32k-Kontextfenster (im Vergleich zu 8k-Kontext in v0.1), Rope-Theta = 1e6, keine Sliding-Window-Beachtung. | HuggingFace Github |
Mistral 7B | Mistral-KI | 7B | Das Mistral-7B-v0.1 Large Language Model (LLM) ist ein vorab trainiertes generatives Textmodell mit 7 Milliarden Parametern. Mistral-7B-v0.1 übertrifft Llama 2 13B in den meisten Benchmarks. | Github HuggingFace Kaggle Blog |
Lama 2 | Meta-KI | 7B 13B 70B | Llama 2 ist eine Sammlung vorab trainierter und fein abgestimmter generativer Textmodelle mit einer Größenordnung von 7 bis 70 Milliarden Parametern. Es handelt sich um ein autoregressives Sprachmodell, das eine optimierte Transformatorarchitektur verwendet. Die optimierten Versionen nutzen Supervised Fine-Tuning (SFT) und Reinforcement Learning with Human Feedback (RLHF), um sich an den menschlichen Präferenzen für Hilfsbereitschaft und Sicherheit auszurichten. | HuggingFace Kaggle Github Blog |
Dolly v2 | Datenbausteine | 3B 7B 12B | Dolly v2 ist ein von Databricks erstelltes kausales Sprachmodell, das von Pythia-12b von EleutherAI abgeleitet und auf einem Datensatzanweisungskorpus von ca. 15.000 verfeinert wurde. | HuggingFace Dolly3B HuggingFace Dolly7B HuggingFace Dolly12B Kaggle Github |
Befehl-R | Zusammenhängen | 35B | Command-R ist eine Forschungsversion eines hochleistungsfähigen generativen Modells mit 35 Milliarden Parametern. Command-R ist ein großes Sprachmodell mit offenen Gewichten, das für eine Vielzahl von Anwendungsfällen optimiert ist, darunter Argumentation, Zusammenfassung und Beantwortung von Fragen. Command-R verfügt über die Fähigkeit zur mehrsprachigen Generierung, die in 10 Sprachen ausgewertet wird, und über hochleistungsfähige RAG-Funktionen. | HuggingFace Kaggle |
Qwen1.5 | Alibaba | 0,5B 1,8B 4B 7B 14B 32B 72B | Qwen1.5 ist ein transformatorbasiertes Nur-Decoder-Sprachmodell, das anhand einer großen Datenmenge vorab trainiert wurde. Es basiert auf der Transformer-Architektur mit SwiGLU-Aktivierung, Aufmerksamkeits-QKV-Bias, Gruppenabfrage-Aufmerksamkeit, einer Mischung aus Schiebefenster-Aufmerksamkeit und voller Aufmerksamkeit usw. | HuggingFace Github |
Vicuna v1.5 | Lysmen | 7B 13B | Vicuna v1.5 wurde anhand von Llama 2 mit überwachter Feinabstimmung der Anweisungen verfeinert. Bei den Trainingsdaten handelt es sich um etwa 125.000 Gespräche, die von ShareGPT.com gesammelt wurden. Der Haupteinsatzbereich von Vicuna ist die Forschung an großen Sprachmodellen und Chatbots. | HuggingFace Vicuna7B HuggingFace Vicuna13B |
Phi 2 | Microsoft | 2,7B | Phi-2 ist ein Transformer mit 2,7 Milliarden Parametern. Es wurde mit denselben Datenquellen wie Phi-1.5 trainiert, ergänzt durch eine neue Datenquelle, die aus verschiedenen synthetischen NLP-Texten und gefilterten Websites besteht. Bei der Bewertung anhand von Benchmarks, die den gesunden Menschenverstand, das Sprachverständnis und das logische Denken testen, zeigte Phi-2 eine nahezu hochmoderne Leistung unter Modellen mit weniger als 13 Milliarden Parametern. | HuggingFace Kaggle Blog |
Orca 2 | Microsoft | 7B 13B | Orca 2 wurde nur für Forschungszwecke entwickelt und bietet eine Antwort in einer einzigen Runde bei Aufgaben wie dem Nachdenken über vom Benutzer eingegebene Daten, dem Leseverständnis, dem Lösen mathematischer Probleme und dem Zusammenfassen von Texten. Das Modell ist so konzipiert, dass es sich besonders durch seine Argumentation auszeichnet. Das Modell ist nicht für Chat optimiert und wurde nicht mit RLHF oder DPO trainiert. | HuggingFace-Blog |
Smaug | Abacus KI | 34B 72B | Smaug wird mithilfe einer neuen Feinabstimmungstechnik, DPO-Positive (DPOP), und neuen paarweisen Präferenzversionen von ARC, HellaSwag und MetaMath (sowie anderen vorhandenen Datensätzen) erstellt. | Umarmendes Gesicht |
MPT | Mosaikml | 1B 7B 30B | MPT ist ein Transformator im Decoder-Stil, der von Grund auf auf 1T-Tokens mit englischem Text und Code vorab trainiert wurde. Diese Modelle verwenden eine modifizierte Transformatorarchitektur, die für effizientes Training und Inferenz optimiert ist. Zu diesen Architekturänderungen gehören leistungsoptimierte Layer-Implementierungen und die Beseitigung von Kontextlängenbeschränkungen durch Ersetzen von Positionseinbettungen durch Attention with Linear Biases (ALiBi). | HuggingFace Kaggle Github |
Falke | TLL | 7B 40B 180B | Falcon ist ein kausales Nur-Decoder-Modell mit 7B/40B/180B-Parametern, das von TII entwickelt und auf 1.000B/1.500B/3.500B-Tokens von RefinedWeb trainiert wurde, die mit kuratierten Korpora erweitert wurden. | Umarmendes Gesicht |
Yalm | Yandex | 100B | YaLM 100B ist ein GPT-ähnliches neuronales Netzwerk zur Generierung und Verarbeitung von Text. Es wird über 65 Tage auf einem Cluster von 800 A100-Grafikkarten trainiert. Es ist für die Textgenerierung und -verarbeitung konzipiert. | HuggingFace Github |
DeciLM | DeciAI | 6B 7B | DeciLM ist ein reines Decoder-Textgenerierungsmodell. Dieses hocheffiziente Modell unterstützt eine 8K-Token-Sequenzlänge und nutzt variable Grouped-Query Attention (GQA), um ein überlegenes Gleichgewicht zwischen Genauigkeit und Recheneffizienz zu erreichen. | Umarmendes Gesicht |
BERT | Google | 110M bis 350M | BERT ist ein Transformatorenmodell, das auf selbstüberwachte Weise auf einem großen Korpus englischer Daten vorab trainiert wurde. Das bedeutet, dass es nur an den Rohtexten vorab trainiert wurde, ohne dass Menschen diese in irgendeiner Weise beschriftet haben, mit einem automatischen Prozess zur Generierung von Eingaben und Beschriftungen aus diesen Texten. | HuggingFace Kaggle GitHub |
Olmo | AllenAI | 1B 7B | OLMo ist eine Reihe offener Sprachmodelle, die die Wissenschaft von Sprachmodellen ermöglichen sollen. Die OLMo-Modelle werden auf dem Dolma-Datensatz trainiert. | HuggingFace Github |
Openchat3.5 | Openchat | 7B | Openchat2.5 ist das leistungsstärkste 7B-LLM. | HuggingFace Github |
Blühen | BigScience | 176B | BLOOM ist ein autoregressives Large Language Model (LLM), das darauf trainiert ist, Text aus einer Eingabeaufforderung auf riesigen Textdatenmengen unter Verwendung von Rechenressourcen im industriellen Maßstab fortzusetzen. | Umarmendes Gesicht |
Hermes 2 Pro Mistral | Nous-Forschung | 7B | Hermes 2 Pro auf Mistral 7B ist das neue Flaggschiff 7B Hermes. Hermes 2 Pro ist eine aktualisierte, neu trainierte Version von Nous Hermes 2, bestehend aus einer aktualisierten und bereinigten Version des OpenHermes 2.5-Datensatzes sowie einem neu eingeführten Funktionsaufruf- und JSON-Modus-Datensatz, der intern entwickelt wurde. Diese neue Version von Hermes behält seine hervorragenden allgemeinen Aufgaben- und Konversationsfunktionen bei, zeichnet sich aber auch durch Funktionsaufrufe und strukturierte JSON-Ausgaben aus. | Umarmendes Gesicht |
Hermes 2 Mixtral 7x8B (MoE) | Nous-Forschung | Aktiv 12B | Nous Hermes 2 Mixtral 8x7B DPO ist das neue Flaggschiffmodell von Nous Research, das auf dem Mixtral 8x7B MoE LLM trainiert wurde. Das Modell wurde anhand von über 1.000.000 Einträgen hauptsächlich von GPT-4 generierter Daten sowie anderer hochwertiger Daten aus offenen Datensätzen in der gesamten KI-Landschaft trainiert und erzielte bei einer Vielzahl von Aufgaben eine Leistung auf dem neuesten Stand. Dies ist die SFT + DPO-Version von Mixtral Hermes 2. | Umarmendes Gesicht |
Merlinit | IBM | 7B | Merlinite-7b ist ein von Mistral-7b abgeleitetes Modell, das mit der LAB-Methodik trainiert wurde, wobei Mixtral-8x7b-Instruct als Lehrermodell verwendet wird. | Umarmendes Gesicht |
Labradorit | IBM | 13B | Labradorite-13b ist ein von LLaMA-2-13b abgeleitetes Modell, das mit der LAB-Methodik trainiert wurde und Mixtral-8x7b-Instruct als Lehrermodell verwendet. | Umarmendes Gesicht |
Xgen | Salesforce | 7B | Xgen ist ein großes Sprachmodell mit einer Kontextlänge von 8 KB und 4 KB, das für Aufgaben mit langen Sequenzen optimiert ist. | HuggingFace Github |
Solar | Upstage | 10,7B | SOLAR-10.7B, ein fortschrittliches Large Language Model (LLM) mit 10,7 Milliarden Parametern, das eine überlegene Leistung bei verschiedenen Aufgaben der Verarbeitung natürlicher Sprache (NLP) zeigt. Es ist kompakt und dennoch bemerkenswert leistungsstark und zeigt in Modellen mit Parametern unter 30B eine beispiellose Leistung auf dem neuesten Stand der Technik. | Umarmendes Gesicht |
GPT-Neox | Eleuther KI | 20B | GPT-NeoX-20B ist ein autoregressives Sprachmodell mit 20 Milliarden Parametern, das mithilfe der GPT-NeoX-Bibliothek auf dem Pile trainiert wurde. Seine Architektur ähnelt bewusst der von GPT-3 und ist nahezu identisch mit der von GPT-J-6B. | HuggingFace GitHub |
Flan-T5 | Google | 80M bis 11B | FLAN-T5 ist eine modifizierte Version von T5 und verfügt über die gleiche Anzahl an Parametern. Diese Modelle wurden auf mehr als 1000 zusätzliche Aufgaben abgestimmt, die auch mehr Sprachen abdecken. Verschiedene Größen: Flan-T5-Small, Flan-T5-Base, Flan-T5-Large, Flan-T5-XXL | HuggingFace Kaggle |
OPT | Meta-KI | 125M bis 175B | Bei OPT handelt es sich um vorab trainierte Transformatoren nur für Decoder mit Parametern von 125 M bis 175 B. Es wurde überwiegend mit englischem Text vorab trainiert, über CommonCrawl ist jedoch noch eine kleine Menge nicht-englischer Daten im Trainingskorpus vorhanden. | Umarmendes Gesicht |
Stabiles LM 2 | Stabilitäts-KI | 1,6B 12B | Bei Stable LM 2 handelt es sich um reine Decoder-Sprachmodelle, die auf 2 Billionen Token verschiedener mehrsprachiger und Code-Datensätze für zwei Epochen vortrainiert wurden. | Umarmendes Gesicht |
Stabiler LM Zephyr | Stabilitäts-KI | 3B | Das StableLM Zephyr 3B-Modell ist ein autoregressives Sprachmodell, das auf der Transformer-Decoder-Architektur basiert. StableLM Zephyr 3B ist ein 3-Milliarden-Parameter, der anhand einer Mischung aus öffentlich verfügbaren Datensätzen und synthetischen Datensätzen mithilfe der Direct Preference Optimization (DPO) trainiert wurde. | Umarmendes Gesicht |
Aya | Zusammenhängen | 13B | Das Aya-Modell ist ein autoregressives, massiv mehrsprachiges generatives Sprachmodell im Transformer-Stil, das Anweisungen in 101 Sprachen folgt. Es hat die gleiche Architektur wie MT5-xxl. | HuggingFace Kaggle Blog |
Nemotron 3 | Nvidia | 8B | Nemotron-3 sind große Sprachgrundlagenmodelle für Unternehmen zum Erstellen benutzerdefinierter LLMs. Dieses Basismodell verfügt über 8 Milliarden Parameter und unterstützt eine Kontextlänge von 4.096 Token. Nemotron-3 ist eine Familie unternehmenstauglicher generativer Textmodelle, die mit dem NVIDIA NeMo Framework kompatibel sind. | Umarmendes Gesicht |
Neuronaler Chat v3 | Intel | 7B | Neural Chat ist ein fein abgestimmtes 7B-Parameter-LLM auf dem Intel Gaudi 2-Prozessor aus dem Mistralai/Mistral-7B-v0.1 auf dem Open-Source-Datensatz Open-Orca/SlimOrca. Das Modell wurde mithilfe der Direct Performance Optimization (DPO)-Methode ausgerichtet. | Umarmendes Gesicht |
Yi | 01 KI | 6B 9B 34B | Die Modelle der Yi-Serie sind die nächste Generation von Open-Source-Modellen für große Sprachen. Sie sind als zweisprachiges Sprachmodell konzipiert und auf dem mehrsprachigen 3T-Korpus trainiert. Sie zeigen vielversprechende Ergebnisse in den Bereichen Sprachverständnis, vernünftiges Denken, Leseverständnis und mehr. | HuggingFace Github |
Starling LM | Nexusflow | 7B | Starling LM, ein offenes großes Sprachmodell (LLM), das durch Reinforcement Learning from AI Feedback (RLAIF) trainiert wird. Starling LM wird ab Openchat-3.5-0106 mit unserem neuen Belohnungsmodell Starling-RM-34B und der Richtlinienoptimierungsmethode Fine-Tuning Language Models from Human Preferences (PPO) trainiert. | Umarmendes Gesicht |
NexusRaven v2 | Nexusflow | 13B | NexusRaven ist ein Open-Source- und kommerziell nutzbares Funktionsaufruf-LLM, das den neuesten Stand der Funktionsaufruffunktionen übertrifft. NexusRaven-V2 ist in der Lage, tief verschachtelte Funktionsaufrufe, parallele Funktionsaufrufe und einfache Einzelaufrufe zu generieren. Es kann auch die von ihm generierten Funktionsaufrufe rechtfertigen. | Umarmendes Gesicht |
DeepSeek LLM | Deepseek-KI | 7B 67B | DeepSeek LLM ist ein fortgeschrittenes Sprachmodell. Es wurde von Grund auf auf einem riesigen Datensatz von 2 Billionen Token in Englisch und Chinesisch trainiert. | HuggingFace Github |
Deepseek VL (Multimodal) | Deepseek-KI | 1,3B 7B | DeepSeek-VL, ein Open-Source-Vision-Language-Modell (VL), das für reale Seh- und Sprachverständnisanwendungen entwickelt wurde. DeepSeek-VL verfügt über allgemeine multimodale Verständnisfähigkeiten und ist in der Lage, logische Diagramme, Webseiten, Formelerkennung, wissenschaftliche Literatur, natürliche Bilder und verkörperte Intelligenz in komplexen Szenarien zu verarbeiten. Es handelt sich um einen Hybrid-Vision-Encoder, der eine Bildeingabe von 1024 x 1024 unterstützt und auf der DeepSeek-7b-Basis basiert, die auf einem ungefähren Korpus von 2T-Text-Tokens trainiert wird. | HuggingFace Github |
Llava 1.6 (Multimodal) | Llava HF | 7B 13B 34B | LLaVa kombiniert ein vorab trainiertes großes Sprachmodell mit einem vorab trainierten Vision-Encoder für multimodale Chatbot-Anwendungsfälle. Verfügbare Modelle: Llava-v1.6-34b-hf, Llava-v1.6-Mistral-7b-hf, Llava-v1.6-Vicuna-7b-hf, Llava-v1.6-vicuna-13b-hf | Umarmendes Gesicht Umarmendes Gesicht |
Yi VL (Multimodal) | 01 KI | 6B 34B | Das Yi-VL-Modell ist die multimodale Open-Source-Version der Yi Large Language Model (LLM)-Reihe und ermöglicht das Verstehen, Erkennen und Erkennen von Inhalten sowie mehrstufige Gespräche über Bilder. | HuggingFace YiVL6B HuggingFace YiVL34B |