Vereinfachtes Chinesisch |
Der Weg zur Implementierung und Transzendenz des Open-Source-ChatGPT-Modells
Seit dem versehentlichen Durchsickern von LLaMA-Gewichten und der beeindruckenden Leistung der Anweisungsfeinabstimmung von LLaMA durch Stanford Alpaca unter Verwendung von Daten, die auf selbstlernende Weise aus der gpt-3-API erstellt wurden, ist die Open-Source-Community immer mehr daran interessiert, ein großes Projekt zu realisieren Sprachmodell auf dem Niveau von ChatGPT wird immer hoffnungsvoller.
Dieses Repo soll diesen Prozess der Reproduktion und Transzendenz dokumentieren und der Community einen Überblick bieten.
Einschließlich: damit verbundener technologischer Fortschritt, Grundmodelle, Domänenmodelle, Schulung, Argumentation, Technologie, Daten, Mehrsprachigkeit, Multimodalität usw.
Mitwirkender | Modell/Projekt | Lizenz | Sprache | Hauptmerkmal |
---|---|---|---|---|
Meta | LLaMA/LLaMA2 | multi | LLaMA-13B übertrifft GPT-3(175B) und LLaMA-65B ist konkurrenzfähig zu PaLM-540M. Basismodell für die meisten Folgearbeiten. | |
HuggingFace-BigScience | BLÜHEN | multi | ein autoregressives Large Language Model (LLM), das von HuggingFace BigScience trainiert wurde. | |
HuggingFace-BigScience | BLOOMZ | multi | Anweisungsfein abgestimmte Version der vorab trainierten mehrsprachigen Sprachmodelle von BLOOM und mT5 zur mehrsprachigen Aufgabenmischung. | |
EleutherAI | GPT-J | de | Transformatormodell, trainiert mit Ben Wangs Mesh Transformer JAX. | |
Meta | OPT | de | Offene vorab trainierte Transformer-Sprachmodelle. Ziel bei der Entwicklung dieser Suite von OPT-Modellen ist es, eine Reproduzierbarkeit zu ermöglichen und verantwortungsvolle Forschung im großen Maßstab und um mehr Stimmen bei der Untersuchung der Auswirkungen dieser LLMs einzubringen. | |
Gehirnsysteme | Cerebras-GPT | de | Vortrainiertes LLM, GPT-3-ähnlich, im Handel erhältlich, effizient trainiert auf dem Andromeda-KI-Supercomputer, Trainiert gemäß den Chinchilla-Skalierungsgesetzen (20 Token pro Modellparameter), was rechenoptimal ist. | |
EleutherAI | Python | de | Kombinieren Sie Interpretierbarkeitsanalysen und Skalierungsgesetze, um zu verstehen, wie sich Wissen entwickelt und entwickelt sich während des Trainings in autoregressiven Transformatoren. | |
Stabilitäts-KI | StabilLM | de | Stabilität von KI-Sprachmodellen | |
FDU | MOOS | en/zh | Ein Open-Source-Tool-erweitertes Konversationssprachmodell der Fudan-Universität. | |
Symmetrie&FDU | BBT-2 | zh | 12B Open-Source-LM. | |
@mlfoundations | OpenFlamingo | de | Ein Open-Source-Framework zum Trainieren großer multimodaler Modelle. | |
EleutherAI | GPT-NeoX-20B | de | Seine Architektur ähnelt bewusst der von GPT-3 und ist nahezu identisch mit der von GPT-J-6B. | |
UCB | OpenLLaMA | Apache-2.0 | de | Eine offene Reproduktion von LLaMA. |
MosaikML | MPT | Apache-2.0 | de | MPT-7B ist ein Modell im GPT-Stil und das erste Modell der MosaikML Foundation-Serie. MPT-7B basiert auf 1T-Tokens eines von MosaicML kuratierten Datensatzes und ist Open-Source. kommerziell nutzbar und hinsichtlich der Bewertungsmaßstäbe LLaMa 7B gleichwertig. |
ZusammenComputer | RedPajama-INCITE-Base-3B-v1 | Apache-2.0 | de | Ein vorab trainiertes Sprachmodell mit 2,8B Parametern, vorab trainiert auf RedPajama-Data-1T, zusammen mit einer auf Anweisungen abgestimmten Version und einer Chat-Version. |
Blitz-KI | Lit-LLaMA | Apache-2.0 | - | Unabhängige Implementierung von LLaMA, die vollständig Open Source unter der Apache 2.0-Lizenz ist. |
@conceptofmind | PLM | MIT-Lizenz | de | Eine Open-Source-Implementierung von Google PaLM-Modellen. |
TII | Falcon-7B | TII Falcon LLM-Lizenz | de | Ein von TII erstelltes und auf 1.500 Milliarden RefinedWeb-Tokens trainiertes, mit kuratierten Korpora erweitertes 7B-Parameter-Kausal-Decoder-Modell. |
TII | Falcon-40B | TII Falcon LLM-Lizenz | multi | ein kausales Nur-Decoder-Modell mit 40 B Parametern, das von TII erstellt und auf 1.000 B-Tokens von RefinedWeb trainiert wurde, erweitert mit kuratierten Korpora. |
TigerResearch | TigerBot | Apache-2.0 | en/zh | ein mehrsprachiges und multitaskingfähiges LLM. |
BAAI | Aquila/Aquila2 | BAAI_Aquila_Model_License | en/zh | Das Aquila-Sprachmodell übernimmt die architektonischen Designvorteile von GPT-3 und LLaMA und ersetzt eine Reihe effizienterer zugrunde liegender Elemente Operator-Implementierungen und Neugestaltung des Tokenizers für die zweisprachige Unterstützung Chinesisch-Englisch. |
OpenBMB | CPM-Biene | Universelle Modelllizenzvereinbarung – Quellenangabe – Veröffentlichungsbeschränkungen – kommerzielle Genehmigung | en/zh | CPM-Bee ist ein vollständig quelloffenes, kommerziell nutzbares zweisprachiges Chinesisch-Englisch-Basismodell mit einer Kapazität von zehn Milliarden Parametern. Und wurde auf einem umfangreichen Korpus von Token im Billionen-Maßstab vorab trainiert. |
Baichuan | Baichuan-7B | Apache-2.0 | en/zh | Es hat unter den Modellen gleicher Größe im Standard die beste Leistung erzielt Maßgebliche chinesische und englische Benchmarks (C-EVAL, MMLU usw.). |
Tencent | lyraChatGLM | MIT-Lizenz | en/zh | Nach unserem besten Wissen handelt es sich um die erste beschleunigte Version von ChatGLM-6B . Die Inferenzgeschwindigkeit von lyraChatGLM hat im Vergleich zur frühen Originalversion eine 300-fache Beschleunigung erreicht. Wir arbeiten weiterhin hart daran, die Leistung weiter zu verbessern. |
SalesForce | XGen | Apache-2.0 | multi | Salesforce Open-Source-LLMs mit 8.000 Sequenzlängen |
Shanghai AI Lab | InternLM | Apache-2.0 | en/zh | InternLM hat ein 7-Milliarden-Parameter-Basismodell und ein auf praktische Szenarien zugeschnittenes Chat-Modell bereitgestellt. Das Modell weist die folgenden Merkmale auf: Es nutzt Billionen hochwertiger Token für Schulungen, um eine leistungsstarke Wissensbasis aufzubauen. Es unterstützt eine Kontextfensterlänge von 8 KB und ermöglicht so längere Eingabesequenzen und stärkere Argumentationsfunktionen. Es bietet Benutzern ein vielseitiges Toolset, mit dem sie flexibel ihre eigenen Arbeitsabläufe erstellen können. |
xverse-ai | XVERSE | Apache-2.0 | multi | Mehrsprachige LLMs, entwickelt von XVERSE Technology Inc. |
Schriftsteller | Palmyra | Apache-2.0 | de | Dieses Modell ist extrem leistungsstark und gleichzeitig extrem schnell wie Stimmungsklassifizierung und -zusammenfassung. |
Mistral-KI | Mistral | Apache-2.0 | de | Mistral 7B ist ein 7,3B-Parametermodell, das: 1. Übertrifft Llama 2 13B in allen Benchmarks 2. Übertrifft Llama 1 34B in vielen Benchmarks 3. Erreicht die Leistung von CodeLlama 7B beim Code und bleibt bei englischen Aufgaben gut 4. Verwendet Grouped-Query Attention (GQA) für schnellere Rückschlüsse 5. Verwendet SWA (Sliding Window Attention), um längere Sequenzen zu geringeren Kosten abzuwickeln |
SkyworkAI | Himmelswerk | - | en/zh | In wichtigen Bewertungsbenchmarks liegt Skywork-13B an der Spitze chinesischer Open-Source-Modelle und ist auf derselben Parameterskala das optimale Niveau; es kann ohne Anwendung kommerziell genutzt werden; es verfügt außerdem über einen 600G (150 Milliarden Token) großen chinesischen Datensatz. |
01.AI | Yi | - | en/zh | Bei den Modellen der Yi -Serie handelt es sich um große Sprachmodelle, die von Entwicklern bei 01.AI von Grund auf trainiert wurden. |
IEIT-Systeme | Yuan-2,0 | - | en/zh | In dieser Arbeit wird die Localized Filtering-based Attention (LFA) eingeführt, um Vorkenntnisse über lokale Abhängigkeiten natürlicher Sprache in Attention zu integrieren. Basierend auf LFA entwickeln und veröffentlichen wir Yuan 2.0, ein großes Sprachmodell mit Parametern im Bereich von 2,1 Milliarden bis 102,6 Milliarden. Eine Datenfilterungs- und Generierungsmethode wird vorgestellt, um Vortrainings- und Feinabstimmungsdatensätze in hoher Qualität zu erstellen. Es wird eine verteilte Trainingsmethode mit ungleichmäßiger Pipeline-Parallelität, Datenparallelität und Optimierer-Parallelität vorgeschlagen. Dadurch werden die Bandbreitenanforderungen der knoteninternen Kommunikation erheblich reduziert und eine gute Leistung bei groß angelegten verteilten Schulungen erzielt. Yuan 2.0-Modelle zeigen im Vergleich zu vorhandenen Modellen beeindruckende Fähigkeiten bei der Codegenerierung, der Lösung mathematischer Probleme und beim Chatten. |
Nanbeige | Nanbeige | Apache-2.0 | en/zh | Nanbeige-16B ist ein 16-Milliarden-Parameter-Sprachmodell, das von Nanbeige LLM Lab entwickelt wurde. Es verwendet 2,5T-Token für das Vortraining. Die Trainingsdaten umfassen eine große Menge hochwertiger Internetkorpus, verschiedene Bücher, Code usw. Es wurde erreicht Gute Ergebnisse bei verschiedenen maßgeblichen Auswertungsdatensätzen. Diese Version umfasst Base, Chat, Base-32k und Chat-32k. |
deepseek-ai | deepseek-LLM | MIT-Lizenz | en/zh | ein fortschrittliches Sprachmodell mit 67 Milliarden Parametern, das von Grund auf auf einem riesigen Datensatz von 2 Billionen Token in Englisch und Chinesisch trainiert wurde. |
LLM360 | LLM360 | - | - | Die meisten Open-Source-LLM-Veröffentlichungen enthalten Modellgewichte und Bewertungsergebnisse. Um das Verhalten eines Modells wirklich zu verstehen, sind diese Informationen jedoch normalerweise nicht verfügbar. Daher verpflichten wir uns, alle Zwischenprüfpunkte zu veröffentlichen. bis zu 360!) während des Trainings gesammelt, alle Trainingsdaten (und deren Zuordnung zu Prüfpunkten), alle gesammelten Metriken (z. B. Verlust, Gradientennorm, Bewertungsergebnisse) und der gesamte Quellcode für die Vorverarbeitung von Daten und das Modelltraining Artefakte können helfen Wir hoffen, dass LLM360 dazu beitragen kann, fortgeschrittene LLMs transparenter zu machen, die Forschung in kleineren Laboren zu fördern und die Reproduzierbarkeit in der KI-Forschung zu verbessern. |
FDU usw. | CT-LLM | - | zh/en | CT-LLM konzentriert sich auf die chinesische Sprache und verwendet hauptsächlich chinesische Daten aus einem 1.200 Milliarden Token-Korpus, darunter 800 Milliarden chinesische, 300 Milliarden englische und 100 Milliarden Code-Tokens Datenverarbeitung und des Massive Appropriate Pretraining Chinese Corpus (MAP-CC) sowie der Einführung des Chinese Hard Case Benchmark (CHC-Bench) fördern wir weitere Forschung und Innovation mit dem Ziel für umfassendere und anpassungsfähigere Sprachmodelle. |
TigerLab | MAP-NEO | - | zh/en | Das erste große Modell, das Open Source für den gesamten Prozess von der Datenverarbeitung bis zum Modelltraining und den Modellgewichten ist. |
DataCamp | DCLM | - | - | Bietet Tools und Anleitungen für die Verarbeitung von Rohdaten, Tokenisierung, Datenmischung, Modelltraining und Leistungsbewertung. Das Basismodell 7B bietet eine hervorragende Leistung. |
Mitwirkender | Modell | Domain | Sprache | Basismodell | Hauptmerkmal |
---|---|---|---|---|---|
UT Südwesten/ UIUC/OSU/HDU | ChatDoctor | medizinisch | de | LAMA | Vielleicht das erste domänenspezifische Chat-Modell, das auf LLaMA abgestimmt ist. |
Cambridge | Visuelles Med-Alpaka | biomedizinisch | de | LLaMA-7B | ein multimodales Grundlagenmodell, das speziell für den biomedizinischen Bereich entwickelt wurde. |
SCHLAG | BenTsao/ChatGLM-Med | medizinisch | zh | LLaMA/ChatGLM | Feinabstimmung mit dem chinesischen medizinischen Wissensdatensatz, der mithilfe der gpt3.5-API generiert wird. |
ShanghaiTech usw. | DoctorGLM | medizinisch | en/zh | ChatGLM-6B | Chinesisches medizinisches Beratungsmodell auf ChatGLM-6B verfeinert. |
DO LUFT | BioMedGPT-1.6B | biomedizinisch | en/zh | - | ein vorab trainiertes multimodales molekulares Grundlagenmodell mit 1,6B-Parametern, das 2D-Molekülgraphen mit Texten verknüpft. |
@LiuHC0428 | LawGPT_en | legal | zh | ChatGLM-6B | ein allgemeines Modell im chinesischen Rechtsbereich, trainiert auf Daten, die durch Reliable-Self-Instruction generiert wurden. |
SJTU | MedizinischGPT-zh | medizinisch | zh | ChatGLM-6B | ein allgemeines Modell im chinesischen medizinischen Bereich, eine vielfältige Datensammlung, die durch Selbststudium generiert wird. |
SJTU | PMC-LLaMA | medizinisch | zh | LAMA | Setzen Sie die Schulung des LLaMA zu medizinischen Dokumenten fort. |
Umarmendes Gesicht | StarCoder | Codegenerierung | de | - | Ein Sprachmodell (LM), das auf Quellcode und Text in natürlicher Sprache trainiert wird. Seine Trainingsdaten umfassen mehr als 80 verschiedene Programmiersprachen sowie aus GitHub-Issues und -Commits und aus Notebooks extrahierter Text. |
@CogStack | NHS-LLM | medizinisch | de | nicht klar | Ein Konversationsmodell für das Gesundheitswesen, das mit OpenGPT trainiert wurde. |
@pengxiao-song | GesetzGPT | legal | zh | LLaMA/ChatGLM | Erweitern Sie den Wortschatz um chinesische Rechtsterminologien und verfeinern Sie den Unterricht anhand von Daten, die durch Selbstunterricht generiert wurden. |
Duxiaoman | Xuanyuan | Finanzen | zh | BLOOM-176B | Ein großes chinesisches Finanz-Chat-Modell mit Hunderten von Milliarden Parametern. |
CUHK | HuatuoGPT | medizinisch | zh | nicht klar | HuatuoGPT, ein großes Sprachmodell (LLM), das auf einem riesigen chinesischen medizinischen Korpus trainiert wird. Unser Ziel mit HuatuoGPT ist um ein professionelleres „ChatGPT“ für medizinische Beratungsszenarien zu erstellen. |
PKU | Rechtsanwalt LLaMA | legal | zh | LAMA | Setzen Sie die Vorschulung zu chinesischen Rechtsdaten, die Schulung zu juristischen Prüfungen und die Rechtsberatung von QA-Paaren fort. |
DO | LexiLaw | legal | zh | ChatGLM-6B | geschult auf einer Mischung aus allgemeinen Daten (BELLE 1,5M) und rechtlichen Daten |
DO usw. | Taoli | Ausbildung | zh | LAMA | Ein großes Modell für den internationalen Chinesischunterricht. Es erweitert den spezifischen Wortschatz des Basismodells. und nutzt den proprietären Datensatz der Domäne zur Feinabstimmung der Anweisungen. |
NUS | Ziege | Arithmetik | de | LAMA | ein fein abgestimmtes LLaMA-Modell, das GPT-4 bei einer Reihe von Rechenaufgaben deutlich übertrifft. Durch die Feinabstimmung eines synthetisch generierten Datensatzes erreicht Goat eine hochmoderne Leistung bei der BIG-Bench-Arithmetik-Unteraufgabe. |
CU/NYU | FinGPT | Finanzen | de | - | ein End-to-End-Open-Source-Framework für Financial Large Language Models (FinLLMs). |
Microsoft | WizardCoder | Codegenerierung | de | StarCoder | trainiert mit 78.000 entwickelten Codeanweisungen übertrifft Claude-Plus (+6,8) , Bard (+15,3) und InstructCodeT5+ (+22,3) bei den HumanEval-Benchmarks. |
UCAS | Füllhorn | Finanzen | zh | LAMA | Feinabstimmung des LLaMA auf chinesische Finanzkenntnisse, |
PKU | ChatLaw | legal | zh | Ziya/Anima | Chinesisches Rechtsdomänenmodell. |
@michael-wzhu | ChatMed | medizinisch | zh | LAMA | Chinesisches medizinisches LLM basierend auf LLaMA-7B. |
SCUT | SoulChat | psychische Gesundheit | zh | ChatGLM-6B | Chinesischer Dialog-LLM im Bereich der psychischen Gesundheit, basierend auf ChatGLM-6B. |
@shibing624 | MedicalGPT | medizinisch | zh | ChatGLM-6B | Trainieren Sie Ihr eigenes medizinisches GPT-Modell mit der ChatGPT-Trainingspipeline. |
BJTU | TransGPT | Transport | zh | LLaMA-7B | Chinesisches Transportmodell. |
BAAI | AquilaCode | Codegenerierung | multi | Aquila | AquilaCode-multi ist ein mehrsprachiges Modell, das eine hochpräzise Codegenerierung für verschiedene Programmiersprachen unterstützt, einschließlich Python/C++/Java/Javascript/Go usw. Es hat beeindruckende Ergebnisse bei der HumanEval-Bewertung (Python) erzielt, mit Pass@1-, Pass@10- und Pass@100-Werten von jeweils 26/45,7/71,6 Bei der Evaluierung der mehrsprachigen Codegenerierung übertrifft es andere Open-Source-Modelle mit ähnlichen Parametern deutlich (Stand: 19. Juli 2023). AquilaCode-py hingegen ist eine einsprachige Python-Version des Modells, die sich auf die Python-Codegenerierung konzentriert. Es hat auch bei der HumanEval-Bewertung eine hervorragende Leistung gezeigt, mit Pass@1-, Pass@10- und Pass@100-Werten von 28,8/50,6/76,9 (Stand: 19. Juli 2023). |
Meta | CodeLLaMA | Codegenerierung | multi | LLaMA-2 | eine Familie großer Sprachmodelle für Code basierend auf Llama 2, die modernste Leistung unter offenen Modellen, Füllfunktionen, Unterstützung für große Eingabekontexte und Zero-Shot-Anweisungsfolgefähigkeit für Programmieraufgaben. |
UNSW usw. | Darwin | Naturwissenschaft | de | LLaMA-7B | das erste Open-Source-LLM für Naturwissenschaften, hauptsächlich in den Bereichen Physik, Chemie und Materialwissenschaften. |
Alibaba | EcomGPT | E-Commerce | en/zh | BLOOMZ | Ein auf Anweisungen abgestimmtes großes Sprachmodell für E-Commerce. |
TIGER-AI-Lab | Mammut | Mathe | de | LLaMA2/CodeLLaMA | eine Reihe von Open-Source-LLMs (Large Language Models), die speziell auf die Lösung allgemeiner mathematischer Probleme zugeschnitten sind. Die MAmmoTH-Modelle werden auf MathInstruct trainiert. ein sorgfältig kuratierter Datensatz zur Befehlsoptimierung, der leichtgewichtig und dennoch verallgemeinerbar ist und aus 13 mathematischen Begründungsdatensätzen zusammengestellt wird. Sechs davon werden von dieser Arbeit neu kuratiert. Sie konzentriert sich in einzigartiger Weise auf die hybride Verwendung von Gedankenketten- (CoT) und Gedankenprogramm- (PoT) Überlegungen. und gewährleistet eine umfassende Abdeckung verschiedener mathematischer Bereiche. |
SJTU | abel | Mathe | de | LLaMA2 | Wir schlagen Parental Oversight * vor, eine Babysitting-Strategie zur überwachten Feinabstimmung. Parental Oversight ist nicht auf eine bestimmte Datenverarbeitungsmethode beschränkt, sondern definiert die Datenverarbeitungsphilosophie, die die überwachte Feinabstimmung im Zeitalter der generativen KI (GAI) leiten sollte. . |
FDU | DISC-LawLLM | legal | zh | Baichuan-13B | FudanDISC hat DISC-LawLLM veröffentlicht, ein chinesisches intelligentes Rechtssystem, das auf einem großen Sprachmodell basiert. Das System kann verschiedene juristische Dienstleistungen für unterschiedliche Benutzergruppen bereitstellen. Darüber hinaus ist DISC-Law-Eval darauf ausgelegt, das große juristische Sprachmodell sowohl unter objektiven als auch unter subjektiven Gesichtspunkten zu bewerten. Das Modell hat offensichtliche Vorteile gegenüber den bestehenden großen Rechtsmodellen. Das Team stellte außerdem einen hochwertigen Supervised Fine-Tuning (SFT)-Datensatz von 300.000, DISC-Law-SFT, zur Verfügung. |
HKU usw. | ChatPsychiater | psychische Gesundheit | de | LLaMA-7B | Dieses Repo ist eine Open-Source-Quelle für das von Instruct abgestimmte LLaMA-7B-Modell, das mit Beratungsdomian-Anweisungsdaten verfeinert wurde. Um unseren 8K-Datensatz zur Befehlsoptimierung zu erstellen, haben wir Beispiele für Beratungsdialoge aus der Praxis gesammelt und GPT-4 als Extraktor und Filter verwendet. Darüber hinaus haben wir einen umfassenden Satz von Metriken eingeführt, die speziell auf den Bereich LLM+Beratung zugeschnitten sind, indem wir Bewertungskriterien für den Bereich Beratung einbeziehen. Diese Metriken ermöglichen die Beurteilung der Leistung bei der Generierung von Sprachinhalten, die mehrdimensionale Beratungskompetenzen beinhalten. |
CAS | Sternenflüstern | astronomisch | zh | - | StarWhisper, ein großes astronomisches Modell, verbessert die Argumentationslogik und Integrität des Modells durch die Feinabstimmung des von Experten beschrifteten astrophysikalischen Korpus erheblich. Logisches Langtexttraining und direkte Präferenzoptimierung erreichten im gemeinsam vom Keguei AI Research Institute und LanguageX AI Lab veröffentlichten CG-Eval den zweiten Platz. knapp unter GPT-4, und sein mathematisches Denken und seine astronomischen Fähigkeiten liegen nahe am oder übertreffen den GPT 3.5 Turbo. |
ZhiPuAI | FinGLM | Finanzen | zh | ChatGLM | Lösungen von SMP2023-ELMFT (The Evaluation of Large Model of Finance Technology). |
PKU usw. | CodeShell | Codegenerierung | en/zh | - | CodeShell ist ein Code-Large-Language-Modell (LLM), das gemeinsam vom Knowledge Computing Lab der Peking-Universität und dem KI-Team der Sichuan Tianfu Bank entwickelt wurde. CodeShell verfügt über 7 Milliarden Parameter. wurde auf 500 Milliarden Token trainiert und hat eine Kontextfensterlänge von 8192. Bei maßgeblichen Code-Evaluierungs-Benchmarks (HumanEval und MBPP) erreicht CodeShell die beste Leistung für Modelle seiner Größenordnung. |
FDU | DISC-FinLLM | Finanzen | zh | Baichuan-13B-Chat | DISC-FinLLM ist ein großes Sprachmodell im Finanzbereich. Es handelt sich um ein intelligentes Multi-Experten-Finanzsystem, das aus vier Modulen für verschiedene Finanzszenarien besteht: Finanzberatung, Finanztextanalyse, Finanzberechnung sowie Abruf von Finanzwissen und Beantwortung von Fragen. |
Tiefseek | Deepseek-Programmierer | Codegenerierung | en/zh | - | Deepseek Coder umfasst eine Reihe von Codesprachenmodellen, die zu 87 % auf Code und zu 13 % auf natürlicher Sprache in Englisch und Chinesisch trainiert wurden, wobei jedes Modell auf 2T-Tokens vorab trainiert wurde. Bei den Codierungsfunktionen erreicht Deepseek Coder eine Spitzenleistung unter Open-Source-Codemodellen in mehreren Programmiersprachen und verschiedenen Benchmarks. |
Microsoft | MathOctopus | Mathe | multi | LLaMA2 | Diese Arbeit leistet Pionierarbeit bei der Erforschung und Entwicklung leistungsstarker Multilingual Math Reasoning (xMR) LLMs. Um dies zu erreichen, erstellen wir die folgenden Arbeiten: 1. MGSM8KInstruct , der erste mehrsprachige Datensatz mit mathematischen Argumentationsanweisungen, der zehn verschiedene Sprachen umfasst und so das Problem der Trainingsdatenknappheit bei xMR-Aufgaben angeht. 2. MSVAMP , ein xMR-Testdatensatz außerhalb der Domäne, um eine umfassendere und umfassendere Bewertung der mehrsprachigen mathematischen Fähigkeiten des Modells durchzuführen. 3. MathOctopus , unsere leistungsstarken LLMs für mehrsprachiges mathematisches Denken, die mit unterschiedlichen Strategien trainieren, die herkömmliche Open-Source-LLMs deutlich übertreffen und in Wenig-Shot-Szenarien eine Überlegenheit gegenüber ChatGPT aufweisen. |
ITREC | Zh-MT-LLM | maritim | en/zh | ChatGLM3-6b | Die Trainingsdaten verwenden die maritimen Domänendaten Zh-mt-sft, die für drei Hauptsegmente organisiert sind, und 30w allgemeine Konversationsdatenmoss-003-sft-data, die speziell CrimeKgAssitant-1.8w, Zh-law-qa und enthalten Zh-Law-Court im Zusammenhang mit maritimen Gesetzen und Vorschriften, Fragen und Antworten, Zh-edu-qa und Zh-edu-qb im Zusammenhang mit maritimer Bildung und Ausbildung, und Zh-mt-qa im Zusammenhang mit Fragen und Antworten zu maritimem Fachwissen. |
@SmartFlowAI | EmoLLM | psychische Gesundheit | zh | - | EmoLLM ist eine Reihe großer Modelle für die psychische Gesundheit, die Benutzer dabei unterstützen können , Benutzer zu verstehen – Benutzer zu unterstützen – Benutzern zu helfen – Links zu Beratungslinks zur psychischen Gesundheit, die anhand von LLM Anweisungen verfeinert werden. |
einige medizinische Modelle: hier
einige Domain-LLMs: Awesome-Domain-LLM
Heilungsmodelle: Awesome-Healthcare-Foundation-Models
Mitwirkender | Modell/Projekt | Sprache | Basismodell | Hauptmerkmal |
---|---|---|---|---|
Stanford | Alpaka | de | LLaMA/OPT | Verwenden Sie 52K-Anweisungsfolgedaten, die durch Self-Instructt-Techniken generiert wurden, um 7B LLaMA zu optimieren. Das resultierende Modell, Alpaca, verhält sich ähnlich wie das text-davinci-003 -Modell in der Evaluierungssuite Self-Instruct zur Anweisungsbefolgung.Alpaka hat viele Folgemodelle inspiriert. |
LianJiaTech | BELLE | en/zh | BLOOMZ-7B1-mt | vielleicht das erste chinesische Modell, das Alpaca folgt. |
DO | ChatGLM-6B | en/zh | - | bekanntes chinesisches Modell. |
Datenbausteine | Dolly | de | GPT-J 6B | Verwenden Sie Alpaka-Daten, um ein zwei Jahre altes Modell zu optimieren: GPT-J, das eine überraschend hohe Qualität aufweist Verhalten bei der Befolgung von Anweisungen, das für das zugrunde liegende Modell nicht charakteristisch ist. |
@tloen | Alpaka-LoRA | de | LLaMA-7B | innerhalb weniger Stunden auf einer einzelnen RTX 4090 trainiert, Reproduzieren der Stanford Alpaca-Ergebnisse mithilfe der Low-Rank-Adaption (LoRA), und kann auf einem Raspberry Pi laufen. |
Kolossale KI | Nasenbär7B | en/zh | LLaMA-7B | ein großes Sprachmodell, das vom ColossalChat-Projekt entwickelt wurde |
Shanghai AI Lab | LLaMA-Adapter | de | LLaMA-7B | Feinabstimmung von LLaMA, um Anweisungen innerhalb von 1 Stunde und 1,2 Mio. Parametern zu befolgen |
Ätherkortex | Lama-X | de | LAMA | Offene akademische Forschung zur Verbesserung von LLaMA zu SOTA LLM. |
ZusammenComputer | OpenChatKit | de | GPT-NeoX-20B | OpenChatKit bietet eine leistungsstarke Open-Source-Basis zur Erstellung sowohl spezialisierter als auch allgemeiner Chatbots für verschiedene Anwendungen. Das Kit umfasst ein auf Anweisungen abgestimmtes Sprachmodell, ein Moderationsmodell und ein erweiterbares Abrufsystem zum Einbinden Aktuelle Antworten aus benutzerdefinierten Repositorys. |
nomic-ai | GPT4All | de | LAMA | geschult auf einer riesigen Sammlung sauberer Assistentendaten, einschließlich Code, Geschichten und Dialogen |
@ymcui | Chinesisches LLaMA-Alpaka | en/zh | LLaMA-7B/13B | Erweitern Sie den chinesischen Wortschatz basierend auf dem ursprünglichen LLaMA und verwenden Sie chinesische Daten für das sekundäre Vortraining. das grundlegende semantische Verständnis der chinesischen Sprache weiter verbessern. Darüber hinaus nutzt das Projekt chinesische Unterrichtsdaten zur Feinabstimmung auf Basis des chinesischen LLaMA, wodurch das Verständnis und die Ausführung von Anweisungen des Modells deutlich verbessert werden. |
UC Berkley Stanford CMU | Vicuna | de | LLaMA-13B | Beeindruckendes GPT-4 mit 90 % ChatGPT-Qualität. |
UCSD/SYSU | Fries | en/zh | LAMA | Feinabstimmung mit LoRA. Es verwendet 100.000 Dialoge, die durch das Chatten von ChatGPT mit sich selbst generiert werden. Die Daten des Alpakas werden auch zur Verbesserung seiner Leistung genutzt. |
UC Berkley | Koala | de | LAMA | Anstatt die Menge durch das Scrapen möglichst vieler Webdaten zu maximieren, konzentriert sich das Team auf das Sammeln eines kleinen , qualitativ hochwertigen Datensatzes. |
@imClumsyPanda | langchain-ChatGLM | en/zh | ChatGLM-6B | lokales wissensbasiertes ChatGLM mit Langchain. |
@yangjianxin1 | Glühwürmchen | zh | blühen-1b4-zh blühen-2b6-zh | Anweisungsoptimierung für den chinesischen Datensatz. Bereinigen des Wortschatzes, ZeRO und Tensorparallelität werden verwendet, um den Speicherverbrauch effektiv zu reduzieren und die Trainingseffizienz zu verbessern. |
Microsoft | GPT-4-LLM | en/zh | LAMA | zielt darauf ab, von GPT-4 generierte Daten für den Aufbau eines lehrfolgenden LLMs mit überwachtem Lernen und verstärkendem Lernen zu teilen. |
Umarmendes Gesicht | StackLLaMA | de | LAMA | auf StackExchange-Daten geschult und das Hauptziel besteht darin, als Tutorial und Komplettlösung zu dienen wie man ein Modell mit RLHF trainiert und nicht in erster Linie die Modellleistung. |
Nebuly | ChatLLaMA | de | - | Eine Bibliothek, die es Ihnen ermöglicht, hyperpersonalisierte ChatGPT-ähnliche Assistenten mit Ihren eigenen Daten und möglichst wenig Rechenaufwand zu erstellen. |
@juncongmoo | ChatLLaMA | de | LAMA | LLaMA-basiertes RLHF-Modell, lauffähig auf einer einzigen GPU. |
@juncongmoo | minichatgpt | de | GPT/OPT... | So trainieren Sie ChatGPT in 5 Minuten mit ColossalAI. |
@LC1332 | Luotuo-Chinese-LLM | zh | LLaMA/ChatGLM | Anleitung zu fein abgestimmten chinesischen Sprachmodellen, mit Colab im Lieferumfang enthalten! |
@Facico | Chinesisch-Vikunja | zh | LAMA | Ein auf chinesischen Anweisungen basierendes LLaMA-basiertes Modell, fein abgestimmt mit Lora, CPP-Inferenz unterstützt, Colab bereitgestellt. |
@yanqiangmiffy | InstructGLM | en/zh | ChatGLM-6B | Das auf ChatGLM basierende Anweisungsfolgemodell, das auf eine Vielzahl von Datenquellen abgestimmt ist, unterstützt Deepspeed-Beschleunigung und LoRA. |
Alibaba | Wombat | de | LAMA | Als Alternative zu RLHF wird ein neuartiges Lernparadigma namens RRHF vorgeschlagen, das die von generierten Antworten bewertet verschiedene Sampling-Richtlinien und lernt, diese durch Ranking-Verluste und die Leistung an menschliche Vorlieben anzupassen ist vergleichbar mit RLHF, wobei im Prozess weniger Modelle verwendet werden. |
@WuJunde | Alpaka-Glasoff | de | LAMA | Eine kleine, bildkompatible Chat-KI, die auf Stanford-Alpaca und Alpaca-Lora basiert und auf Ihrem Laptop ausgeführt werden kann. |
@JosephusCheung | Guanako | multi | LLaMA-7B | Ein mehrsprachiges, anweisungenfolgendes Sprachmodell. |
@FreedomIntelligence | LLM-Zoo | multi | BLOOMZ/LLaMA | ein Projekt, das Daten, Modelle und Bewertungsbenchmarks für große Sprachmodelle bereitstellt. Modell veröffentlicht: Phoenix, Chimera |
SZU | Linly | en/zh | LAMA | Erweiterung des chinesischen Wortschatzes , vollständig abgestimmte Modelle, größte LLaMA-basierte chinesische Modelle, Aggregation chinesischer Unterrichtsdaten, reproduzierbare Details. |
@lamini-ai | lamini | multi | - | Datengenerator zum Generieren von Anweisungen zum Trainieren von anweisungenfolgenden LLMs. |
Stabilitäts-KI | StabilVicuna | de | LAMA | eine weiter verfeinerte und RLHF-trainierte Version von Vicuna v0 13b mit besserer Leistung als Vicuna. |
Umarmendes Gesicht | HuggingChat | de | LAMA | scheint die erste verfügbare Plattform zu sein, die ChatGPT ähnelt. |
Microsoft | WizardLM | de | LAMA | Evol-Instruct wurde mit 70.000 weiterentwickelten Anweisungen trainiert und ist eine neuartige Methode, bei der LLMs anstelle von Menschen zur automatischen Massenproduktion eingesetzt werden Open-Domain-Anweisungen mit verschiedenen Schwierigkeitsgraden und Kompetenzbereichen, um die Leistung von LLMs zu verbessern. |
FDU | OpenChineseLLaMA | en/zh | LLaMA-7B | Weiteres Vortraining von LLaMA anhand chinesischer Daten, wodurch die LLaMA-Leistung bei chinesischen Aufgaben verbessert wird. |
@chenfeng357 | open-Chinese-ChatLLaMA | en/zh | LAMA | Der vollständige Trainingscode des Open-Source-Chinesisch-Lama-Modells, einschließlich des gesamten Prozesses von der Schulung vor dem Training bis hin zu RLHF. |
@FSoft-AI4Code | CodeCapybara | de | LAMA | Open-Source-LLaMA-Modell, das der Befehlsoptimierung für die Codegenerierung folgt. |
@mbzuai-nlp | LaMini-LM | de | LLaMA/Flan-T5... | Eine vielfältige Herde destillierter Modelle aus großformatigen Anleitungen. |
NTU | Panda | en/zh | LAMA | Weiteres Vortraining zu chinesischen Daten, vollständige LLaMA-Modelle. |
IBM/CMU/MIT | Dromedar | de | LLaMA-65B | Prinzipgesteuerte Selbstausrichtung von Sprachmodellen von Grund auf mit minimaler menschlicher Aufsicht. |
@melodysdreamj | WizardVicunaLM | multi | Vicuna | Wizard-Datensatz + ChatGPT-Konversationserweiterung + Vicunas Optimierungsmethode, eine Leistungssteigerung von ca. 7 % gegenüber Vicuna erzielt. |
Sambanovasystems | BLOOMChat | multi | BLÜHEN | BLOOMChat ist ein mehrsprachiges Chat-Modell mit 176 Milliarden Parametern. Es basiert auf Anweisungen, die auf BLOOM (176B) abgestimmt sind Konversationsdatensätze im Assistentenstil und unterstützt Konversation, Beantwortung von Fragen und generative Antworten in mehreren Sprachen. |
TII | Falcon-7B-Instruktion | de | Falcon-7B | ein 7B-Parameter-Kausal-Decoder-Modell, das von TII auf Basis von Falcon-7B erstellt und auf einer Mischung aus Chat-/Anweisungsdatensätzen verfeinert wurde. |
TII | Falcon-40B-Instruktion | multi | Falcon-40B | ein reines Kausal-Decoder-Modell mit 40B-Parametern, das von TII auf Basis von Falcon-40B gebaut und auf einer Mischung aus Baize verfeinert wurde. |
USTC usw. | ExpertLLaMA | de | LAMA | Verwenden Sie In-Context Learning, um automatisch eine individuelle Expertenidentität zu erstellen, und finden Sie die Qualität sehr zufriedenstellend. Anschließend stellen wir jeder Anweisung eine entsprechende Expertenidentität voran, um erweiterte Daten zur Anweisungsbefolgung zu erstellen. Wir bezeichnen das Gesamtframework als ExpertPrompting , weitere Details finden Sie in unserem Artikel. |
ZJU | CaMA | en/zh | LAMA | weiter vorab auf Chinesisch trainiert, ohne den Wortschatz zu erweitern; optimiert auf die Aufgaben der Informationsextraktion (IE). Es ist ein Vorschulungsskript verfügbar, das Transformationen, die Erstellung und das Laden großer Korpora sowie das Feinabstimmungsskript für LoRA-Anweisungen umfasst. |
DO | UltraChat | de | LAMA | Erstens bietet der UltraChat-Datensatz eine umfangreiche Ressource für das Training von Chatbots. Zweitens bietet er durch die Feinabstimmung des LLaMA-Modells eine umfassende Grundlage. Den Forschern gelang es, ein Dialogmodell UltraLLaMA mit überlegener Leistung zu entwickeln. |
RUC | YuLan-Chat | en/zh | LAMA | Entwickelt basierend auf der Feinabstimmung von LLaMA mit hochwertigen englischen und chinesischen Anweisungen. |
AI2 | Tulu | de | LLaMA/Pythia/OPT | eine Suite von LLaMa-Modellen, die vollständig auf eine starke Mischung von Datensätzen abgestimmt sind. |
KAIST | SelFee | de | LAMA | Iteratives selbstrevidierendes LLM, unterstützt durch Selbst-Feedback-Generierung. |
@lyogavin | Anima | en/zh | LAMA | trainiert basierend auf QLoRAs33B Guanaco, fein abgestimmt für 10000 Schritte. |
DO | ChatGLM2-6B | en/zh | - | ChatGLM 2 -6B ist die zweite Generation des zweisprachigen Open-Source-Chatmodells ChatGLM-6B (Chinesisch-Englisch). Es behält den reibungslosen Gesprächsfluss und die niedrige Bereitstellungsschwelle des Modells der ersten Generation bei und führt gleichzeitig die folgenden neuen Funktionen ein: -Stärkere Leistung - Längerer Kontext - Effizientere Inferenz - Offenere Lizenz |
OpenChat | OpenChat | de | LLaMA usw. | eine Reihe von Open-Source-Sprachmodellen, die auf einem kleinen, aber dennoch vielfältigen und qualitativ hochwertigen Datensatz von mehrrundigen Gesprächen verfeinert wurden. Insbesondere verwenden wir nur ca. 6.000 GPT-4-Konversationen, die direkt aus den ca. 90.000 ShareGPT-Konversationen gefiltert werden. Trotz der geringen Größe des Datensatzes hat OpenLLMs eine bemerkenswerte Leistung gezeigt. |
CAS | BayLing | multi | LAMA | BayLing ist ein LLM für Englisch/Chinesisch, das mit einer erweiterten Sprachausrichtung ausgestattet ist. zeigt überlegene Fähigkeiten in der Englisch-/Chinesisch-Generierung, der Befolgung von Anweisungen und der Multi-Turn-Interaktion. |
Stabilitätai | FreeWilly/FreeWilly2 | de | LLaMA/LLaMA2 | FreeWilly ist ein Llama65B-Modell, das auf einen Datensatz im Orca-Stil abgestimmt ist.FreeWilly2 ist ein Llama2 70B-Modell, das auf einen Datensatz im Orca-Stil abgestimmt ist.FreeWilly2 übertrifft Llama2 70B in der Huggingface Open LLM-Rangliste. |
Alibaba | Qwen-7B | en/zh | - | 7B-Parameter-Version der großen Sprachmodellreihe Qwen (Abk. Tongyi Qianwen), vorgeschlagen von Alibaba Cloud. |
ZJU | KnowLM | en/zh | LAMA | Mit der rasanten Entwicklung der Deep-Learning-Technologie haben große Sprachmodelle wie ChatGPT erhebliche Fortschritte im Bereich der Verarbeitung natürlicher Sprache gemacht. Allerdings stoßen diese expansiven Modelle immer noch auf einige Herausforderungen beim Erwerb und Verständnis von Wissen, einschließlich der Schwierigkeit, Wissen und potenzielles Wissen zu aktualisieren Diskrepanzen und Vorurteile, zusammenfassend als Wissensirrtümer bekannt. Das KnowLM-Projekt versucht, diese Probleme anzugehen, indem es ein Open-Source-Framework für kenntnisreiche Sprachmodelle in großem Maßstab einführt und entsprechende Modelle veröffentlicht. |
NEU | TechGPT | en/zh | LAMA | TechGPT stärkt hauptsächlich die folgenden drei Arten von Aufgaben: - Verschiedene Informationsextraktionsaufgaben wie die Beziehungstriplett-Extraktion mit der „Wissensgraphenkonstruktion“ als Kern - Verschiedene intelligente Frage-und-Antwort-Aufgaben rund um das Thema „Leseverstehen“. - Verschiedene Aufgaben zur Sequenzgenerierung wie z. B. Schlüsselwortgenerierung mit „Textverständnis“ als Kern. |
@MiuLab | Taiwan-LLaMa | en/zh | LLaMA2 | Traditionelle chinesische LLMs für Taiwan. |
Xwin-LM | Xwin-LM | de | LLaMA2 | Ziel von Xwin-LM ist die Entwicklung und Open-Source-Ausrichtungstechnologien für große Sprachmodelle, einschließlich Supervised Fine-Tuning (SFT), Belohnungsmodelle (RM), Reject Sampling, Reinforcement Learning from Human Feedback (RLHF) usw. Unsere erste Veröffentlichung, die auf dem aufbaut Llama2-Basismodelle, auf Platz TOP-1 bei AlpacaEval. Bemerkenswert ist, dass es das erste ist, das GPT-4 in diesem Benchmark übertrifft . |
Wenge-Forschung | Yayi | en/zh | LLaMA/LLaMA2 | YaYi wurde anhand von Millionen künstlich erstellter, hochwertiger Domänendaten verfeinert. Diese Trainingsdaten decken fünf Schlüsselbereiche ab: Medienwerbung, Analyse der öffentlichen Meinung, öffentliche Sicherheit, Kontrolle finanzieller Risiken und Stadtverwaltung, die über hundert Unterrichtsaufgaben in natürlicher Sprache umfassen. |
Umarmendes Gesicht | Zephyr | de | Mistral | Zephyr ist eine Reihe von Sprachmodellen, die darauf trainiert sind, als hilfreiche Assistenten zu fungieren. Zephyr-7B-α ist das erste Modell der Reihe und eine verfeinerte Version von mistralai/Mistral-7B-v0.1, das anhand einer Mischung aus öffentlich verfügbaren, synthetischen Datensätzen unter Verwendung der Direct Preference Optimization (DPO) trainiert wurde. |
Zusammenhängen | Befehl-R / Befehl R+ | multi | - | Command-R verfügt über die Fähigkeit zur mehrsprachigen Generierung, die in 10 Sprachen ausgewertet wird, und über hochleistungsfähige RAG-Funktionen. |
XAI | grok | de | - | 314B MoE; Kontextlänge: 8192 |
Datensteine | dbrx-instruct | - | - | eine feinkörnige Expertenmix-Architektur (MoE) mit insgesamt 132B Parametern, von denen 36B Parameter bei jeder Eingabe aktiv sind. Sie wurde im Vergleich zu anderen offenen MoE-Modellen auf 12T-Tokens aus Text- und Codedaten vorab trainiert. 8x7B und Grok-1, DBRX ist feinkörnig, was bedeutet, dass es eine größere Anzahl kleinerer Experten verwendet, 16 Experten hat und 4 auswählt Mixtral-8x7B und Grok-1 haben 8 Experten und wählen 2. |
Mitwirkender | Modell/Methode | Hauptmerkmal | Hauptmerkmal |
---|---|---|---|
FuseAI | FuseChat | Zunächst wird eine paarweise Wissensfusion für Quell-LLMs durchgeführt, um durch leichte Feinabstimmung mehrere Ziel-LLMs mit identischer Struktur und Größe abzuleiten. Anschließend werden diese Ziel-LLMs innerhalb des Parameterraums zusammengeführt, wobei wir eine neuartige Methode VaRM zur Bestimmung der Zusammenführungsgewichte vorschlagen basierend auf dem Variationsverhältnis von Parametermatrizen vor und nach der Feinabstimmung. | Eine Fusion aus drei bekannten Chat-LLMs mit unterschiedlichen Architekturen und Skalen, nämlich NH2-Mixtral-8x7B, NH2-Solar-10.7B und OpenChat-3.5-7B, erreicht eine durchschnittliche Leistung von 8,22 auf MT-Bench und übertrifft damit verschiedene leistungsstarke Chat-LLMs im Maßstab 7B und 34B wie Starling-7B und Yi-34B-Chat übertrifft sogar GPT-3.5 (März), Claude-2.1 und nähert sich Mixtral-8x7B-Instruct. |
arcee-ai | Mergekit | Tools zum Zusammenführen vorab trainierter großer Sprachmodelle. | |
SakanaAI | EvoLLM | Evolutionäre Optimierung von Modellzusammenführungsrezepten. |
(Vielleicht Nachfolger?)
Mitwirkender | Verfahren | Hauptmerkmal |
---|---|---|
BlinkDL | RWKV-LM | RWKV ist ein RNN mit LLM-Leistung auf Transformatorebene. So kombiniert es das Beste von RNN und Transformer - großartige Leistung, schnelle Inferenz, speichert VRAM, schnelles Training, "Infinite" CTX_LEN und freie Satzeinbettung. |
MSRA | Retnet | Gleichzeitig das Trainingsparallelismus, kostengünstige Inferenz und eine gute Leistung. Anschließend schlagen wir den Retentionsmechanismus für die Sequenzmodellierung vor, der drei Berechnungsparadigmen unterstützt, dh parallel, wiederkehrend und rezidivierend. Insbesondere ermöglicht die parallele Darstellung eine Schulung der Parallelität . Latenz und GPU-Gedächtnis ohne die Leistung des klopfenden rezidivierenden Repräsentation erleichtert eine effiziente Langzeitmodellierung mit linearer Komplexität, wobei jeder Chunk parallelly codiert wird, während sie die Stücke wieder zusammenfassen. Parallele Schulung, kostengünstige Bereitstellung und effiziente Schlussfolgerung. |
Stanford | Bapcpack | Abackpack ist ein Drop-In-Ersatz für einen Transformator, der neue Tools für die Dolmetscherdurchgang bietet und gleichzeitig starke Sprachmodelle ermöglicht. Rucksäcke zersetzen die prädiktive Bedeutung von Wörtern nicht kontextuell in Komponenten und aggregieren sie mit einer gewichteten Summe, wodurch präzise, vorhersehbare Interventionen ermöglicht werden. |
Stanford usw. | Monarchmischer (M2) | Die Grundidee besteht darin, die Hauptelemente eines Transformators durch Monarchmatrizen zu ersetzen-eine Klasse strukturierter Matrizen, die die FFT verallgemeinern und subquadratisch sind, Hardwareeffizient und ausdrucksstark. |
CMU usw. | Mamba | Mamba ist eine neue Architektur des Zustandsraummodells, die eine vielversprechende Leistung für Informationsdichte wie die Sprachmodellierung zeigt, bei denen frühere subquadratische Modelle nicht auf Transformatoren zurückzuführen sind. und Implementierung im Geiste der Flashattention. |
Zusammencomputer | Stripedhyena | StripedHyena ist das erste alternative Modell, das mit den besten Open-Source-Transformatoren ähnlicher Größen in kurzen und langkontextbewerteten Bewertungen wettbewerbsfähig ist . Stripedhyena ist eine hybride Architektur, die sich aus Aufmerksamkeit mit mehreren Köpfen zusammensetzte, und mit Gated-Konvolutionen, die inhyena-Blöcken angeordnet sind, unterscheiden sich von traditionellen Decoder-Transformatoren. 1. Die Dekodierung des kostbaren Speichers in Hyänenblöcken durch Darstellung von Konvolutionen als Zustandsraummodelle (modaler oder kanonischer Form) oder als verkürzte Filter. 2. Niedrige Latenz, schnellere Dekodierung und höherer Durchsatz als Transformatoren. 3.. Verbesserung der Ausbildung und inferenzoptimalen Skalierungsgesetze im Vergleich zu optimierten Transformatorarchitekturen wie LLAMA-2. 4. Ausgebildet auf Sequenzen von bis zu 32 km, sodass es längere Eingabeaufforderungen bearbeiten kann. |
Microsoft | BGPT | BGPT unterstützt die generative Modellierung über die Vorhersage eines nächsten Byte für alle Datenart und kann jede auf einem Computer ausführbare Aufgaben ausführen, wobei die Fähigkeit zur Simulation aller Aktivitäten innerhalb der digitalen Welt angezeigt wird, wobei das Potenzial nur durch Rechenressourcen und unsere Vorstellungskraft begrenzt ist. |
Deepmind | Griffin-Jax | JAX + Flachs Implementierung von TheGriffin: Mischen von linearen Rezidiven mit lokaler Aufmerksamkeit für effiziente Sprachmodelle, nicht offizieller Code (offizieller Code wird noch nicht veröffentlicht); Die RG-LRU-Schicht, eine neuartige lineare rezidivierende Schicht, um die wir einen neuen wiederkehrenden Block für MQA entwerfen. Hybridmodell, das MLPs mit einer Mischung aus wiederkehrenden Blöcken und der lokalen Aufmerksamkeit verschachtelt Griffin-3b übertrifft Mamba-3b und Griffin-7b und Griffin-14b erzielen mit LLAMA-2 Leistung, obwohl sie auf fast 7-mal weniger Token geschult wurden. |
AI21 | Jamba | Jamba ist die erste Mamba-Implementierung im Produktionsmaßstab. Bis zu 140.000 Token auf einer einzigen 80 -GB -GPU. |
Meta | Megalodon | Megalodon erbt die Architektur von Mega (exponentieller gleitender Durchschnitt mit geschlossener Aufmerksamkeit) und führt ferner mehrere technische Komponenten ein, um seine Fähigkeiten und Stabilität zu verbessern, einschließlich komplexer exponentieller gleitender Durchschnitt (CEMA), Zeitschrittnormalisierungsschicht, normalisierter Aufmerksamkeitsmechanismus und Vornarr mit zwei mit zwei -Hop Restkonfiguration. |
Mitwirkender | Modell/Projekt | Hauptmerkmal |
---|---|---|
Mistralai | MIXTRAL-8X7B | Das Mixtral-8x7b große Sprachmodell (LLM) ist eine vorbereitete generative spärliche Mischung aus Experten. |
Shanghai AI Lab, etc. | Lama-Moe | Ein kleines und erschwingliches MOE -Modell, das auf Lama und Slimpajama basiert. |
Nus usw. | Openmoe | Eine Familie von Open-Sourced-Mischung aus Experten (MOE) Großsprachige Modelle. |
Schneeflocke | Arktis | Arctic verwendet eine einzigartige Architektur mit dichtem MOE-Hybrid-Transformator. |
Mitwirkender | Projekt | Sprache | Basismodell | Hauptmerkmal |
---|---|---|---|---|
Baihaiaien | Idpchat | en/zh | LAMA-13B Stabile Verbreitung | Offenes chinesisches multimodales Modell, einzelne GPU-Runnable, einfach zu bereitgestellt, von der Benutzeroberfläche bereitgestellt. |
KAUST | MiniGPT-4 | en/zh | LAMA | Minigpt-4 richtet einen gefrorenen visuellen Encoder aus BLIP-2 mit einem gefrorenen LLM, Vicuna mit nur einer Projektionsschicht, aus. und ergibt viele aufstrebende Visionsprachenfunktionen, die denen ähneln, die in GPT-4 gezeigt wurden. |
MSR usw. | Llava | de | LAMA | Die visuelle Unterrichtsabstimmung wird vorgeschlagen, um große Sprach- und Vision-Modelle mit GPT-4-Funktionen aufzubauen. |
Nus/Thu | Vpgtrans | de | Lama/opt/ Flan-T5/Blip-2 ... | Übertragen von VPG über LLMs zum Erstellen von VL-LlMs zu erheblichen Kosten kann über 10 Mal reduziert werden und die Trainingsdaten können auf rund 10%reduziert werden. Zwei neuartige VL-LLMs werden über VPGTrans veröffentlicht, darunter VL-Llama und VL-VICUNA . VL-Llama ist eine multimodale Version Lama, indem die Blip-2 Opt-6.7b über VPGTRANS auf Lama übertragen wird. VL-VICUNA ist ein GPT-4-ähnlicher multimodaler Chatbot, der auf der Vicuna LLM basiert. |
CAS usw. | X-llm | en/zh | ChatGLM-6B | X-LlM wandelt Multimodalitäten (Bilder, Sprache, Videos) mit X2L-Schnittstellen in Fremdsprachen um und füttert sie in Ein großes Sprachmodell (CHATGLM), das ein multimodales LLM erreicht hat und beeindruckende multimodale Chat -Funktionen erzielt. |
NTU | Otter | de | OpenFlamingo | Ein multimodales Modell basierend auf OpenFlamingo (Open-Sourced-Version von DeepMinds Flamingo), Ausgebildet auf Mimic-It und Präsentation einer verbesserten Fähigkeit zum Anweisungsverfolgung und im Kontextlernen. Futhermore, optimieren Sie die Umsetzung von OpenFlamingo, demokratisieren Sie die erforderlichen Schulungsressourcen von 1x A100 GPU bis 4x RTX-3090 GPU. |
Xmu | Lavin | de | LAMA | Schlagen Sie eine neuartige und erschwingliche Lösung für die Sehstörungsstimmung vor, nämlich die Anpassung der MIMA (MIMA-of-Modality "(MMA). Insbesondere ist MMA ein End-to-End-Optimierungsregime, das den Bildcodierer und LLM über leichte Adapter verbindet. In der Zwischenzeit schlagen wir auch einen neuartigen Routing -Algorithmus in MMA vor, der dem Modell helfen kann, die Argumentationspfade automatisch zu verschieben Für Einzel- und Multimodalanweisungen. |
USTC | Specht | - | - | Die erste Arbeit zur Korrektur der Halluzination in multimodalen Großsprachenmodellen. |
hpcaitech | Open-Sora | - | - | Open Source Alternative zu Openai Sora. |
Siehe auch: Awesome-Multimodal-Large-Sprach-Modelle
Mitwirkender | Daten/Projekt | Sprache | Hauptmerkmal |
---|---|---|---|
Zusammencomputer | Redpajama-data | de | Ein Open -Source -Rezept zur Reproduktion von Lama -Trainingsdatensatz. |
@Goldschmied | Wikipedia | multi | Eine pythonische Verpackung für die Wikipedia -API. |
Siehe Alpaca-Cot-Datenerfassung
Mitwirkender | Daten | Sprache | Hauptmerkmal |
---|---|---|---|
Vertriebsmitarbeiter | Dialogstudio | de | Dialogstudio: Auf dem reichsten und vielfältigsten einheitlichsten Datensatz- und Anweisungsmodelle für die Konversations-KI. |
Mitwirkender | Verfahren | Hauptmerkmal |
---|---|---|
UW usw. | Selbststruktur | Verwenden der eigenen Generationen des Modells, um eine große Sammlung von Anleitungsdaten zu erstellen. |
@Liuhc0428 | Zuverlässige Selbstversorgungsstruktur | Verwenden Sie ChatGPT, um einige Fragen und Antworten basierend auf einem bestimmten Text zu generieren. |
PKU | Evol-Instruct | Eine neuartige Methode, vorgeschlagener InwizardLM, durch Verwendung von LLMs anstelle von Menschen, um die Open-Domain automatisch Massenproduktion zu produzieren Anweisungen zu verschiedenen Schwierigkeiten und Qualifikationsreichtum, um die Leistung von LLMs zu verbessern. |
KAUST usw. | KAMEL | Es wird ein neuartiges Kommunikationsbeamter Framework mit dem Namen Rollenspiel vorgeschlagen, bei dem die Aufforderung zur Anleitung von Chat-Agenten verwendet wird Um die Aufgabe abzuschließen und gleichzeitig die Konsistenz mit menschlichen Absichten aufrechtzuerhalten. Rollenspiel kann verwendet werden, um Konversationsdaten in einer bestimmten Aufgabe/Domäne zu generieren. |
@chatarena | Chatarena | Eine Bibliothek, die mehrstöckige Sprachspielumgebungen bietet und die Erforschung autonomer LLM-Agenten und deren soziale Interaktionen erleichtert. Es bietet einen flexiblen Rahmen, um mehrere Spieler, Umgebungen und die Interaktionen zwischen ihnen zu definieren, basierend auf dem Markov -Entscheidungsprozess. |
Mitwirkender | Verfahren | Hauptmerkmal |
---|---|---|
- | menschliche Bewertung | - |
OpenAI | GPT-4/CHATGPT | - |
PKU/CMU/MSRA ... | Pandalm | Reproduzierbare und automatisierte Sprachmodellbewertung. |
UCB | Chatbot Arena | Chatten Sie mit zwei anonymen Models nebeneinander und stimmen, für die man besser ist, Verwenden Sie dann das ELO -Bewertungssystem, um die relative Leistung der Modelle zu berechnen. |
Stanford | AlpakaEval | GPT-4/Claude Evaluation Onalpacafarm-Datensatz. |
Clueai | Supercluelyb | Chinesische Version Ofchatbot Arena entwickelt von ClueAA. |
Sjtu usw. | Auto-J | Ein neuer generativer Open-Source-Richter, der verschiedene LLMs effektiv bewerten kann, wie sie sich mit menschlichen Präferenz übereinstimmen. |
CMU | Codebertscore | Eine automatische Metrik für die Codegenerierung, basierend auf Bertscore. Als Bertscore nutzt Codebertscore die vorgeborenen kontextuellen Einbettungen eines Modells wie Codebert und entspricht den Wörtern in Kandidaten- und Referenzsätzen durch Cosinus-Ähnlichkeit. Anders als Bertscore codiert CodeBertscore zusammen mit dem generierten Code auch natürliche Spracheingaben oder einen anderen Kontext, verwendet diesen Kontext jedoch nicht, um Kosinus -Ähnlichkeiten zu berechnen. |
Aktueller Status der Bewertung des großen Modells inländischer Modell
Mitwirkender | Maßstab | Hauptmerkmal |
---|---|---|
Princeton | SWE-Bank | Ein Benchmark für die Bewertung von großen Sprachmodellen in Problemen mit realer Welt, die von GitHub gesammelt wurden. Ein Sprachmodell wird beauftragt, einen Patch zu generieren, der das beschriebene Problem auflöst. |
Microsoft | AGIEval | Ein menschlich-zentrierter Benchmark, der speziell zur Bewertung der allgemeinen Fähigkeiten von Fundamentmodellen in Aufgaben bewertet wurde, die für die menschliche Wahrnehmung und die Problemlösung relevant sind. |
Clueai | Superclue-Agent | Benchmark zur Bewertung der Agenten basierend auf chinesischen nativen Aufgaben. |
Bytedance | GPT-Fathom | GPT-Fathom ist eine Open-Source- und reproduzierbare LLM-Evaluierungssuite, die 10+ führende LLMs von Open-Source- und Closed-Source-LLMs sowie die früheren Modelle von OpenAI unter über 20 kuratierten Benchmarks unter ausgerichteten Einstellungen sowie OpenA-Modelle. |
OpenCompass, Umarmung
Mitwirkender | Projekt | Hauptmerkmal |
---|---|---|
CAS | Alpaka-Cot | Erweitern Sie die COT -Daten auf Alpaka, um seine Argumentationsfähigkeit zu steigern. Ziel ist es, eine FET -Plattform (Anleitungsfonetuning) mit umfangreicher Anweisungssammlung (insbesondere die COT -Datensätze) zu erstellen. und eine einheitliche Schnittstelle für verschiedene Großsprachenmodelle. |
@hiyouga | Chatglm-effizientes Abtuning | Effizienter feinabstimmiger Chatglm-6b mit PEFT. |
@hiyouga | Lama-effiziente Einstellung | Feinabstimmungslama mit PEFT (PT+SFT+RLHF mit Qlora). |
@jianezhnie | Effiziente Tuning-LLLMs | Effiziente Finetuning von Qlora LLMs. |
Kolossalai | Kolossalchat | Eine Open-Source-kostengünstige Lösung für Cloningchatgpt mit einer vollständigen RLHF-Pipeline. |
Microsoft | Deepspeed-Chat | Einfach, schnelles und erschwingliches RLHF-Training von Chatgpt-ähnlichen Modellen auf allen Skalen. |
Laion-ai | Offener Assistent | Ein Projekt, das allen Zugriff auf ein großartiges Chat -basierte Großsprachmodell ermöglichen soll. |
Hkust | Lmflow | Eine erweiterbare, bequeme und effiziente Toolbox für Funkunen mit großem maschinellem Lernen, Modelle, Entwickelt, um benutzerfreundlich, schnell und zuverlässig und ACC Expandieren
Zusätzliche Informationen
Ähnliche Anwendungen
Empfohlen für Sie
Ähnliche Nachrichten
Alle
|