2017年 | トランス | 必要なのは注意力だけです | 当初の研究の焦点は翻訳タスクでした。 | TensorFlow + 記事 |
2018年 | GPT | 生成的事前トレーニングによる言語理解の向上 | 最初の事前トレーニング済み Transformer モデル。さまざまな NLP タスクの微調整に使用され、最先端の結果が得られました。 | |
2018年 | バート | BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング | もう 1 つの大規模な事前トレーニング済みモデル。これは、文のより適切な要約を生成するように設計されています。 | パイトーチ |
2019年 | GPT-2 | 言語モデルは教師なしのマルチタスク学習者です | 倫理上の懸念からすぐには公開されなかった、GPT の改良された (そしてより大きな) バージョン | |
2019年 | DitilBERT - 蒸留された BERT | BERT の蒸留バージョンである DistilBERT: より小さく、より速く、より安く、そしてより軽く | BERT の精製バージョン。60% 高速化され、メモリが 40% 軽くなり、BERT のパフォーマンスの 97% を維持します。 | |
2019年 | バート | BART: 自然言語の生成、翻訳、理解のためのシーケンス間の事前トレーニングのノイズ除去 | オリジナルの Transformer モデルと同じアーキテクチャを使用した大規模な事前トレーニング済みモデル。 | |
2019年 | T5 | 統合された Text-to-Text Transformer を使用して転移学習の限界を探る | オリジナルの Transformer モデルと同じアーキテクチャを使用した大規模な事前トレーニング済みモデル。 | |
2019年 | アルバート | ALBERT: 言語表現の自己教師あり学習のための Lite BERT | | |
2019年 | RoBERTa - 堅牢に最適化された BERT 事前トレーニング アプローチ | RoBERTa: 堅牢に最適化された BERT 事前トレーニング アプローチ | | |
2019年 | CTRL | CTRL: 制御可能な生成のための条件付きトランスフォーマー言語モデル | | |
2019年 | トランスフォーマーXL | Transformer-XL: 固定長コンテキストを超えた丁寧な言語モデル | 過去の状態に対する反復手法を採用し、相対位置エンコーディングと組み合わせて長期的な依存関係を可能にします。 | |
2019年 | ディアブロ GPT | DialoGPT: 会話応答生成のための大規模な生成事前トレーニング | 2005 年から 2017 年にわたる Reddit のコメント チェーンから抽出された 1 億 4,700 万の会話のようなやりとりをもとにトレーニングされました | パイトーチ |
2019年 | アーニー | ERNIE: 情報エンティティによる言語表現の強化 | この論文では、大規模なテキスト コーパスと KG の両方を利用して、語彙、構文、知識情報を同時に最大限に活用できる拡張言語表現モデル (ERNIE) をトレーニングします。 | |
2020年 | GPT-3 | 言語モデルは少数の学習者である | GPT-2 のさらに大きなバージョンで、微調整 (ゼロショット学習と呼ばれる) を必要とせずにさまざまなタスクで適切に実行できます。 | |
2020年 | エレクトラ | ELECTRA: テキストエンコーダーをジェネレーターではなくディスクリミネーターとして事前トレーニング | | |
2020年 | mBART | ニューラル機械翻訳の多言語ノイズ除去事前トレーニング | | |
2021年 | CLIP (対照言語イメージ事前トレーニング) | 自然言語監視から転送可能な視覚モデルを学習する | CLIP は、さまざまな (画像、テキスト) ペアでトレーニングされたニューラル ネットワークです。 GPT-2 および 3 のゼロショット機能と同様に、タスクに直接最適化することなく、画像が与えられた場合に最も関連性の高いテキスト スニペットを予測するように自然言語で指示できます。 | パイトーチ |
2021年 | ダルイー | ゼロショットのテキストから画像への生成 | | パイトーチ |
2021年 | ホリネズミ | 言語モデルのスケーリング: Gopher のトレーニングからの方法、分析、および洞察 | | |
2021年 | 意思決定トランスフォーマー | Decision Transformer: シーケンス モデリングによる強化学習 | RL の問題を条件付きシーケンス モデリングとしてキャストするアーキテクチャ。 | パイトーチ |
2021年 | GLam (ジェネラリスト言語モデル) | GLaM: 専門家の混合による言語モデルの効率的なスケーリング | この論文では、GLaM (ジェネラリスト言語モデル) という名前の言語モデル ファミリを提案および開発します。このモデルは、まばらにアクティブ化された専門家の混合アーキテクチャを使用して、モデルの容量を拡張しながら、密なバリアントと比較してトレーニング コストを大幅に削減します。 | |
2022年 | chatGPT/InstructGPT | 人間のフィードバックによる指示に従うように言語モデルをトレーニングする | このトレーニングされた言語モデルは、GPT-3 よりもユーザーの意図に従うのがはるかに優れています。このモデルは、ヒューマン フィードバックによる強化学習 (RLHF) を使用して最適化 (微調整) され、会話型の対話が実現されます。このモデルは、人間のような応答を実現するために人間によって書かれたさまざまなデータを使用してトレーニングされました。 | :-: |
2022年 | チンチラ | コンピューティングに最適な大規模言語モデルのトレーニング | Gopher と同じコンピューティング バジェットを使用しますが、70B のパラメーターと 4 倍のデータを使用します。 | :-: |
2022年 | LaMDA - ダイアログ アプリケーションの言語モデル | ラMDA | ダイアログに特化した Transformer ベースのニューラル言語モデルのファミリーです。 | |
2022年 | DQ-BART | DQ-BART: 結合蒸留と量子化による効率的なシーケンスツーシーケンス モデル | モデルの抽出と量子化を共同で行うことを提案します。この場合、知識が完全精度の教師モデルから量子化および抽出された低精度の生徒モデルに転送されます。 | |
2022年 | フラミンゴ | Flamingo: 少数ショット学習のための視覚言語モデル | 少数の注釈付きサンプルのみを使用して、新しいタスクに迅速に適応できるモデルを構築することは、マルチモーダル機械学習研究にとって未解決の課題です。この機能を備えた Visual Language Model (VLM) ファミリーである Flamingo を紹介します。 | |
2022年 | ガトー | ゼネラリストエージェント | 大規模な言語モデリングの進歩に触発され、テキスト出力の領域を超えた単一のジェネラリスト エージェントの構築に同様のアプローチを適用します。 Gato と呼ばれるこのエージェントは、マルチモーダル、マルチタスク、マルチ実施形態のジェネラリスト ポリシーとして機能します。 | |
2022年 | GODEL: 目標に向けた対話のための大規模な事前トレーニング | GODEL: 目標に向けた対話のための大規模な事前トレーニング | DialoGPT などの以前のモデルとは対照的に、GODEL は、現在の会話の外部の情報 (データベースやドキュメントなど) を必要とする幅広い下流ダイアログ タスクに GODEL を適応させることをより適切にサポートするように設計された、基礎的な事前トレーニングの新しい段階を活用しています。良い反応を生み出します。 | パイトーチ |
2023年 | GPT-4 | GPT-4 テクニカルレポート | モデルは画像とテキストのマルチモーダル入力を受け入れるようになりました。 | :-: |
2023年 | ブルームバーグGPT | BloombergGPT: 金融向けの大規模言語モデル | ブルームバーグの広範なデータソースでトレーニングされた金融領域に特化したLLM | |
2023年 | 咲く | BLOOM: 176B パラメータのオープンアクセス多言語モデル | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) は、46 の自然言語と 13 のプログラミング言語 (合計 59) の数百のソースで構成されるデータセットである ROOTS コーパスでトレーニングされたデコーダー専用の Transformer 言語モデルです。 | |
2023年 | ラマ2 | Llama 2: オープンな基盤と微調整されたチャット モデル | | PyTorch #1 PyTorch #2 |
2023年 | クロード | クロード | クロードは 75,000 ワード (100,000 トークン) を分析できます。 GPT4 はわずか 32.7k トークンを実行できます。 | |
2023年 | SelfCheckGPT | SelfCheckGPT: 生成大規模言語モデル向けのゼロリソース ブラック ボックス幻覚検出 | シンプルなサンプリングベースのアプローチで、リソースゼロの方法で、つまり外部データベースを使用せずにブラックボックスモデルをファクトチェックするために使用できます。 | |