生成 AI は急速に成長しており、このリポジトリは、生成 AI 研究、インタビュー資料、ノートブックなどの最新情報の包括的なハブとして機能します。
次のリソースを参照してください。
このリポジトリは定期的に更新されるので、最新の追加情報に注目してください。
楽しく学習しましょう!
※毎月月末に更新します
日付 | タイトル | 抽象的な | トピックス |
---|---|---|---|
2024 年 5 月 31 日 | LLM は高次の心の理論のタスクで成人のパフォーマンスを達成します | この論文では、大規模言語モデル (LLM) が高次の心の理論 (ToM) をどの程度発展させたかを調査します。複数の精神的および感情的状態について再帰的に推論する人間の能力 (たとえば、あなたは彼女が知っていると信じていると思います)。この論文は、手書きのテスト スイートである心の多次理論 Q&A を導入し、それを使用して 5 つの LLM のパフォーマンスを新しく収集された成人の人間のベンチマークと比較することによって、以前の研究に基づいています。 GPT-4 と Flan-PaLM は、ToM タスク全体で成人レベルおよびほぼ成人レベルのパフォーマンスに達し、6 次推論では GPT-4 が成人のパフォーマンスを上回っていることがわかりました。私たちの結果は、ToM 能力の実現にはモデル サイズと微調整の間に相互作用があり、最も優れたパフォーマンスを発揮する LLM は ToM のための汎用化された能力を開発していることを示唆しています。高次 ToM が人間の幅広い協力的および競争的行動において果たす役割を考慮すると、これらの発見はユーザー向け LLM アプリケーションに重大な意味を持ちます。 | 心の理論 |
2024 年 5 月 30 日 | JINA CLIP: CLIP モデルはテキスト レトリバーでもあります | Contrastive Language-Image Pretraining (CLIP) は、画像とテキストを固定サイズのベクトルにマッピングすることで共通の埋め込み空間に位置合わせするモデルをトレーニングするために広く使用されています。これらのモデルは、マルチモーダルな情報検索と関連タスクの鍵となります。ただし、CLIP モデルは一般に、特殊なテキスト モデルと比較して、テキストのみのタスクではパフォーマンスが低下します。これにより、テキストのみのタスクやマルチモーダルなタスクに対して個別の埋め込みとモデルを保持する情報検索システムの効率が低下します。私たちは、この問題に対処するための新しいマルチタスク対比トレーニング方法を提案します。これを使用して jina-clip-v1 モデルをトレーニングし、テキスト画像検索タスクとテキストテキスト検索タスクの両方で最先端のパフォーマンスを達成します。 。 | マルチモーダルモデル |
2024 年 5 月 30 日 | Parrot: セマンティック変数を使用した LLM ベースのアプリケーションの効率的な提供 | 大規模言語モデル (LLM) の台頭により、LLM と従来のソフトウェアの長所を組み合わせた新しいソフトウェア パラダイムである LLM ベースのアプリケーション (別名 AI エージェントまたはコ パイロット) が可能になりました。異なるテナントからの多様な LLM アプリケーションは、1 つのタスクを実行するために複数の LLM リクエストを使用する複雑なワークフローを設計できます。ただし、今日のパブリック LLM サービスが提供する過度に簡素化されたリクエスト レベルの API を使用する必要があるため、重要なアプリケーション レベルの情報が失われます。パブリック LLM サービスは、個々の LLM リクエストを盲目的に最適化する必要があるため、LLM アプリケーションのエンドツーエンドのパフォーマンスが最適化されません。このペーパーでは、LLM ベースのアプリケーションのエンドツーエンドのエクスペリエンスに焦点を当てた LLM サービス システムである Parrot について紹介します。 Parrot は、アプリケーション レベルの知識をパブリック LLM サービスに公開するための統合抽象化である Semantic Variable を提案しています。セマンティック変数は、リクエストのプロンプトで入出力変数に注釈を付け、複数の LLM リクエストを接続するときにデータ パイプラインを作成して、LLM アプリケーションをプログラムする自然な方法を提供します。セマンティック変数をパブリック LLM サービスに公開すると、従来のデータ フロー分析を実行して、複数の LLM リクエスト間の相関関係を明らかにできるようになります。この相関関係により、LLM ベースのアプリケーションのエンドツーエンドのパフォーマンスにまったく新しい最適化スペースが開かれます。広範な評価により、Parrot が LLM アプリケーションの一般的かつ実用的なユースケースで最大 1 桁の改善を達成できることが実証されています。 | LLMエージェント |
2024 年 5 月 30 日 | 複雑さによる困惑: 小さな参照モデルを使用した複雑さベースのデータ プルーニング | この研究では、小規模な言語モデルが、大規模な言語モデルのパフォーマンスを向上させる大規模なテキスト データセットの高品質なサブセットを決定できるかどうかを調査します。既存の研究では、より大きなモデルの複雑さに基づいた枝刈りによって高品質のデータが得られることが示されていますが、私たちは、より小さなモデルを複雑さに基づく枝刈りに使用できるかどうか、また枝刈りされるデータのドメイン構成が枝刈りにどのような影響を与えるかを調査します。複数のデータセット構成の場合、事前トレーニング データのパープレキシティ ベースのプルーニングにより下流タスクのパフォーマンスが大幅に向上することを実証します。1 億 2,500 万のパラメーター モデルで計算されたパープレキシティに基づくプルーニングにより、30 億パラメーター モデルの下流タスクの平均パフォーマンスが最大 2.04 向上します。事前トレーニングのステップを最大 1.45 倍削減して、相応のベースライン パフォーマンスを達成します。さらに、このようなパープレキシティベースのデータプルーニングによって、過剰トレーニングされたデータ制約のある領域でも下流のパフォーマンス向上がもたらされることを実証します。 | 小規模な言語モデル |
2024 年 5 月 30 日 | GNN-RAG: 大規模言語モデル推論のためのグラフ ニューラル検索 | ナレッジ グラフ (KG) は、人間が作成した事実の知識を 3 つの要素 (頭部、関係、尾部) の形式で表し、これらが集合してグラフを形成します。 KG を介した質問応答 (KGQA) は、KG によって提供された情報に対する推論に基づいて自然な質問に答えるタスクです。大規模言語モデル (LLM) は、自然言語を理解する優れた能力により、QA タスク用の最先端のモデルです。一方、グラフ ニューラル ネットワーク (GNN) は、KG に格納されている複雑なグラフ情報を処理できるため、KGQA に広く使用されています。この研究では、検索拡張生成 (RAG) スタイルで LLM の言語理解能力と GNN の推論能力を組み合わせる新しい方法である GNN-RAG を紹介します。まず、GNN は密な KG サブグラフを推論して、特定の質問に対する回答候補を取得します。次に、KG 推論パスを表すために、質問エンティティと回答候補を接続する KG 内の最短パスが抽出されます。抽出されたパスは言語化され、RAG による LLM 推論の入力として与えられます。 GNN-RAG フレームワークでは、GNN は有用なグラフ情報を抽出するための密なサブグラフ推論器として機能し、LLM はその自然言語処理能力を活用して最終的な KGQA を実現します。さらに、GNN-RAG を使用して KGQA のパフォーマンスをさらに向上させる検索拡張 (RA) 技術を開発します。実験結果は、GNN-RAG が 2 つの広く使用されている KGQA ベンチマーク (WebQSP および CWQ) で最先端のパフォーマンスを達成し、7B 調整済み LLM を使用した GPT-4 のパフォーマンスを上回るか、それに匹敵することを示しています。さらに、GNN-RAG はマルチホップおよびマルチエンティティの質問において優れており、回答 F1 で競合するアプローチを 8.9 ~ 15.5% ポイント上回っています。コードと KGQA の結果は https://github.com/cmavro/GNN-RAG で提供されます。 | ナレッジグラフの RAG |
2024 年 5 月 29 日 | 自己探索型言語モデル: オンライン調整のための積極的な優先順位の引き出し | 特にヒューマン フィードバックからの強化学習 (RLHF) を通じた好みの最適化は、人間の意図に従うように大規模言語モデル (LLM) を調整することに大きな成功を収めています。固定データセットを使用したオフラインの調整とは異なり、モデル生成に関する人間または AI からのオンライン フィードバック収集は、通常、反復プロセスを通じてより有能な報酬モデルとより適切に調整された LLM につながります。ただし、世界的に正確な報酬モデルを達成するには、自然言語の広大な空間にわたる多様な応答を生成するための体系的な探索が必要です。この要件を満たすには、標準の報酬を最大化する LLM からのランダム サンプリングだけでは不十分です。この問題に対処するために、分布外領域を積極的に探索するために、潜在的に高報酬の応答に楽観的に偏った二層目標を提案します。再パラメータ化された報酬関数を使用して内部レベルの問題を解決することにより、結果として得られる自己探索言語モデル (SELM) と呼ばれるアルゴリズムは、別個の RM の必要性を排除し、単純な目的で LLM を反復的に更新します。直接優先最適化 (DPO) と比較して、SELM 目標は、目に見えない外挿の無差別な優先を減らし、探索効率を高めます。私たちの実験結果は、Zephyr-7B-SFT および Llama-3-8B-Instruct モデルで微調整すると、SELM が MT-Bench や AlpacaEval 2.0 などのベンチマークに従う命令のパフォーマンスを大幅に向上させること、およびさまざまな設定でのさまざまな標準学術ベンチマークを実証することを示しています。 。私たちのコードとモデルは https://github.com/shenao-zhang/SELM で入手できます。 | 調整、好みの最適化 |
2024 年 5 月 28 日 | OpenRLHF: 使いやすく、スケーラブルで高性能な RLHF フレームワーク | 大規模言語モデル (LLM) がスケーリング則によって成長し続ける中、ヒューマン フィードバックからの強化学習 (RLHF) は、その優れたパフォーマンスにより大きな注目を集めています。ただし、単一モデルの事前トレーニングや微調整とは異なり、大規模な言語モデルをトレーニングするためのヒューマン フィードバックからの強化学習 (RLHF) のスケーリングでは、4 つのモデルにわたる調整の課題が生じます。効率的な RLHF スケーリングを可能にするオープンソース フレームワークである OpenRLHF を紹介します。 4 つのモデルを同じ GPU 上に配置する既存の RLHF フレームワークとは異なり、OpenRLHF は、Ray、vLLM、DeepSpeed を使用して 70B パラメーターを超えるモデルのスケジューリングを再設計し、リソース使用率の向上と多様なトレーニング アプローチを活用します。 OpenRLHF は Hugging Face とシームレスに統合し、最適化されたアルゴリズムと起動スクリプトを備えたすぐに使えるソリューションを提供し、使いやすさを保証します。 OpenRLHF は、RLHF、DPO、リジェクション サンプリング、およびその他のアライメント技術を実装します。最先端の LLM 開発を支援する OpenRLHF のコードは、https://github.com/OpenLLMAI/OpenRLHF で入手できます。 | RLHF、ツールキット |
2024 年 5 月 28 日 | LLAMA-NAS: 大規模言語モデルの効率的なニューラル アーキテクチャ検索 | 自然言語処理、複雑な推論、感情分析、その他のタスクを解決する最新の大規模言語モデル (LLM) の能力は並外れたものであり、その広範な採用を促しています。残念ながら、これらの機能には非常に高いメモリと計算コストがかかるため、ほとんどのハードウェア プラットフォームで LLM を使用できません。これを軽減するために、ワンショット NAS を使用して LLaMA2-7B に基づいてパレート最適ネットワーク アーキテクチャを見つける効果的な方法を提案します。特に、LLaMA2-7B を 1 回だけ微調整し、遺伝的アルゴリズムに基づく検索を適用して、より小さく、計算の複雑性が低いネットワーク アーキテクチャを見つけます。特定の標準ベンチマーク タスクでは、事前トレーニングされた LLaMA2-7B ネットワークが不必要に大きくて複雑であることがわかります。より具体的には、精度の低下は無視できる程度で、特定のタスクについてモデル サイズが 1.5 倍縮小し、スループットが 1.3 倍高速化することを実証しました。私たちの方法は、より小さくてパフォーマンスの高いネットワーク アーキテクチャを見つけることに加えて、特定のプルーニングやスパース化技術よりも効果的かつ効率的にそれを行います。最後に、量子化がどのように私たちの方法を補完するのか、そして量子化を使用すると、発見したネットワークのサイズと複雑さをさらに削減できることを示します。私たちは、私たちの研究が、より安価で、より容易に入手可能なハードウェア プラットフォームで使用できる LLM を自動的に作成する方法を提供すると信じています。 | ニューラルアーキテクチャの検索、モデルサイズの削減 |
2024 年 5 月 28 日 | 忘れずに接続してください!グラフベースの再ランキングによる RAG の改善 | 検索拡張生成 (RAG) は、既存のドキュメントからのコンテキストに基づいて生成することにより、大規模言語モデル (LLM) 応答のパフォーマンスを大幅に向上させました。これらのシステムは、ドキュメントが質問のコンテキストに明らかに関連している場合にうまく機能します。しかし、文書に部分的な情報が含まれている場合や、コンテキストとのつながりがあまり明らかではない場合はどうなるでしょうか?そして、文書間のつながりをどのように推論すればよいでしょうか?この研究では、RAG 生成に関するこれら 2 つの主要な質問に答えようとします。 RAG の取得者とリーダーの間のグラフ ニューラル ネットワーク (GNN) に基づくリランカーである G-RAG を紹介します。私たちの方法は、文書間の接続と意味情報 (抽象意味表現グラフによる) の両方を組み合わせて、RAG にコンテキスト情報に基づいたランカーを提供します。 G-RAG は、より小さい計算フットプリントでありながら、最先端のアプローチよりも優れたパフォーマンスを発揮します。さらに、PaLM 2 のパフォーマンスをリランカーとして評価したところ、G-RAG を大幅に下回っていることがわかりました。この結果は、大規模言語モデルを使用する場合でも、RAG の再ランキングの重要性を強調しています。 | 推論のための RAG |
2024 年 5 月 27 日 | Meteor: 大規模な言語および視覚モデルの Mamba ベースの理論的探索 | 大規模言語視覚モデル (LLVM) の急速な開発は、視覚的命令のチューニングの進歩によって促進されています。最近、オープンソース LLVM は、強力なクローズドソース LLVM とのパフォーマンスのギャップを狭めるために、高品質のビジュアル命令チューニング データセットを厳選し、追加のビジョン エンコーダまたは複数のコンピュータ ビジョン モデルを利用しています。これらの進歩は、基本的なイメージの理解、常識的で非対象的な概念 (チャート、図、記号、標識、数学の問題など) に関する現実世界の知識、および段階的な知識など、多様な能力に必要な多面的な情報によるものです。 -複雑な質問を解決するためのステップ手順。多面的な情報から得た、新しい効率的な LLVM、Mamba ベースの論理的探索 (Meteor) を提示します。これは、多面的な論理的根拠を活用して理解力と回答能力を強化します。豊富な情報を含む長い根拠を埋め込むために、線形時間計算量でシーケンシャル データを処理できる Mamba アーキテクチャを採用しています。根拠の効率的な埋め込みを容易にする根拠のトラバースという新しい概念を導入します。その後、バックボーンのマルチモーダル言語モデル (MLM) がトレーニングされ、理論的根拠に基づいて回答を生成します。これらのステップを通じて、Meteor は、モデル サイズを拡大したり、追加のビジョン エンコーダやコンピュータ ビジョン モデルを採用したりすることなく、多様な機能を必要とする複数の評価ベンチマーク全体でビジョン言語のパフォーマンスの大幅な向上を達成します。コードは https://github.com/ByungKwanLee/Meteor で入手できます。 | 状態空間モデル、マルチモーダル モデル |
2024 年 5 月 27 日 | 視覚言語モデリングの概要 | 最近の大規模言語モデル (LLM) の人気を受けて、LLM を視覚領域に拡張する試みがいくつか行われています。不慣れな環境を案内してくれる視覚アシスタントから、高レベルのテキスト記述のみを使用して画像を生成する生成モデルまで、ビジョン言語モデル (VLM) アプリケーションは、私たちとテクノロジーの関係に大きな影響を与えます。ただし、これらのモデルの信頼性を向上させるために対処する必要がある多くの課題があります。言語は離散的ですが、視覚は概念が常に容易に離散化できるとは限らない、より高次元の空間で進化します。視覚を言語にマッピングする背後にあるメカニズムをより深く理解するために、この分野に参入したいと考えているすべての人に役立つことを願って、この VLM の概要を紹介します。まず、VLM とは何か、VLM がどのように機能するか、および VLM をトレーニングする方法について紹介します。次に、VLM を評価するアプローチを提示し、説明します。この作業は主に画像を言語にマッピングすることに焦点を当てていますが、VLM をビデオに拡張することについても説明します。 | マルチモーダルモデル、調査 |
2024 年 5 月 27 日 | マトリョーシカ マルチモーダル モデル | LLaVA などの大規模マルチモーダル モデル (LMM) は、視覚言語推論において優れたパフォーマンスを示しています。これらのモデルは、まず固定された多数のビジュアル トークンに画像を埋め込み、次にそれらを大規模言語モデル (LLM) にフィードします。ただし、この設計では、高解像度の画像やビデオなどの緻密な視覚シナリオでは過剰な数のトークンが発生し、大幅な非効率につながります。トークン プルーニングとマージの方法は存在しますが、それらは画像ごとに単一長の出力を生成するため、情報密度と効率をトレードオフする柔軟性がありません。マトリョーシカ人形の概念に触発されて、私たちは M3 : マトリョーシカ マルチモーダル モデルを提案します。これは、複数の粗い粒度から細かい粒度にわたって情報をキャプチャする、入れ子になったビジュアル トークンのセットとしてビジュアル コンテンツを表現することを学習します。私たちのアプローチは、LMM にいくつかのユニークな利点を提供します。(1) 推論中にテスト インスタンスごとに視覚的な粒度を明示的に制御できます。たとえば、コンテンツの予想される複雑さまたは単純さに基づいて画像を表すために使用されるトークンの数を調整できます。 (2) M3 は、既存のデータセットに必要な粒度を分析するためのフレームワークを提供します。COCO スタイルのベンチマークでは、576 個のトークンすべてを使用した場合と同様の精度を得るために、約 9 個のビジュアル トークンのみが必要であることがわかりました。 (3) 私たちのアプローチは、サンプルレベルでのパフォーマンスとビジュアルトークンの長さの間の最適なトレードオフを調査するための基盤を提供します。調査により、オラクルの上限と現在の固定スケール表現の間に大きなギャップが存在することが明らかになりました。 | マルチモーダルモデル |
2024 年 5 月 27 日 | Trans-LoRA: データフリーで転送可能なパラメータの効率的な微調整に向けて | 低ランク アダプター (LoRA) とそのバリアントは、少数の追加パラメーターのみを必要としながら、完全なモデルの微調整パフォーマンスにほぼ一致する一般的なパラメーター効率の微調整 (PEFT) 手法です。これらの追加の LoRA パラメーターは、適応される基本モデルに固有です。基本モデルを廃止して新しいモデルに置き換える必要がある場合は、関連するすべての LoRA モジュールを再トレーニングする必要があります。このような再トレーニングには、元の基本モデルの LoRA をトレーニングするために使用されるデータへのアクセスが必要です。これは、独自のクライアント タスク データをホストすることが許可されていないサービス プロバイダーによって LoRA モジュールと基本モデルがホストされている商用クラウド アプリケーションの場合に特に問題になります。この課題に対処するために、私たちは Trans-LoRA を提案します。これは、基本モデル間で LoRA をロスレスでほぼデータフリーで転送するための新しい方法です。私たちのアプローチは、合成データを利用して LoRA モジュールを転送します。大規模な言語モデルを使用して、観察されたタスク データ サブセットのデータ生成プロセスを近似する合成データ ジェネレーターを設計します。結果として得られる合成データセットでのトレーニングにより、LoRA モジュールが新しいモデルに転送されます。 LLama モデル ファミリと Gemma モデル ファミリの両方を使用してアプローチの有効性を示します。私たちのアプローチは、さまざまなタスクにおいて、異なるベース モデル ファミリ内および異なるベース モデル ファミリ間のモデル間、さらには異なる PEFT メソッド間でのロスレス (ほとんどが改善された) LoRA 転送を実現します。 | PEFT メソッド、微調整 |
2024 年 5 月 26 日 | 言語モデルの調整のためのセルフプレイ設定の最適化 | Bradley-Terry モデルのようなパラメトリック モデルに依存する従来のヒューマン フィードバックからの強化学習 (RLHF) アプローチは、人間の好みの自動性や非合理性を捉えるには不十分です。最近の進歩により、好みの確率を直接操作すると、人間の好みがより正確に反映され、より柔軟で正確な言語モデルの調整が可能になることが示唆されています。この論文では、ナッシュ均衡政策を特定することを目的とした定数和の 2 プレイヤー ゲームとして問題を扱う、言語モデルの調整のためのセルフプレイベースの方法を提案します。 Self-Play Preference Optimization (SPPO) と呼ばれる私たちのアプローチは、反復的なポリシー更新を通じてナッシュ均衡に近似し、理論的な収束保証を享受します。私たちの方法は、選択された応答の対数尤度を効果的に増加させ、拒否された応答の対数尤度を減少させることができます。これは、直接優先最適化 (DPO) やアイデンティティ優先最適化 (IPO) などの対称ペアワイズ損失では自明に達成することはできません。私たちの実験では、UltraFeedback データセットからの 60,000 個のプロンプト (応答なし) のみを使用し、プロンプトの拡張は行わず、わずか 0.4B のパラメーターを持つ事前トレーニング済みの好みモデル PairRM を活用することで、SPPO は微調整 Mistral-7B からモデルを取得できます。 Instruct-v0.2 は、GPT-4-Turbo に対して最先端の長さ制御勝率 28.53% を達成します。 AlpacaEval 2.0。また、MT-Bench および Open LLM Leaderboard での (反復的な) DPO および IPO よりも優れたパフォーマンスを示します。特に、SPPO の強力なパフォーマンスは、GPT-4 または他の強力な言語モデルからの追加の外部監視 (応答、設定など) なしで達成されます。 | 調整、最適化 |
2024 年 5 月 23 日 | すべての言語モデル機能が線形であるわけではない | 最近の研究では、言語モデルが活性化空間内の概念 (「特徴」) の 1 次元表現を操作することによって計算を実行するという線形表現仮説が提案されています。対照的に、一部の言語モデル表現が本質的に多次元である可能性があるかどうかを調査します。私たちは、既約多次元特徴を独立した、または共起しない低次元特徴に分解できるかどうかに基づいて、その厳密な定義を開発することから始めます。これらの定義に基づいて、スパース オートエンコーダーを使用して GPT-2 と Mistral 7B の多次元特徴を自動的に検出するスケーラブルな方法を設計します。これらの自動検出された特徴には、曜日や月を表す円形特徴など、非常に解釈しやすい例が含まれています。これらの正確な円を使用して、曜日および月ごとのモジュラー算術を含む計算問題を解決するタスクを特定します。最後に、ミストラル 7B とラマ 3 8B での介入実験により、これらの円形特徴が実際にこれらのタスクにおける計算の基本単位であるという証拠を提供し、これらのタスクの隠れた状態を解釈可能なコンポーネントに分解することによって、さらなる円形表現を見つけます。 | 線形表現分析 |
2024 年 5 月 23 日 | AlignGPT: 適応型アライメント機能を備えたマルチモーダル大規模言語モデル | マルチモーダル大規模言語モデル (MLLM) は、汎用人工知能 (AGI) の探求において重要であると広く考えられています。 MLLM の中核は、クロスモーダル アライメントを実現する機能にあります。この目標を達成するために、現在の MLLM は通常、事前トレーニング フェーズと命令チューニング フェーズという 2 フェーズのトレーニング パラダイムに従います。成功にもかかわらず、これらのモデル内の調整機能のモデリングには欠点があります。まず、事前トレーニング段階では、モデルは通常、すべての画像とテキストのペアが均一に位置合わせされていると想定しますが、実際には、異なる画像テキストのペア間の位置合わせの程度は一貫していません。第二に、微調整に現在使用されている命令にはさまざまなタスクが組み込まれており、異なるタスクの命令には通常、異なるレベルの調整機能が必要ですが、以前の MLLM はこれらの差別化された調整ニーズを見落としています。これらの問題に取り組むために、新しいマルチモーダル大規模言語モデル AlignGPT を提案します。事前トレーニング段階では、すべての画像テキストのペアを同等に扱うのではなく、異なる画像とテキストのペアに異なるレベルの位置合わせ機能を割り当てます。次に、命令チューニング フェーズでは、これらのさまざまなレベルの調整機能を適応的に組み合わせて、さまざまな命令の動的な調整ニーズに対応します。広範な実験結果は、私たちのモデルが 12 のベンチマークで競争力のあるパフォーマンスを達成していることを示しています。 | アライメント、マルチモーダルモデル |
2024 年 5 月 23 日 | HippoRAG: 神経生物学的にヒントを得た大規模言語モデルの長期記憶 | 敵対的で絶えず変化する自然環境で繁栄するために、哺乳類の脳は世界に関する大量の知識を保存し、壊滅的な忘却を避けながら新しい情報を継続的に統合するように進化しました。目覚ましい成果にもかかわらず、大規模言語モデル (LLM) は、取得生成 (RAG) を使用しても、事前トレーニング後に大量の新しいエクスペリエンスを効率的かつ効果的に統合するのに依然として苦労しています。この研究では、人間の長期記憶の海馬インデックス理論に触発された新しい検索フレームワークである HippoRAG を紹介します。これにより、新しい経験に対するより深く、より効率的な知識の統合が可能になります。 HippoRAG は、LLM、ナレッジ グラフ、およびパーソナライズされた PageRank アルゴリズムを相乗的に調整し、人間の記憶における新皮質と海馬のさまざまな役割を模倣します。マルチホップ質問応答に関して HippoRAG と既存の RAG 手法を比較し、我々の手法が最先端の手法よりも最大 20% 顕著に優れていることを示します。 HippoRAG を使用したシングルステップ取得は、IRCoT のような反復取得と同等以上のパフォーマンスを達成しながら、10 ~ 30 倍安く、6 ~ 13 倍高速であり、HippoRAG を IRCoT に統合することでさらに大幅な利益がもたらされます。最後に、私たちの方法が既存の方法では手の届かない新しいタイプのシナリオに対処できることを示します。 | RAGの最適化 |
2024 年 5 月 21 日 | OmniGlue: 基盤モデルのガイダンスを使用した一般化可能な機能マッチング | 画像マッチングの分野では、新しい学習可能な特徴マッチング技術が次々と登場し、従来のベンチマークでのパフォーマンスが向上し続けています。しかし、私たちの調査によると、これらの利点にもかかわらず、現実世界への応用の可能性は、新しい画像領域への一般化機能が限られているため制限されています。このペーパーでは、一般化を中心原理として設計された初の学習可能な画像マッチャーである OmniGlue を紹介します。 OmniGlue は、ビジョン基盤モデルからの幅広い知識を活用して特徴一致プロセスをガイドし、トレーニング時には見られなかった領域への一般化を促進します。さらに、空間情報と外観情報を解きほぐし、マッチング記述子の強化につながる、新しいキーポイント位置誘導型注意メカニズムを提案します。私たちは、シーンレベル、オブジェクト中心の画像、航空画像など、さまざまな画像ドメインを含む 7 つのデータセットのスイートに対して包括的な実験を実行します。 OmniGlue の新しいコンポーネントは、直接比較可能な参照モデルと比較して、目に見えないドメインで 20.9% の相対的な利益をもたらし、また、最近の LightGlue 手法を相対的に 9.5% 上回っています。コードとモデルは https://hwjiang1510.github.io/OmniGlue にあります。 | マルチモーダルモデル |
2024 年 5 月 20 日 | MoRA: パラメータ効率の高い微調整のための高ランク更新 | 低ランク適応 (LoRA) は、大規模言語モデル (LLM) 向けの一般的なパラメーター効率の良い微調整 (PEFT) 手法です。このペーパーでは、LoRA で実装された低ランク更新の影響を分析します。私たちの調査結果は、低ランクの更新メカニズムが、LLM が新しい知識を効果的に学習し記憶する能力を制限する可能性があることを示唆しています。この観察に触発されて、私たちは MoRA と呼ばれる新しい方法を提案します。これは、正方行列を使用して、同じ数の訓練可能なパラメーターを維持しながら高ランクの更新を実現します。これを達成するために、対応する非パラメータ演算子を導入して、正方行列の入力次元を減らし、出力次元を増やします。さらに、これらの演算子により、重みを LLM にマージして戻すことができるため、私たちのメソッドを LoRA のように展開できるようになります。私たちは、命令調整、数学的推論、継続的事前トレーニング、記憶、事前トレーニングという 5 つのタスクにわたってメソッドの包括的な評価を実行します。私たちの方法は、メモリ集中型のタスクでは LoRA よりも優れたパフォーマンスを発揮し、他のタスクでも同等のパフォーマンスを達成します。私たちのコードは https://github.com/kongds/MoRA で入手できます。 | PEFT アプローチ、微調整 |
2024 年 5 月 19 日 | あなたのトランスは密かに線形です | この論文では、GPT、LLaMA、OPT、BLOOM などのモデルを含むトランス デコーダに特有の新しい線形特性を明らかにします。連続したレイヤー間の埋め込み変換を分析し、ほぼ完全な線形関係 (Procrustes の類似性スコア 0.99) を明らかにしました。ただし、変圧器層の出力ノルムが一貫して低いため、残留成分が除去されると直線性が低下します。私たちの実験は、変圧器の最も線形なブロックの一部を削除または線形近似しても、損失やモデルのパフォーマンスに大きな影響を与えないことを示しています。さらに、より小さなモデルでの事前トレーニング実験では、層の線形性を低減することを目的として、コサイン類似度に基づく正則化を導入しました。この正則化により、Tiny Stories や SuperGLUE などのベンチマークのパフォーマンス メトリクスが向上し、モデルの線形性も低下します。この研究は、変圧器アーキテクチャの既存の理解に疑問を投げかけ、変圧器の動作が以前に想定されていたよりも線形である可能性を示唆しています。1 | 変圧器の解析 |
2024 年 5 月 18 日 | LoRA のライブラリの構築と再利用によるモジュラー LLM への移行 | 基本的な大規模言語モデル (LLM) のパラメーター効率の高い適応の数が増えているため、そのようなトレーニング済みアダプターを再利用して新しいタスクのパフォーマンスを向上できるかどうかを検討する必要があります。私たちは、与えられたマルチタスク データからアダプターのライブラリを最適に構築する方法を研究し、そのようなライブラリでのルーティングを通じてゼロショット タスクと教師ありタスクの一般化の両方の手法を考案します。このライブラリを構築するために既存のアプローチをベンチマークし、モデルベースのクラスタリング (MBC) を導入します。これは、アダプター パラメーターの類似性に基づいてタスクをグループ化し、マルチタスク データセット全体の転送を間接的に最適化する手法です。ライブラリを再利用するために、新しいゼロショット ルーティング メカニズムである Arrow を提供します。これにより、再トレーニングを必要とせずに、新しい入力に対して最も関連性の高いアダプターを動的に選択できるようになります。私たちは、Phi-2 や Mistral などのいくつかの LLM をさまざまな保留タスクで実験し、MBC ベースのアダプターと Arrow ルーティングが新しいタスクに対する優れた一般化につながることを検証しました。私たちは、従来の共同トレーニングと同等またはそれを上回る、モジュール式の適応可能な LLM の作成に向けて一歩を踏み出しました。 | PEFT アプローチ、微調整、ツールキット |
2024 年 5 月 16 日 | Chameleon: 混合モードの初期融合基礎モデル | 私たちは、任意のシーケンスの画像とテキストを理解して生成できる、初期融合トークンベースの混合モーダル モデルのファミリーである Chameleon を紹介します。インセプションからの安定したトレーニングアプローチ、アラインメントレシピ、および早期融合のトークンベースの混合モーダル設定に合わせて調整されたアーキテクチャパラメーター化の概要を説明します。モデルは、視覚的な質問への回答、画像キャプション、テキスト生成、画像生成、長期の混合モーダル生成など、包括的な範囲のタスクで評価されます。カメレオンは、画像キャプションタスクの最先端のパフォーマンスを含む広範な一般的な機能を実証し、Mixtral 8x7bやGemini-Proなどのモデルと競合しながら、テキストのみのタスクでLLAMA-2を上回り、非自明の画像を実行します。生成、すべて単一のモデルで。また、Gemini ProやGPT-4Vを含むはるかに大きなモデルのパフォーマンスと一致またはそれを超えています。これは、プロンプトまたは出力に画像とテキストの両方の混合シーケンスが含まれている新しい長型の混合モーダル生成評価に関する人間の判断に従って、 。カメレオンは、完全なマルチモーダルドキュメントの統一されたモデリングで大きな前進を示しています。 | マルチモーダルモデル、基礎モデル |
2024年5月16日 | マルチモーダルファンデーションモデルでの多くのショットコンテキスト学習 | 大規模な言語モデルは、少数のショットコンテキスト学習(ICL)で効果的であることがよく知られています。マルチモーダルファンデーションモデルの最近の進歩により、前例のない長いコンテキストウィンドウが可能になり、より多くの実証例を使用してICLを実行する能力を探求する機会が得られました。この作業では、少数のショットから多くのショットICLにスケーリングするマルチモーダルファンデーションモデルのパフォーマンスを評価します。複数のドメイン(自然画像、医療画像、リモートセンシング、および分子画像)とタスク(マルチクラス、マルチラベル、および微細粒分類)にまたがる10のデータセットにわたってGPT-4OおよびGEMINI 1.5 Proをベンチマークします。最大2,000個のマルチモーダルの実証例を含む多くのショットICLが、すべてのデータセットで少数の(100 <100の例)ICLと比較して大幅な改善につながることを観察します。さらに、Gemini 1.5 Proのパフォーマンスは、多くのデータセットでテストされた例の最大数まで対数直線を改善し続けています。多くのショットICLに必要な長いプロンプトに関連する高い推論コストを考えると、単一のAPI呼び出しで複数のクエリをバッチすることの影響についても検討します。最大50のクエリをバッチすると、ゼロショットと多くのショットICLの下でのパフォーマンスの改善につながる可能性があり、複数のデータセットのゼロショット設定が大幅に向上し、クエリあたりのコストとレイテンシを大幅に削減することができることを示しています。最後に、モデルのICLデータ効率、またはモデルがより実証する例から学習する速度を測定します。 GPT-4OとGemini 1.5 Proはデータセット全体で同様のゼロショットパフォーマンスを達成しているが、Gemini 1.5 ProはほとんどのデータセットでGPT-4Oよりも高いICLデータ効率を示していることがわかります。私たちの結果は、多くのショットICLがユーザーがマルチモーダルファンデーションモデルを新しいアプリケーションとドメインに効率的に適応させることができることを示唆しています。コードベースは、https://github.com/stanfordmlgroup/manyiclで公開されています。 | ICL、マルチモーダルモデル |
2024 年 5 月 15 日 | Loraは学習が少なく、忘れが少なくなります | 低ランク適応(LORA)は、大規模な言語モデル向けの広く使用されているパラメーター効率の高い微調整方法です。 Loraは、選択された重量行列に低いランクの摂動のみをトレーニングすることにより、メモリを保存します。この作業では、2つのターゲットドメイン、プログラミングと数学のLORAとFull Finetuningのパフォーマンスを比較します。命令の微調整(≈100kプロンプト応答ペア)と継続的な事前抑制(≈10b非構造化トークン)データレジームの両方を考慮します。私たちの結果は、ほとんどの設定で、LORAが完全に完全に微調整されていることを示しています。それにもかかわらず、ロラは望ましい形式の正則化を示します。ターゲットドメイン外のタスクでのベースモデルのパフォーマンスをよりよく維持します。 LORAは、重量崩壊やドロップアウトなどの一般的な手法と比較して、より強力な正則化を提供することを示しています。また、より多様な世代を維持するのにも役立ちます。完全なFinetuningは、典型的なLORA構成よりも10〜100倍のランクで摂動を学習し、報告されたギャップの一部を説明することを示しています。締めくくることで、Loraで微調整するためのベストプラクティスを提案します。 | PEFTアプローチ、微調整 |
2024 年 5 月 14 日 | オンラインとオフラインのアライメントアルゴリズムの間のパフォーマンスギャップを理解する | 人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデルアライメントの標準的なフレームワークです。ただし、オフラインアライメントアルゴリズムでの人気の高まりは、RLHFでのポリシーサンプリングの必要性に挑戦します。報酬の過剰最適化のコンテキストの中で、オフラインの方法よりもオンライン方法の明確な利点を示す実験のオープニングセットから始めます。これにより、一連の慎重に設計された実験的アブレーションを通じて、パフォーマンスの矛盾に対する原因を調査するようになります。オフラインのデータカバレッジやデータの品質などの仮説自体がパフォーマンスの違いを説得力を持って説明できないことを経験的に示します。また、オフラインアルゴリズムはペアワイズ分類が得意となるようにポリシーを訓練する一方で、世代ではさらに悪いことがわかります。それまでの間、オンラインアルゴリズムによって訓練されたポリシーは何世代にもわたって優れていますが、ペアワイズ分類では悪化します。これは、サンプリングプロセスの影響を大きく影響する差別的能力と生成能力の間のユニークな相互作用を示唆しています。最後に、パフォーマンスの矛盾は、対照的な損失関数と非矛盾の両方の損失関数の両方に対して持続し、ポリシーネットワークをスケーリングするだけでは対処されていないように見えることが観察されます。まとめると、私たちの研究は、AIアライメントにおけるポリシーサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムの特定の基本的な課題を示唆しています。 | 位置合わせ |
2024 年 5 月 13 日 | RLHFワークフロー:報酬モデリングからオンラインRLHFまで | このテクニカルレポートでは、人間のフィードバック(RLHF)からのオンライン反復強化学習のワークフローを提示します。これは、最近の大規模な言語モデル(LLM)の文献の大きなマージンによってオフラインのカウンターパートを上回ることが広く報告されています。ただし、既存のオープンソースRLHFプロジェクトは、主にオフライン学習設定に限定されています。このテクニカルレポートでは、このギャップを埋め、オンラインの反復RLHFのために簡単に再現できる詳細なレシピを提供することを目指しています。特に、オンラインのフィードバックは通常、限られたリソースを持つオープンソースコミュニティでは実行不可能であるため、多様なオープンソースデータセットを使用して優先モデルを構築し、構築されたプロキシ優先モデルを使用して人間のフィードバックを近似することから始めます。次に、オンライン反復RLHFの背後にある理論的洞察とアルゴリズムの原則について説明し、その後に詳細な実用的な実装について説明します。当社の訓練されたLLMであるSFR-ITRATIANT-DPO-LAMA-3-8B-Rは、Alpacaeval-2、Arena-Hard、MTベンチなど、LLMチャットボットベンチマーク、およびHumanvalやHumanvalやその他の学術ベンチマークで印象的なパフォーマンスを達成しています。 Truthfulqa。監視された微調整(SFT)および反復RLHFが、完全にオープンソースのデータセットで最先端のパフォーマンスを得ることができることを示しました。さらに、モデル、キュレーションされたデータセット、包括的なステップバイステップコードガイドブックを公開しています。詳細については、https://github.com/rlhflow/rlhf-reward-modelingおよびhttps://github.com/rlhflow/online-rlhfを参照してください。 | 優先最適化、RLHF |
2024 年 5 月 2 日 | プロメテウス2:他の言語モデルの評価に特化したオープンソース言語モデル | GPT-4などの独自のLMSは、さまざまなLMSからの応答の質を評価するためにしばしば採用されています。ただし、透明性、制御可能性、手頃な価格などの懸念は、評価に特化したOpenSource LMSの開発を強く動機付けています。一方、既存のオープン評価者LMSは重要な欠点を示しています。1)彼らは人間によって割り当てられたものから大幅に分岐するスコアを発行し、2)直接的な評価とペアワイズランキングの両方を実行する柔軟性が欠けています。 。さらに、カスタム評価基準に基づいて評価する能力はありません。代わりに、有用や無害性などの一般的な属性に焦点を当てています。これらの問題に対処するために、人間とGPT-4の判断を密接に反映した前任者よりも強力な評価者LMであるPrometheus 2を紹介します。さらに、ユーザー定義の評価基準でグループ化された直接評価とペアワイズランキングフォーマットの両方を処理できます。 4つの直接評価ベンチマークと4つのペアワイズランキングベンチマークで、プロメテウス2は、テストされたすべてのオープン評価者LMSの間で人間と独自のLM裁判官との最高の相関と一致を獲得します。私たちのモデル、コード、およびデータはすべて公開されています1。 | 評価、エージェント |
2024 年 5 月 2 日 | WildChat:ワイルドでの1M ChatGPTインタラクションログ | GPT-4やChatGPTなどのチャットボットは、何百万人ものユーザーにサービスを提供しています。それらの広範な使用にもかかわらず、実際のユーザーの集団によってこれらのツールがどのように使用されているかを示す公開データセットが残っていません。このギャップを埋めるために、私たちは、チャットの成績証明書を匿名で収集してヘッダーをリクエストするための肯定的で合意に基づいたオプトインと引き換えに、オンラインユーザー向けにChatGptへの無料アクセスを提供しました。このことから、250万を超えるインタラクションターンで構成される100万人のユーザー-ChatGPT会話のコーパスであるWildChatをまとめました。 WildChatを他の一般的なユーザーチャットボットインタラクションデータセットと比較し、データセットが最も多様なユーザープロンプトを提供し、最も多数の言語を含み、研究者が研究するための最も豊富な潜在的に有毒なユースケースを提示することを確認します。タイムスタンプ付きチャットトランスクリプトに加えて、リクエストヘッダーとともに、州、国、ハッシュドIPアドレスを含む人口統計データでデータセットを濃縮します。この増強により、さまざまな地理的領域と時間的次元にわたるユーザーの行動のより詳細な分析が可能になります。最後に、幅広いユースケースをキャプチャするため、微調整命令にフォローするモデルにおけるデータセットの潜在的なユーティリティを実証します。 WildChatは、AI2インパクトライセンス1の下でhttps://wildchat.allen.aiでリリースされます1。 | ベンチマーク、評価 |
2024 年 5 月 2 日 | StoryDiffusion:長距離画像とビデオ生成のための一貫した自己誠実さ | 最近の拡散ベースの生成モデルでは、一連の生成された画像、特に被験者や複雑な詳細を含む画像全体に一貫したコンテンツを維持し、重要な課題を提示します。この論文では、生成された画像間の一貫性を大幅に向上させ、ゼロショットの方法で一般的な事前に拡散ベースのテキストから画像モデルを増強する一貫した自己触たちと呼ばれる新しい自己触媒計算の新しい方法を提案します。メソッドを長距離ビデオ生成に拡張するために、セマンティックモーション予測子という名前の新しいセマンティックスペース時間運動予測モジュールをさらに紹介します。セマンティックスペース内の2つの提供された画像間の動き条件を推定するように訓練されています。このモジュールは、生成された一連の画像を動画に変換し、スムーズな遷移と、特に長いビデオ生成のコンテキストでのみ、潜在スペースのみに基づいてモジュールよりも大幅に安定した一貫した被験者です。これらの2つの新しいコンポーネントをマージすることにより、StoryDiffusionと呼ばれるフレームワークは、豊富なさまざまなコンテンツを含む一貫した画像またはビデオを含むテキストベースのストーリーを説明できます。提案されているストーリーディフェンスには、視覚的なストーリー生成の先駆的な探求が画像やビデオのプレゼンテーションを網羅しています。 | マルチモーダルモデル、拡散 |
2024 年 5 月 2 日 | Flame:大規模な言語モデルの事実認識アライメント | アラインメントは、自然言語の指示に従い、役立つAIアシスタントとして機能するために、事前に訓練された大手言語モデル(LLM)を微調整する標準的な手順です。ただし、従来のアライメントプロセスは、LLMの事実上の正確性を高めることができず、多くの場合、より多くの誤った事実(つまり幻覚)の生成につながることを観察しました。このホワイトペーパーでは、最初にアライメントステップの両方で幻覚につながる要因を最初に特定することにより、LLMアライメントプロセスをより事実に基づく方法を研究します。特に、LLMを新しい知識やなじみのないテキストでトレーニングすることで幻覚を促進できることがわかります。これにより、SFTは、LLMにとって斬新な人間のラベル付きデータを訓練するため、事実を軽減します。さらに、標準のRLで使用される報酬機能は、LLMが多様な一連の命令についてより有用な応答を提供するように導き、より長くより詳細な応答を好むため、幻覚を促進する可能性があります。これらの観察に基づいて、直接選好の最適化を通じて事実に対応するSFTと事実に対応するRLで構成される事実性を認識したアライメント(炎)を提案します。実験は、提案された事実に対応するアラインメントがLLMSをガイドして、指導に従った機能を維持しながら、より多くの事実の応答を出力することを示しています | アラインメント、事実 |
2024 年 5 月 2 日 | Nemo-Aligner:効率的なモデルアライメントのためのスケーラブルツールキット | 大規模な言語モデル(LLM)を人間の価値と好みに合わせて整合することは、それらを役立つ安全にするために不可欠です。ただし、アラインメントを実行するための効率的なツールを構築することは、特に数十億または数千億のパラメーターを含む最大かつ最も有能なLLMにとって、困難な場合があります。トレーニングに何百ものGPUを使用するために効率的にスケーリングできるモデルアライメントのツールキットであるNemo-Alignerを作成します。 Nemo-Alignerには、人間のフィードバック(RLHF)からの補強学習、直接優先最適化(DPO)、Steerlm、および自己プレイ微調整(スピン)など、モデルアライメントの主要なパラダイムのための高度に最適化されたスケーラブルな実装が付属しています。さらに、当社のツールキットは、パラメーター効率的な微調整(PEFT)設定でほとんどのアライメント手法を実行することをサポートしています。 Nemo-Alignerは、拡張性のために設計されており、最小限の労力で他のアライメント技術をサポートできます。 Apache 2.0ライセンスでオープンソーリングされており、https://github.com/nvidia/nemo-alignerでコミュニティの貢献を招待します。 | アライメント、ツールキット |
2024 年 5 月 1 日 | より大きな編集バッチサイズは常に優れていますか? -Llama-3を使用したモデル編集に関する実証研究 | この研究では、最新の大規模な言語モデルであるLlama-3に焦点を当てたターゲットモデル編集分析を提示します。 Rome、Memit、およびEmmetの人気のあるモデル編集技術の有効性を調査します。これは、正確な層介入のために設計されています。シーケンシャル編集、バッチ編集、およびシーケンシャルバッチ編集として呼び出すハイブリッドアプローチの3つの異なる戦略にわたって最大4096の編集を含む評価を通じて、ターゲット編集の最も効果的なレイヤーを特定します。私たちの調査結果は、編集バッチサイズの編集を増やすと、編集の数が少ないために小さな編集バッチを順番に使用するよりも、モデルのパフォーマンスを大きく分解する可能性があることを示しています。これにより、シーケンシャルモデル編集はスケーリングモデルの編集方法の重要なコンポーネントであり、将来の研究はバッチ編集とシーケンシャルの編集の両方を組み合わせた方法に焦点を当てる必要があると主張します。この観察結果は、より大きな編集バッチサイズに向かってプッシュする現在のモデル編集方法の潜在的な制限を示唆しており、バッチサイズの最適化とモデルの編集パフォーマンスの最適化に関する将来の調査のための方法を舗装することを願っています。 | モデルの編集 |
2024 年 5 月 1 日 | Lora Land:310微調整されたLLMS GPT-4に匹敵する技術レポート | 低ランク適応(LORA)は、大規模な言語モデル(LLM)のパラメーター効率的な微調整(PEFT)の最も広く採用されている方法の1つとして浮上しています。 LORAは、トレーニング可能なパラメーターの数とメモリの使用量を減らしながら、完全な微調整に匹敵するパフォーマンスを達成します。現実世界のアプリケーションでLORAで微調整されたトレーニングとサービスの実行可能性を評価することを目指しています。まず、10のベースモデルにわたって量子化された低ランクアダプターと31のタスクで微調整されたLLMSの品質を測定し、合計310モデルを測定します。 4ビットのLora微調整モデルは、平均してベースモデルを34ポイント、GPT-4 x 10ポイントよりも優れていることがわかります。第二に、微調整のための最も効果的な基本モデルを調査し、微調整の結果を予測する際のタスクの複雑さヒューリスティックの相関および予測能力を評価します。最後に、共有ベースモデルの重みと動的アダプター負荷を使用して単一のGPU上の複数のLORA微調整モデルの展開を容易にするオープンソースマルチロラ推論サーバーであるLoraxのレイテンシと並行性機能を評価します。 Lorax Powers Lora Landは、80GBメモリを備えた単一のNVIDIA A100 GPUで25のLora微調整されたMistral-7B LLMSをホストするWebアプリケーションです。 Lora Landは、単一の汎用LLMで複数の特殊なLLMを採用することの品質と費用対効果を強調しています。 | PEFTアプローチ、微調整 |
さまざまなユースケースでLLMSの適用を掘り下げているこの10週間の冒険に1000人以上の学生に参加してください
?§ *週1 [2024年1月15日] *:LLMSの実用的な紹介
?÷2週目[2024年1月22日] *:プロンプトとプロンプトエンジニアリング
?️ *週3 [2024年1月29日] *:LLM微調整
?️ *第4週[2024年2月5日] *:rag(検索された熟成世代)
?️ *第5週[2024年2月12日] *:LLMアプリを構築するためのツール
?️ *第6週[2024年2月19日] *:評価手法
?️ *第7週[2024年2月26日] *:独自のLLMアプリケーションを構築する
?÷8週目[2024年3月4日] *:高度な機能と展開
?️ *第9週[2024年3月11日] *:LLMSの課題
?§ *Week 10 [2024年3月18日] *:新たな研究動向
?§ *週11 *ボーナス *[2024年3月25日] *:基礎
ETHチューリッヒによる大規模な言語モデル
プリンストンによる大規模な言語モデルの理解
Huggingfaceによるトランスフォーマーコース
HuggingfaceによるNLPコース
CS324-スタンフォードによる大規模な言語モデル
Courseraによる大きな言語モデルを持つ生成AI
Courseraによる生成AIの紹介
Google Cloudによる生成AIファンダメンタルズ
Google Cloudによる大規模な言語モデルの紹介
Google Cloudによる生成AIの紹介
Datacampによる生成AIコンセプト(Daniel Tedesco Data Lead @ Google)
Weclouddataによる1時間のLLM(大手言語モデル)の紹介
LLM Foundationモデルはゼロから| Databricksによる入門書
Nvidiaが説明した生成AI
Google CloudによるTransformer ModelsとBert Model
AWSによる意思決定者のための生成AI学習計画
Google Cloudによる責任あるAIの紹介
Microsoft Azureによる生成AIの基礎
Microsoftによる初心者向けの生成AI
初心者向けのChatGpt:Udemyによるすべての人のための究極のユースケース
[1時間の話] Andrej Karpathyによる大規模な言語モデルへの紹介
プロンプトを学ぶことによって、すべての人のためのChatGpt
大手言語モデル(LLMS)(英語)by Kshitiz Verma(JK Lakshmipat University、Jaipur、India)
LLMOPS:Udacityによる大きな言語モデルを使用して、実世界のアプリケーションを構築する
FSDLによるフルスタックLLMブートキャンプ
Microsoftによる初心者向けの生成AI
大規模な言語モデル:Databricksによる生産によるアプリケーション
AWSによる生成AI基礎
Ineuronによる生成AIコミュニティコースの紹介
CohereによるLLM大学
LLM Learning Lab by Lightning AI
deeplearning.aiによるLLMアプリケーション開発用のLangchain
deeplearning.aiによるllmops
deeplearning.aiによるLLMOPSの自動テスト
AWSによるAmazon Bedrockを使用した生成AIアプリケーションの構築
deeplearning.aiによってLLMを効率的に提供します
deeplearning.aiによるChatGpt APIを備えたシステムの構築
Deeplearning.aiによるAmazon Bedrockを備えたサーバーレスLLMアプリ
deeplearning.aiによるベクトルデータベースを使用したアプリケーションの構築
deeplearning.aiによるLLMOPSの自動テスト
deeplearning.aiによるllmops
deeplearning.aiでlangchain.jsを使用してLLMアプリをビルドします
deeplearning.aiによるクロマ付きAIの高度な検索
CourseraによるAzureのLLMSの運用
生成AIフルコース - gemini pro、openai、llama、langchain、pinecone、vectorデータベースなどfreecodecamp.org
Activeloopによる生産用のトレーニングおよび微調整LLM
Activeloopによる生産中のLangchain&Vectorデータベース
deeplearning.aiによる人間のフィードバックからの強化学習
deeplearning.aiによるベクトルデータベースを使用したアプリケーションの構築
Deeplearning.aiによる大規模な言語モデルの微調整
Langchain:deeplearning.aiでデータとチャットします
deeplearning.aiによるChatGpt APIを備えたシステムの構築
deeplearning.aiによるllama 2の迅速なエンジニアリング
deeplearning.aiによるベクトルデータベースを使用したアプリケーションの構築
Deeplearning.aiによる開発者向けのChatGptプロンプトエンジニアリング
Llamaindexによる高度なRAGオーケストレーションシリーズ
Courseraによる迅速なエンジニアリングの専門化
Nvidiaによる検索拡張生成を使用して、LLMを増強します
deeplearning.aiによるragの知識グラフ
deeplearning.aiによる顔を抱き締めるオープンソースモデル
ベクトルデータベース:埋め込みからdeeplearning.aiによるアプリケーションまで
deeplearning.aiによるテキスト埋め込みの理解と適用
deeplearning.aiによるllamaindexを使用したJavaScript RAG Webアプリ
deeplearning.aiによる顔の抱き合った基礎
Deeplearning.aiによるLLMアプリケーションの非構造化データを事前に処理します
ActiveloopによるLangchain&Llamaindexによる生産のための検索拡張生成
deeplearning.aiによる深さの量子化
リポジトリに追加するか、問題を見つけたい場合は、PRを上げて、関連するセクションまたはカテゴリ内で正しい配置を確認してください。
このガイドを引用するには、以下の形式を使用します。
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MITライセンス]