awesome language model analysisダウンロード - awesome language model analysisソースコードのダウンロード

素晴らしい言語モデル分析

この論文リストは、言語モデル、特に大規模言語モデル(LLM) の理論的および実証的分析に焦点を当てています。このリストの論文は、理論的分析、実証的分析、またはその両方の組み合わせを通じて、言語モデルの学習行動、汎化能力、その他の特性を調査しています。

このリストの範囲:

現在、このリストはトランスベースのモデルに焦点を当てています。
私たちは、言語モデルのパフォーマンス向上を目的とした論文ではなく、言語モデルの理論的および実証的分析のみに焦点を当てた論文を収集したいと考えています。

このリストの制限:

このリストはすべてを網羅しているわけではないため、非常に重要な論文がいくつか見逃される可能性があります。
このリストはまだ十分に整理されていないため、将来的にはリストを再整理する必要があるかもしれません。
機械工学、探査、解釈可能性などの人気のあるトピックはまだ十分にカバーされていません。

この論文の統計リスト:

異なる論文の総数: 550
より詳細な統計については、このページの最後を参照してください。

ご提案がある場合、または貢献したい場合は、お気軽に問題またはプルリクエストを開いてください。

投稿方法の詳細については投稿ガイドラインをご覧ください。

ディスカッションで自分の考えを共有し、他の人と話し合うこともできます。

注記

未分類版についてはこちらをご参照ください。

素晴らしい言語モデル分析
目次
- 興味のある現象
  - 状況に応じた学習
  - 思考の連鎖
  - 幻覚
  - 逆転の呪い
  - スケーリングの法則 / 緊急アビリティ / グロッキング / など
  - 知識/記憶のメカニズム
  - トレーニングダイナミクス / ランドスケープ / 最適化 / 微調整 / など
  - 学習 / 一般化 / 推論 / 弱い一般化から強い一般化
  - その他の現象・発見
- 代表能力
  - トランスフォーマーって何ができるの？ / トランスの特性
  - 変圧器でできないことは何ですか? / トランスの限界
- 建築上の有効性
  - レイヤーの正規化
  - トークン化 / 埋め込み
  - 線形注意 / 状態空間モデル / リカレント言語モデル / など
- トレーニングのパラダイム
- 機械工学 / 探査 / 解釈可能性
- その他

興味のある現象

^ back to top ^

大規模言語モデル (LLM) およびトランスフォーマーベースのモデルで観察されるさまざまな現象、プロパティ、および動作に焦点を当てたカテゴリ。

状況に応じた学習

^ back to top ^

大規模な言語モデルにおけるコンテキスト内学習の理論的および実証的分析に焦点を当てた論文。

用紙リスト (クリックして折りたたむ/展開します)

トランスフォーマーを使用した証明可能なインコンテキスト学習: 線形回帰のケーススタディ[論文リンク] 2024-11-04
ダケ・ブ。黄魏;アンディ・ハン。二反田篤史;鈴木泰治張清福;ハウサン・ウォン
事前トレーニングされたトランスフォーマーはコンテキスト内で低次元のターゲット関数を効率的に学習します[論文リンク] 2024-11-04
大古一里;ソン・ユジン;鈴木泰治デニー・ウー
インコンテキスト学習とインウェイト学習の理解に向けて[論文リンク] 2024-10-30
ブライアン・チャン。チェン・シンイー;アンドラーシュ・ジェルジ。デール・シュールマンス
タスクの多様性を伴うインコンテキスト学習における深さとループの役割について[論文リンク] 2024-10-29
カシャヤル・ガトミリ;ニクンジ・サウンシ。サシャンク・J・レディ;ステファニー・ジェゲルカ。サンジブ・クマール
変圧器ネットワークにおけるインコンテキスト学習のためのシンボル処理のメカニズム[論文リンク] 2024-10-23
ポール・スモレンスキー。ローランド・フェルナンデス;ジェンハオ・ハーバート・ジョウ;マティア・オッパー;高建峰
トランスフォーマーはコンテキスト内で線形力学システムの動作を学習できますか? [論文リンク] 2024-10-21
ウスマン・アクラム。ハリス・ビカロ
インコンテキスト学習のためのベイジアンスケーリング則[論文リンク] 2024-10-21
アリヤマン・アローラ。ダン・ジュラフスキー;クリストファー・ポッツ。ノア・D・グッドマン
トランスフォーマーを使用した線形回帰混合の証明可能なインコンテキスト学習[論文リンク] 2024-10-18
ヤンハオ・ジン;クリシュナクマール・バラスブラマニアン。ライ・ライフェン
文脈内学習とオッカムの剃刀[論文リンク] 2024-10-17
エリック・エルモズニーノ。トム・マーティ。テジャス・カセティ。レオ・ギャニオン。サルタック・ミタル。マハン・ファティ;ダーニャ・スリダール。ギョーム・ラジョワ
インコンテキスト学習におけるコンテキストスケーリングとタスクスケーリング[論文リンク] 2024-10-16
アミールヘサム・アベドソルタン。アディティアナラヤナン・ラダクリシュナン。呉景峰。ミハイル・ベルキン
指数依存性のバイパス: ループ変換器がマルチステップ勾配降下法によりコンテキスト内で効率的に学習する[論文リンク] 2024-10-15
ボー・チェン;シャオユウ・リー。梁英宇。鎮美市;趙松
変圧器による誘導ヘッドの実装方法: 近似と最適化分析[論文リンク] 2024-10-15
王ミンゼ;ルオシー・ユウ。渭南E;レイ・ウー
インコンテキスト分類のためのトランスフォーマーのトレーニング収束について[論文リンク] 2024-10-15
ウェイ・シェン;周瑞達。ジン・ヤン。コン・シェン
トランスフォーマーは可変次数マルコフ連鎖をコンテキスト内で学習する[論文リンク] 2024-10-07
周瑞達。チャオ・ティアン。スハス・ディガヴィ
大規模言語モデルにおけるコンテキスト内学習推論回路の再検討[論文リンク] 2024-10-06
趙葉風;加藤麻里子。酒井吉弘；井上尚弥
訓練されたトランスフォーマー分類器はコンテキスト内での良性の過学習を一般化して示す[論文リンク] 2024-10-02
スペンサー・フライ。ガル・ヴァルディ
トランスフォーマーはインコンテキスト線形回帰における内生性を処理する[論文リンク] 2024-10-02
リャン・ハオドン。クリシュナクマール・バラスブラマニアン。ライ・ライフェン
誘導ヘッドの公開: トランスフォーマーにおける証明可能なトレーニングダイナミクスと特徴学習[論文リンク] 2024-09-10
チェン・シユ。ヒジュン・シーン;王天豪;楊卓蘭
学習 vs 取得: LLM を使用した回帰におけるインコンテキスト例の役割[論文リンク] 2024-09-06
アリアクバル・ナファール。クリステン・ブレント・ヴェナブル。パリサ・コルジャムシディ
Transformers は Minimax Optimal Nonparametric In-Context Learners [論文リンク] 2024-08-22
ジュノ・キム。中牧泰;鈴木泰治
文脈に沿った学習における暗記[論文リンク] 2024-08-21
シャハリアル・ゴルチン。ミハイ・スルデアヌ。スティーブン・ベサード。エドゥアルド・ブランコ。エレン・リロフ
表現によるインコンテキスト学習: 訓練されたトランスフォーマーのコンテキスト一般化[論文リンク] 2024-08-19
トンヤン。ユ・ファン。リャン・インビン;ユエジ・チー
インコンテキスト学習による高速トレーニングデータセットアトリビューション[論文リンク] 2024-08-14
ミラド・フォトウヒ。モハマド・タハ・バハドリ。オルワセイイ・フェイセタン。ペイマン・アラブシャヒ。デビッド・ヘッカーマン
Transformers は、コンテキスト内学習で複数頭の注意をどのように利用するのでしょうか?スパース線形回帰のケーススタディ[論文リンク] 2024-08-08
チェン・シンウー;雷趙。ディファン・ゾウ
トランスフォーマーは、文脈に沿った普遍的な学習者です[論文リンク] 2024-08-02
古谷隆志;マールテン・V・デ・フープ。ガブリエル・ペイレ
微調整と調整を通じて文脈内学習を理解するためのタスクとしての多項式回帰[論文リンク] 2024-07-27
マックス・ウィルコクソン。モルテン・スヴェンガルド;リア道志。ディラン・デイビス。レヤ・ヴィル;アナント・サハイ
コンテキスト内学習の解明: 動作メカニズムを理解するための座標系[論文リンク] 2024-07-24
アンハオ・ジャオ。方華葉;ジンラン・フー。シェン・シャオユウ
単層トランスフォーマーはコンテキスト内で 1 つの最近傍を証明できる[論文リンク] 2024-07-24
リー・ジハオ。袁操。チェン・ガオ;何イーハン。ハン・リウ;ジェイソン・M・クルソウスキー。ジャンチン・ファン。王孟迪
トランスフォーマーはいつコンテキスト内で構成的に一般化できるのでしょうか? [論文リンク] 2024-07-17
小林聖人;サイモン・シューグ。ヤシル・アクラム。フロリアン・レッドハート。ヨハネス・フォン・オズワルド。ラズヴァン・パスカヌ。ギョーム・ラジョワ。ジョアンサクラメント
Transformer Neural Processes を使用した In-Context In-Context Learning [論文リンク] 2024-06-19
マシュー・アシュマン。クリスティアナ・ディアコヌ。エイドリアン・ウェラー。リチャード・E・ターナー
大規模言語モデルにおける文脈内学習の意思決定境界を探る[論文リンク] 2024-06-17
趙思燕。トゥン・グエン。アディティア・グローバー
State Soup: In-Context Skill Learning, Retrieval and Mixing [論文リンク] 2024-06-12
マチェイ・ピオロ。マチェイ・ヴォウチク。ラズヴァン・パスカヌ。ヨハネス・フォン・オズワルド。ジョアンサクラメント
生成 AI の幻覚率の推定[論文リンク] 2024-06-11
アンドリュー・ジェッソン。ニコラス・ベルトラン・ベレス。クエンティン・チュー;スウェタ・カルレカール。ヤニク・コッセン。ヤリんギャル;ジョン・P・カニンガム。デヴィッド・ブレイ
BERT は文脈内生成学習者です[論文リンク] 2024-06-07
デビッド・サミュエル
SVD ベースの重み枝刈りだけでインコンテキスト学習パフォーマンスを強化する: 理論的展望[論文リンク] 2024-06-06
ヤオ・シンハオ。胡暁林。ヤン・シンジ;ヨン・リウ
言語モデルはコンテキストで何を学習しますか?構造化タスク仮説[論文リンク] 2024-06-06
李焦達。イーファン・ホウ。ムリンマヤ・サチャン。ライアン・コッテレル
線形化注意変換器の重みをモデル化するためのインコンテキスト学習の正確な変換[論文リンク] 2024-06-05
ブライアン・K・チェン;胡天陽;フイ・ジン。ヒュー・クアン・リー。川口健二
Learning to grok: モジュラー算術タスクにおけるコンテキスト内学習とスキル構成の出現[論文リンク] 2024-06-04
何天宇。ダーシル・ドーシ。アリトラ・ダス。アンドレイ・グロモフ
なぜ大規模な言語モデルではコンテキスト内学習のやり方が異なるのでしょうか? [論文リンク] 2024-05-30
鎮美市;魏君儀;徐卓燕。リャン・インユー
LLM での指導にはインコンテキスト学習で十分ですか? [論文リンク] 2024-05-30
ハオ・ジャオ。マクシム・アンドリューシチェンコ。フランチェスコ・クローチェ。ニコラス・フラマリオン
適切な潜在変数を学習すると、コンテキスト内の学習が必ず向上しますか? [論文リンク] 2024-05-29
サルタック・ミタル。エリック・エルモズニーノ。レオ・ギャニオン。サンニー・バルドワジ。ダーニャ・スリダール。ギョーム・ラジョワ
トランスフォーマーにおけるインコンテキスト学習の理論[論文リンク] 2024-05-29
ワン・イーフェイ;呉裕陽。魏澤明;ステファニー・ジェゲルカ。ワン・イーセン
自己回帰的に訓練されたトランスフォーマーにおける Mesa 最適化: 創発と能力[論文リンク] 2024-05-27
鄭晨宇；黄魏;王栄振;呉国強。ジュン・ジュウ。リー・チョンシュアン
カテゴリカルデータの Transformer In-Context Learning [論文リンク] 2024-05-27
アーロン・T・ワン;リカルド・ヘナオ。ローレンス・カリン
インコンテキスト学習におけるトランスフォーマーによる自動ドメイン適応[論文リンク] 2024-05-27
畑谷隆一郎;松井康太;今泉正明
インコンテキスト学習のためのデモンストレーションの選択と圧縮の統合[論文リンク] 2024-05-27
ジュン・ガオ
テキスト生成のためのインコンテキスト学習のノイズ耐性について[論文リンク] 2024-05-27
高宏福。張飛鵬;江文宇。ジュン・シュウ;フォン・ジェン;ウェイ・ホンシン
MLPs Learn In-Context [論文リンク] 2024-05-24
ウィリアム・L・トン;ジェンギズ・ペレヴァン
文脈内不確実性の定量化から文脈内学習能力のより良い理解に向けて[論文リンク] 2024-05-24
シャン・リウ;蔡中澤。チェン・グアンティン;リー・シャオチェン
ループ変換器は、コンテキスト内学習のためのマルチステップ勾配降下法の実装を学習できますか? [論文リンク] 2024-05-02
カシャヤル・ガトミリ;ニクンジ・サウンシ。サシャンク・J・レディ;ステファニー・ジェゲルカ。サンジブ・クマール
トランスフォーマー向けに公開された関数クラスのコンテキスト内学習[論文リンク] 2024-05-02
王志傑。ボージャン。シュアイ・リー
ロングコンテキストモデルによるインコンテキスト学習: 詳細な探索[論文リンク] 2024-04-30
アマンダ・バーチ。マオール・イヴギ;ウリ・アロン。ジョナサン・ベラント。マシュー・R・ゴームリー;グラハム・ノイビッヒ
誘導ヘッドには何が必要ですか?文脈内学習回路とその形成に関する機構的研究[論文リンク] 2024-04-10
アディティヤ・K・シン。テッド・モスコヴィッツ。フェリックス・ヒル。ステファニー・CY・チャン。アンドリュー・M・サックス
ICLは注意が必要ですか？モデルアーキテクチャとコンテキスト内学習能力の関係を探る[論文リンク] 2024-04-01
アイヴァン・リー;南江;テイラー・バーグ＝カークパトリック
インコンテキスト学習のためのマルチヘッドソフトマックスアテンションのトレーニングダイナミクス: 創発、収束、最適性[論文リンク] 2024-02-29
チェン・シユ。ヒジュン・シーン;王天豪;楊卓蘭
トランスフォーマーが勾配降下法で因果構造を学習する方法[論文リンク] 2024-02-22
イーシャーン・ニチャニ。アレックス・ダミアン;ジェイソン・D・リー
線形変圧器ブロックのインコンテキスト学習: MLP コンポーネントとワンステップ GD 初期化の利点[論文リンク] 2024-02-22
張瑞琦。呉景峰。ピーター・L・バートレット
文脈内学習を理解するための意味誘導のヘッドを特定する[論文リンク] 2024-02-20
ジエ・レン。郭啓鵬。ハン・ヤン。劉東瑞;邱西鵬。ダーファ・リン
Transformers はどのようにしてコンテキスト内自己回帰学習を実行するのでしょうか? [論文リンク] 2024-02-08
マイケル・E・サンダー。ラジャ・ギリス。鈴木泰治マチュー・ブロンデル。ガブリエル・ペイレ
マンバは学び方を学べるのか?文脈内学習タスクに関する比較研究[論文リンク] 2024-02-06
ジョンホ・パーク。パク・ジェスン;ジェヤン・シオン。イ・ナヨン。チョ・ジェウン。サメット・オイマック。イ・ガンウク。ディミトリス・パパイリオプロス
文脈内学習の情報理論的分析[論文リンク] 2024-01-28
ホン・ジュンジョン;ジェイソン・D・リー;チー・レイ;ベンジャミン・ヴァン・ロイ
トランスフォーマーにおける創発的なインコンテキスト学習の一時的な性質[論文リンク] 2023-12-11
アディティヤ・K・シン。ステファニー・CY・チャン。テッド・モスコヴィッツ。エリン・グラント。アンドリュー・M・サックス。フェリックス・ヒル
最小数が異なるインコンテキスト学習関数[論文リンク] 2023-11-21
デビッド・オニアニ;王燕山
コンテキスト内学習と命令チューニングの関係を探る[論文リンク] 2023-11-17
ハニュ・ドゥアン;唐一軒。イ・ヤン。アフメド・アッバシ;カー・ヤン・タム
状況に応じた学習が不足するのはどのような場合でしょうか?またその理由は何ですか?仕様が重いタスクに関する研究[論文リンク] 2023-11-15
ハオ・ペン;王暁志;チェン・ジェンフイ;李偉凱;ユンジア・チー;王紫夢;呉志利;曽凱盛。ビン・シュウ。レイ・ホウ;リー・ジュアンジ
文脈に沿った学習は一般化するが、常に堅牢であるとは限らない: 構文の場合[論文リンク] 2023-11-13
アーロン・ミューラーアルバート・ウェブソン。ジャクソン・ペティ。タル・リンゼン
トランスフォーマーは、コンテキスト内学習のための事前条件付き勾配降下法の実装を学習します[論文リンク] 2023-11-09
アン・グァンジュンシャン・チェン;ハディ・ダーネシュマンド。スブリットスラ
トランスフォーマーはコンテキスト内学習のための高次の最適化手法を学習: 線形モデルを使用した研究[論文リンク] 2023-10-26
徳清福;チェン・ティエンチー;ロビン・ジア;ヴァツァル・シャラン
In-Context Learning Creates Task Vectors [論文リンク] 2023-10-24
ローイ・ヘンデル。モル・ゲヴァ。アミール・グロバーソン
大規模言語モデルの関数ベクトル[論文リンク] 2023-10-23
エリック・トッド;ミリセント・L・リー;アルナブ・セン・シャルマ。アーロン・ミューラーバイロン・C・ウォレス。デビッド・バウ
Transformer を使用した文脈内学習は、対照的な学習パターンと実際に同等です[論文リンク] 2023-10-19
任瑞峰。ヨン・リウ
訓練されたトランスフォーマーがコンテキスト内で線形モデルを学習[論文リンク] 2023-10-19
張瑞琦。スペンサー・フライ。ピーター・L・バートレット
トランスフォーマーは単純な関数を超えてコンテキスト内でどのように学習するのでしょうか?表現による学習に関するケーススタディ[論文リンク] 2023-10-16
郭天宇。魏胡。ソン・メイ;ワン・ワン;カイミン・シオン。シルビオ・サバレーゼ。ユ・バイ
離散関数の学習によるトランスフォーマーと LLM のインコンテキスト学習の理解[論文リンク] 2023-10-13
サトウィク・バッタミシュラ。アーキル・パテル;フィル・ブランサム。ヴァルン・カナデ
線形回帰のインコンテキスト学習にはいくつの事前トレーニングタスクが必要ですか? [論文リンク] 2023-10-13
呉景峰。ディファン・ゾウ。チェン・ツィシアン。ウラジミール・ブレイバーマン。クァンクァン・グー。ピーター・バートレット
インコンテキスト学習はラベル関係を学習しますが、従来の学習ではありません[論文リンク] 2023-10-13
ヤニク・コッセン。ヤリんギャル;トム・レインフォース
トランスフォーマーのコンテキスト内コンバージェンス[論文リンク] 2023-10-13
ユ・ファン。ユアン・チェン;リャン・インビン
ベイジアンプリズムによるインコンテキスト学習[論文リンク] 2023-10-13
マドゥル・パンワール。カビール・アフジャ;ナビン・ゴヤル
事前トレーニングされたトランスフォーマーは本当に勾配降下法によってコンテキスト内で学習するのでしょうか? [論文リンク] 2023-10-12
シェン・リンフェン;アーユシュ・ミシュラ。ダニエル・カシャビ
コンテキスト学習では何をどのように学ぶのでしょうか?ベイジアンモデルの平均化、パラメータ化、一般化[論文リンク] 2023-10-10
張玉峰;張鳳卓。楊卓蘭。ワン・ジャオラン
カーネル回帰としての創発インコンテキスト学習の説明[論文リンク] 2023-10-05
チー・ハン。王紫琦。ハン・ジャオ。ヘン・ジ
CausalLM はコンテキスト内学習には最適ではない[論文リンク] 2023-09-02
南鼎。トマー・レビンボイム;呉嘉林;セバスチャン・グッドマン。ラドゥ・ソリカット
勾配降下法の 1 ステップは、線形自己注意を 1 層備えた最適なインコンテキスト学習者であることが証明されています[論文リンク] 2023-07-07
アルビンド・マハンカリ。橋本辰則 B.天牛馬
統計学者としてのトランスフォーマー: インコンテキストアルゴリズム選択による証明可能なインコンテキスト学習[論文リンク] 2023-07-06
ユ・バイ。ファン・チェン;ワン・ワン;カイミン・シオン。ソン・メイ
Transformers Learn In-Context by Gradient Descent [論文リンク] 2023-06-15
ヨハネス・フォン・オズワルド。エイビンド・ニクラソン。エットーレ・ランダッツォ。ジョアンサクラメント;アレクサンダー・モルドヴィンツェフ。アンドレイ・ジモギノフ。マックス・ウラジミロフ
ソフトマックス回帰におけるインコンテキスト学習とウェイトシフトの近さ[論文リンク] 2023-04-26
シュアイ・リー;趙宋；ユウ・シア;トン・ユー。周天一
暗黙的構造誘導としての創発的インコンテキスト学習の理論[論文リンク] 2023-03-14
マイケル・ハーン;ナビン・ゴヤル
文脈に沿った学習の学習可能性[論文リンク] 2023-03-14
ノーム・ヴィース;ヨアヴ・レヴィン;アムノン・シャシュア
トランスフォーマーはコンテキスト内で何を学ぶことができますか?単純な関数クラスのケーススタディ[論文リンク] 2023-01-14
シヴァム・ガーグ。ディミトリス・チプラス。パーシー・リャン。グレゴリー・ヴァリアント
トランスフォーマーは、コンテキストに保存された情報と重みに保存された情報とは異なる一般化を行う[論文リンク] 2022-10-13
ステファニー・CY・チャン。イシタ・ダスグプタ。キム・ジュンギョン;ダルシャン・クマラン。アンドリュー・K・ランピネン。フェリックス・ヒル
In-Context Learning and Induction Heads [論文リンク] 2022-09-24
キャサリン・オルソン。ネルソン・エルヘイジ;ニール・ナンダ。ニコラス・ジョセフ。ノヴァ・ダスサルマ。トム・ヘニハン;ベン・マン。アマンダ・アスケル。白ユンタオ。アンナ・チェン;トム・コナリー;ドーンドレイン;深いガングリ;ザック・ハットフィールド＝ドッズ。ダニー・ヘルナンデス。スコット・ジョンストン。アンディ・ジョーンズ。ジャクソン・カーニオン。リアン・ロビット;カマル・ヌドゥス;ダリオ・アモデイ;トム・ブラウン;ジャック・クラーク。ジャレッド・カプラン;サム・マッキャンドリッシュ。クリス・オラー

思考の連鎖

^ back to top ^

大規模な言語モデルにおける思考連鎖現象を分析し、理論的および経験的観点を探求する論文。

用紙リスト (クリックして折りたたむ/展開します)

高速思考と低速思考をトレーニングしたときに LLM 層で何が起こったのか: 勾配の視点[論文リンク] 2024-10-31
ミン・リー;ヤンホン・リー;周天一
思考連鎖の理論的理解: 首尾一貫した推論と誤り認識のデモンストレーション[論文リンク] 2024-10-21
崔英前;何鵬飛;唐咸豊。チー・ヘ。チェン・ルオ;吉良唐。ユエ・シン
疎な依存関係から疎な注意へ: 思考連鎖が変圧器のサンプル効率を強化する方法を明らかにする[論文リンク] 2024-10-07
カイユエ・ウェン。張華清;林宏州。ジンジャオ・チャン
思考連鎖推論のための非線形トランスフォーマーのトレーニング: 理論的一般化分析[論文リンク] 2024-10-03
李ホンカン。王孟。ソンタオ・ルー;崔暁東。ピンユー・チェン
自己回帰 + 思考連鎖 (CoT) ≃ リカレント: 言語モデルにおけるリカレンスの役割とリカレントトランスフォーマーの改訂[論文リンク] 2024-09-14
シャン・チャン。ムハンマド・アブドゥル・マギード。ラクス VS ラクシュマナン
思考連鎖促進法の統計的基礎を明らかにする[論文リンク] 2024-08-25
胡信陽。張鳳卓。チェン・シユ。楊卓蘭
思考連鎖の有効性に影響を与える要因の解読: 確率、暗記、ノイズの多い推論[論文リンク] 2024-07-01
アクシャラ・プラバーカール。トーマス・L・グリフィス; R・トーマス・マッコイ
思考連鎖推論による神経言語モデルの表現能力について[論文リンク] 2024-06-20
フランツ・ノヴァク。アネジ・スヴェテ。アレクサンドラ・ブトイ。ライアン・コッテレル
イテレーションヘッド: 思考連鎖の機構的研究[論文リンク] 2024-06-04
ヴィヴィアン・カバンヌ。チャールズ・アーナル。ワシム・ブアジズ。アリス・ヤン。フランソワ・シャルトン。ジュリア・ケンペ
ドットバイドットで考えてみよう: Transformer 言語モデルの隠れた計算[論文リンク] 2024-04-24
ジェイコブ・ファウ;ウィリアム・メリル。サミュエル・R・ボウマン
思考の連鎖によりトランスフォーマーが本質的に連続する問題を解決できるようになる[論文リンク] 2024-02-20
リー・ジーユアンホン・リウ。デニー・ジョウ;天牛馬
思考連鎖の背後にある謎の解明に向けて: 理論的展望[論文リンク] 2023-12-22
グハオ・フォン;張博航;ユンティアン・グー。ハオティアン・イェ。ディヘ。王麗偉
なぜ大規模な言語モデルは正しい思考連鎖を生成できるのでしょうか? [論文リンク] 2023-10-20
ラスル・ツトゥノフ。アントワーヌ・グロニット。ユリウス・ジオメク。ワン・ジュン;ハイサム・ボウアンマル
大規模な言語モデルはどのように思考連鎖を実装するのでしょうか? [論文リンク] 2023-10-13
ワン・イークン;シレ・フー;張永剛;シャン・ティアン。劉雪松。ヤオウー・チェン;徐シェン;イェピン・イエ
思考の連鎖によるトランスフォーマーの表現力[論文リンク] 2023-10-13
ウィリアム・メリル。アシシュ・サバーワル

幻覚

^ back to top ^

理論的分析と実証的分析の両方を含め、言語モデルにおける幻覚現象を調査した論文。

用紙リスト (クリックして折りたたむ/展開します)

フリーランチなし: 非幻覚生成モデル学習の基本的な限界[論文リンク] 2024-10-24
ウー・チャンロン。アナンス・グラマ。ヴォイチェフ・シュパンコウスキー
共有された想像力: LLM は同様に幻覚を示す[論文リンク] 2024-07-23
周一倫。カイミン・シオン。シルビオ・サバレーゼ。ウー・チェンシェン
生成 AI の幻覚率の推定[論文リンク] 2024-06-11
アンドリュー・ジェッソン。ニコラス・ベルトラン・ベレス。クエンティン・チュー;スウェタ・カルレカール。ヤニク・コッセン。ヤリんギャル;ジョン・P・カニンガム。デヴィッド・ブレイ
新しい知識に基づいて LLM を微調整すると幻覚が助長されますか? [論文リンク] 2024-05-09
ゾリク・ゲフマン。ギャルヨナ。ローイ・アハロニ。マタン・エヤル。アミール・フェダー;ロイ・ライチャート;ジョナサン・ヘルツィヒ
言語モデルにおける非事実幻覚のメカニズム[論文リンク] 2024-03-26
レイ・ユー。孟操。ジャッキー・チー・キット・チャン。ユエドン
馴染みのない微調整例は言語モデルの幻覚を制御する[論文リンク] 2024-03-08
ケイティ・カン。エリック・ウォレス;クレア・トムリン。アビラル・クマール;セルゲイ・レヴィン
アラートとしてのコンテキスト内の鮮明さ: 幻覚軽減のための内部表現の視点[論文リンク] 2024-03-05
シーチー・チェン;ミャオ・シオン。ジュンテン・リウ。呉正玄;テン・シャオ;シヤン・ガオ。何潤賢
調整された言語モデルは幻覚を起こす必要がある[論文リンク] 2023-11-24
アダム・タウマン・カライ。サントシュ・S・ベンパラ
幻覚性の答えられない奇妙なケース: 自信過剰な大規模言語モデルの隠れた状態の真実を見つける[論文リンク] 2023-10-18
アビブ・スロボドキン。オマー・ゴールドマン;アヴィ・カシウラル。イド・ダガン。シャウリ・ラヴフォーゲル

逆転の呪い

^ back to top ^

大規模言語モデルにおける逆転の呪い現象を分析した論文。

用紙リスト (クリックして折りたたむ/展開します)

トレーニングダイナミクスによる「逆転の呪い」の理論的理解に向けて[論文リンク] 2024-05-07
ハンリン・ジュー。黄白河。チャン・シャオラン。マイケル・ジョーダン;ジャンタオ・ジャオ。元東天。スチュアート・ラッセル
逆転の呪い: 「A は B」で訓練された LLM は「B は A」を学習できない[論文リンク] 2024-04-04
ルーカス・ベルグルンド。メグ・トン。マックス・カウフマン。ミキタ・バレスニ;エイサ・クーパー・スティックランド。トマシュ・コルバック。オウェイン・エヴァンス
逆関係の理解における LLM の無力性に関する調査[論文リンク] 2023-12-01
チー・チェンウェン。ボーウェン・リー;ビンユアン・ホイ。王百林;李晋陽。呉晋王。ユアンジュン・ライリ
言語モデルの物理学: パート 3.2、知識操作[論文リンク] 2023-09-25
ゼユアン・アレン・ジュー;李源志
逆転の呪い: 因数分解の呪いの根底にあると予測するトークンなど[論文リンク] 2023-06-07
ウアイル・キトゥニ;ニクラス・ノルテ。ダイアン・ブシャクール。アディナ・ウィリアムズ。マイク・ラバット;マーク・イブラヒム

スケーリングの法則 / 緊急アビリティ / グロッキング / など

^ back to top ^

モデルのパフォーマンスがモデルサイズ、データサイズ、または計算リソースに応じてどのように拡張されるか、および予期せぬ能力の出現を調査する論文。

用紙リスト (クリックして折りたたむ/展開します)

1 ビットニューラルネットワークのスケーリングの背後にある理論を解明する[論文リンク] 2024-11-03
マジッド・ダリリ。趙宋。ヤン・チウン
事前トレーニングで重要なバッチサイズはどのようにスケールされますか? [論文リンク] 2024-10-29
ハンリン・チャン;デペン・モルワニ;ニキル・ヴィアス。呉景峰。ディファン・ゾウ。ウダヤ・ガイ。ディーン・フォスター。シャム・カカデ
言語モデルにおける計算最適サイズのスケーリング、創発、プラトーの情報理論[論文リンク] 2024-10-15
アヌジ・K・ナヤック。ラヴ・R・ヴァーシュニー
スケーリング法則推定のヒッチハイクガイド[論文リンク] 2024-10-15
レシェム・チョーシェン。ヤン・チャン。ジェイコブ・アンドレアス
モデルアーキテクチャ全体にわたるスケーリング則: 大規模言語モデルにおける高密度モデルと MoE モデルの比較分析[論文リンク] 2024-10-08
王思琦;チェン・ジェンユー;北李;何克清。ミン・チャン;ジンガン・ワン
線形分離可能性の端でのグロッキング[論文リンク] 2024-10-06
アロン・ベック。ノーム・リーヴァイ;ヨハイバーシナイ
移転のためのスケーリング則の実証的研究[論文リンク] 2024-08-30
マシュー・バーネット
創発のパーコレーションモデル: 形式言語で訓練されたトランスフォーマーの分析[論文リンク] 2024-08-22
エクディープ・シン・ルバナ。川口京吾ロバート・P・ディック;田中秀典
学習率アニーリングによるスケーリング則[論文リンク] 2024-08-20
ハウ組織。ビーナス・ワン;ルー・ワン
大規模言語モデルのパフォーマンスの法則[論文リンク] 2024-08-19
ウー・チューハン。瑞明唐
情報理論的進歩測定により、グロッキングは緊急相転移であることが明らかに[論文リンク] 2024-08-16
ケンゾー・クロウ。セバスティアーノ・ストラマーリア;ダニエレ・マリナッツォ
Large Language Monkeys: 反復サンプリングによる推論計算のスケーリング[論文リンク] 2024-07-31
ブラッドリー・ブラウン;ジョーダン・ジュラフスキー。ライアン・アーリック;ロナルド・クラーク。クオック・V・ル;クリストファー・レ。アザリア・ミルホセイニ
非ニューラルモデルの出現: 平均勾配外積によるグロッキングモジュラー演算[論文リンク] 2024-07-29
ニール・マリナー。ダニエル・ビーグルホール。リビン・ジュー。アディティアナラヤナン・ラダクリシュナン。パルテ・パンディット;ミハイル・ベルキン
LLM の堅牢性におけるスケーリングトレンドの探索[論文リンク] 2024-07-25
ニコラウス・ハウ。ミハウ・ザジャック;イアン・マッケンジー。オスカー・ホリンズワース。トム・ツェン;ピエール＝リュック・ベーコン。アダム・グリーブ
言語モデルにおけるスケール、データ、バイアスの相互作用を理解する: BERT を使用したケーススタディ[論文リンク] 2024-07-25
モハメド・アリ。スウェタスダ・パンダ。キンラン・シェン;マイケル・ウィック;アリ・コブレン
語彙によるスケーリング則: より大きなモデルはより大きな語彙に値する[論文リンク] 2024-07-18
チャオファン・タオ。劉銭洞龍秀。ニクラス・ムニホフ。ワン・ジョンウェイ;ピン・ルオ。ミン・リン;ンガイ・ウォン
なぜグロクするのですか？ Grokking モジュラー加算の理論的分析[論文リンク] 2024-07-17
モハマド・アミン・モハマディ。リー・ジーユアンレイ・ウー。ダニカ・J・サザーランド
微調整による緊急機能の予測[論文リンク] 2024-07-10
チャーリー・ビクター・スネル。エリック・ウォレス;ダン・クライン。セルゲイ・レヴィン
言語モデルのコンピューティングに最適なスケーリングにおける不一致の解決[論文リンク] 2024-06-25
トメル・ポリアン。ミッチェル・ワーツマン;ジェニア・ジツェフ。ルートヴィヒ・シュミット;ヤイル・カーモン
線形複雑性言語モデルのスケーリング則[論文リンク] 2024-06-24
沈徐陽。ドン・リー。ルイタオ・レン。チン・ジェン;孫偉高。チョン・イーラン
大規模言語モデルの事実記憶のためのスケーリング則[論文リンク] 2024-06-22
ルー・シンユー;シャオナン・リー。チェン・チンユアン;カイ・ディン。黄玄京。シペン・チウ
カプランとチンチラのスケーリング法則の調和[論文リンク] 2024-06-12
ティム・ピアースソン・ジンヨプ
Deep Grokking: ディープニューラルネットワークはより一般化できるでしょうか? [論文リンク] 2024-05-29
シミン・ファン;ラズヴァン・パスカヌ。マーティン・ジャギ
言語崩壊: (大) 言語モデルにおける神経崩壊[論文リンク] 2024-05-28
ロバート・ウー;ヴァルダン・パピアン
固定トレーニング期間を超えたスケーリングの法則とコンピューティング最適化トレーニング[論文リンク] 2024-05-28
アレクサンダー・ヘーゲル。エリー・バクーシュ。アトリ・コッソン。ルブナ・ベン・アラル。レアンドロ・フォン・ヴェッラ。マーティン・ジャギ
gzip がデータ依存のスケーリング則を予測[論文リンク] 2024-05-26
ローハン・パンディ
言語変換器における高次元抽象化フェーズの出現[論文リンク] 2024-05-24
エミリー・チェン;ディエゴ・ドイモ。コランティン・ケルバデック。イウリ・マコッコ;ジェイド・ユウ;アレッサンドロ・ライオ。マルコ・バローニ
ニューラルネットワークのトレーニングにおけるグロッキングの周波数の観点からの理論的根拠[論文リンク] 2024-05-24
周張晨；ヤオユー・チャン。ジーチン・ジョン・シュー
Grokked Transformers are Implicit Reasoner: A Mechanistic Journey to the Edge of Generalization [論文リンク] 2024-05-23
王博志;シャン・ユエ。ユ・ス;フアン・スン
データ混合の効率化: 言語モデルの事前トレーニングのための二変量スケーリング則[論文リンク] 2024-05-23
セ・ゲ;馬志建。チェン・ダオユアンヤリアン・リー。ディン・ボーリン
コンピューティング最適化ニューラルスケーリング則の 4+3 フェーズ[論文リンク] 2024-05-23
エリオット・パケット。コートニー・パケット。楽超暁。ジェフリー・ペニントン
大数の法則の奴隷: 生成言語モデルにおける複雑さの漸近等分性[論文リンク] 2024-05-22
ラグー・ムドゥンバイ。タイラー・ベル
大規模言語モデルにおける創発の定量化[論文リンク] 2024-05-21
ハン・チェン;ヤン・シンユウ;朱嘉英。ワン・ウェンヤ
スケーリングの法則を超えて: 連想メモリによる変圧器のパフォーマンスを理解する[論文リンク] 2024-05-14
牛雪燕。ボーバイ。雷鄧；魏漢
必要なのはより多くのコンピューティングです[論文リンク] 2024-04-30
郭鎮
創発則とスケーリング則の正確に解けるモデル[論文リンク] 2024-04-26
ナム・ユンス。ナヤラ・フォンセカ。イ・ソクヒョン;アード・ルイス
小規模な言語モデルのパフォーマンスが低下するのはなぜですか? Softmax ボトルネックを介した言語モデルの飽和の研究[論文リンク] 2024-04-11
ネイサン・ゴディ。エリック・ド・ラ・クレジュリー。ブノワ・サゴ
大規模探査 $mu$ -移転[紙リンク] 2024-04-08
ルーカス・リングル
縮小スケール生成言語モデルにおける緊急能力[論文リンク] 2024-04-02
シェリン・ムカティラ。ヴィジェタ・デシュパンデ。ウラジスラフ・リアリン。アンナ・ラムシスキー
損失の観点から言語モデルの創発能力を理解する[論文リンク] 2024-03-23
鄭暁都;アオハン・ゼン;ドン・ユシャオ;ジエ・タン
スケーリング則の謎を解く: パート I [論文リンク] 2024-03-21
ホイ・スー。志天。シェン・シャオユウ。蔡俊良
言語モデルはオーバートレーニングや下流のタスクでも確実に拡張可能[論文リンク] 2024-03-13
サミール・イツハク・ガドレ。ゲオルギオス・スミルニス。ヴァイシャール・シャンカール。スーチン・グルランガン。ミッチェル・ワーツマン;ルーリン・シャオ。ジャン・メルカ。アレックス・ファング;ジェフリー・リー;セドリック・ケ;ルイ・シン。マリアンナ・ネズリナ。イーゴリ・ヴァシリエビッチ。ジェニア・ジツェフ。アレクサンドロス・G・ディマキス。ガブリエル・イルハルコ;シュランソング。トーマス・コラー。ヤイル・カーモン。アチャル・デイブ;ラインハルト・ヘッケル;ニクラス・ムニホフ。ルートヴィヒ・シュミット
スケーリングが LLM 微調整に適合するとき: データ、モデル、および微調整方法の影響[論文リンク] 2024-02-26
張彪;劉忠濤。コリン・チェリー。オルハン・フィラット
複雑なモジュラー演算における Grokked Transformers の解釈[論文リンク] 2024-02-26
古田裕樹;峰岸剛輝;岩沢祐介松尾豊
尾の物語: スケーリング則の変化としてのモデルの崩壊[論文リンク] 2024-02-10
エルヴィス・ドーマトブ。フォン・ユンジェン;濮陽。フランソワ・シャルトン。ジュリア・ケンペ
データ制約のある言語モデルのスケーリング[論文リンク] 2023-10-25
ニクラス・ムニホフ。アレクサンダー・M・ラッシュ。ボアズ・バラク。テブン・ル・スカオ。アレクサンドラ・ピクトゥス。ヌアマネ・タジ。サンポ・ピイサロ。トーマス・ウルフ;コリン・ラフェル
言語モデルのダウンスケーリングのコスト: 文脈内学習の前に事実想起が低下する[論文リンク] 2023-10-06
天津;ノーラン・クレメント。シンドン;ヴァイシュナフ・ナガラジャン。マイケル・カービン。ジョナサン・ラガン＝ケリー。ギンターレ・カロリナ・ジウガイト
大規模言語モデルの創発的な能力は蜃気楼でしょうか? [論文リンク] 2023-04-28
ライラン・シェーファー。ブランド・ミランダ。サンミ・コイェジョ
計算に最適な大規模言語モデルのトレーニング[論文リンク] 2022-03-29
ジョーダン・ホフマン。セバスチャン・ボルゴー。アーサー・メンシュ。エレナ・ブチャツカヤ。トレバー・カイ。イライザ・ラザフォード。ディエゴ・デ・ラス・カサス。リサ・アン・ヘンドリックス。ヨハネス・ウェルブル。エイダン・クラーク。トム・ヘニガン。エリック・ノーランド;ケイティ・ミリカン。ジョージ・ヴァン・デン・ドリーシェ。ボグダン・ダモック。オーレリア・ガイ。サイモン・オシンデロ。カレン・シモニアン。エーリッヒ・エルセン;ジャック・W・レイ;オリオール・ビニールズ。ローラン・シフレ
神経言語モデルのスケーリング則[論文リンク] 2020-01-22
ジャレッド・カプラン;サム・マッキャンドリッシュ。トム・ヘニハン;トム・B・ブラウン;ベンジャミン・チェス。レウォンチャイルド。スコット・グレイ;アレック・ラドフォード。ジェフリー・ウー;ダリオ・アモデイ

知識/記憶のメカニズム

^ back to top ^

大規模な言語モデルが知識をどのように保存、取得、利用するかに焦点を当て、関連する記憶メカニズムを分析する論文。

用紙リスト (クリックして折りたたむ/展開します)

生成モデルにおける記憶を理解するための幾何学的フレームワーク[論文リンク] 2024-10-31
ブレンダン・リー・ロス。ハミドレザ・カムカリ。呉同子。ラサ・ホセインザデ;劉趙燕。ジョージ・スタイン。ジェシー・C・クレスウェル。ガブリエル・ロアイザ＝ガネム
変圧器の最適な記憶容量[論文リンク] 2024-09-26
梶塚登紀夫。佐藤一成
シュレディンガー記憶: 大規模言語モデル[論文リンク] 2024-09-16
ウェイ・ワン;チン・リー
Self-Atention Limits Working Memory Capacity of Transformer-Based Model [論文リンク] 2024-09-16
ドンユ・ゴン。ハンタオ・チャン
優れた記憶力、浅い推論: kNN-LM の限界[論文リンク] 2024-08-21
耿尚宜;趙ウェンティン;アレクサンダー・M・ラッシュ
文脈に沿った学習における暗記[論文リンク] 2024-08-21
シャハリアル・ゴルチン。ミハイ・スルデアヌ。スティーブン・ベサード;エドゥアルド・ブランコ;エレン・リロフ
一般化最初に、記憶は2番目ですか？自然言語分類タスクのための記憶のローカライズ[紙リンク] 2024-08-09
ヴェルナダンカー;イヴァン・ティトフ
LLMSの記憶の理解：ダイナミクス、影響要因、および意味[紙リンク] 2024-07-27
Speicherまで;モハマド・アフラ・カーン; Qinyuan wu;ヴェーダンナンダ;スミダス; Bishwamittra Ghosh;クリシュナ・P・グンマディ; Evimaria Terzi
大規模な言語モデルでの逐語的な暗記の想起[紙リンク] 2024-07-25
Jing Huang; diyi yang;クリストファー・ポッツ
内部紛争から言語モデルの文脈的適応まで[紙リンク] 2024-07-24
サラ・ベラ・マルジャノヴィッチ; Haeun Yu;ペパ・アタナソワ;マリア・マストロ;クリスティーナ・リオマ;イザベル・アウゲンシュタイン
一般化vs暗記：言語モデルのトレース式の機能を事前に移動するデータ[Paper Link] 2024-07-20
アントニス・アントニアデス; Xinyi Wang;ヤナイ・エラザール; Alfonso Amayuelas;アロン・アルバラク; Kexun Zhang;ウィリアム・ヤン・ワン
言語モデルの物理学：パート3.1、知識ストレージと抽出[紙リンク] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi Li
コンテキスト学習におけるパターンマッチングの重要なメカニズムとしての誘導ヘッド[Paper Link] 2024-07-09
J.クロスビー; E.シャトバ
LLMSは象を夢見ていますか（いつ言われないか）？トランスの潜在コンセプトの関連と連想記憶[紙リンク] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar;ブリオン・アラガム
大規模な言語モデルの事実暗記のためのスケーリング法[紙リンク] 2024-06-22
xingyu lu; Xiaonan Li; Qinyuan cheng;カイディン; Xuanjing Huang; Xipeng Qiu
ドットを接続する：LLMSは、異なるトレーニングデータから潜在的な構造を推測して言葉で推測し、言葉で説明することができます[Paper Link] 2024-06-20
ヨハネス・トルツレイン;ダミコ;ヤン・ベトリー; cem anil;サミュエルマークス;ロジャー・ベイカー・グロス; Owain Evans
潜在的な記憶の発見：大規模な言語モデルのデータの漏れと暗記パターンの評価[紙リンク] 2024-06-20
サニー・ドゥアン;ミカイル・ホナ; Abhiram Iyer; Rylan Schaeffer; Ila r fiete
事実の知識抽出のための微調整の理解[紙リンク] 2024-06-20
ガウラフ・ゴーサル; Tatsunori hashimoto; Aditi Raghunathan
単一のトークンを生成せずに大手言語モデルの知識を推定[紙リンク] 2024-06-18
ダニエラゴッツマン;モルゲバ
大規模な言語モデルは、事前トレーニング中にどのように事実の知識を獲得しますか？ [紙リンク] 2024-06-17
Hoyeon Chang;ジニョパーク; seonghyeon ye;ソヒーヤン; Youngkyung Seo; Du-Seong Chang;ミンジョン・ソ
金魚のようになりなさい、覚えないでください！生成LLMS [Paper Link] 2024-06-14での暗記の緩和
Abhimanyu Hans; Yuxin Wen;ニール・ジャイン;ジョン・キルチェンバウアー。ハミド・カゼミ; Prajwal Singhania; Siddharth Singh; Gowthami somepalli;ジョナス・ガイピング; Abhinav Bhatele;トム・ゴールドスタイン
前処理された変圧器の知識回路[紙リンク] 2024-05-28
Yunzhi Yao; ningyu Zhang; Zekun XI; Mengru Wang; Ziwen Xu;シュミンデン; Huajun Chen
次のトークン予測のためのトランスの上限および下部メモリ容量境界[紙リンク] 2024-05-22
リアム・マッデン;カーティス・フォックス;クリストス・トランプリディス
大規模な言語モデルでの暗記の多視点分析[紙リンク] 2024-05-19
ボーエン・チェン;ナムギ・ハン; Yusuke miyao
言語モデルの物理学：パート3.3、知識能力スケーリング法[紙リンク] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi Li
トランスのマルチヘッド注意の暗記能力[紙リンク] 2024-03-02
Sadegh Mahdavi; Renjie Liao;クリストス・トランプリディス
変圧器の誕生：メモリの視点[紙リンク] 2023-11-06
アルベルトビエッティ; Vivien Cabannes;ダイアン・ブシャクール; Herve Jegou;レオン・ボトウ
言語モデルの物理学：パート3.2、知識操作[紙リンク] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi Li
ニューラルネットワークの暗記はローカライズできますか？ [紙リンク] 2023-07-18
Pratyush Maini;マイケルC.モーザー;ハニー・セッジ;ザカリーC.リプトン; J. Zico Kolter; Chiyuan Zhang
神経言語モデル全体の暗記の定量化[Paper Link] 2022-02-15
ニコラス・カルリニ;ダフネ・イポリト;マシュー・ジャギエルスキー;キャサリン・リー; Florian Tramer; Chiyuan Zhang

トレーニングダイナミクス /ランドスケープ /最適化 /微調整 /など

^ back to top ^

最適化、微調整、大規模な言語モデルのトレーニング状況など、トレーニングプロセスのさまざまな側面を議論する論文。

ペーパーリスト（クリックして折りたたむ /展開）

トレーニングにおけるグローバルな収束大規模な変圧器[紙リンク] 2024-10-31
チェンガオ;元cao; Zihao Li; Yihan He; Mengdi Wang;漢u;ジェイソン・マシュー・クルソフスキー; jianqingファン
速いとスロー思考のために訓練されたときにLLMSレイヤーで起こったこと：グラデーションの視点[紙リンク] 2024-10-31
MingLi;ヤンホン・リー; Tianyi Zhou
線形トランスを使用したまばらなコンテキストビッグラムの学習と転送[紙リンク] 2024-10-30
Yunwei Ren; Zixuan Wang;ジェイソン・D・リー
トランスフォーマーの突然の学習：マトリックスの完了に関するケーススタディ[紙リンク] 2024-10-29
pulkit gopalani; Ekdeep Singh Lubana;ウェイフー
Lora vs Full微調整：同等性の幻想[紙リンク] 2024-10-28
リースシャトルワース。ジェイコブ・アンドレアス;アントニオ・トラルバ; Pratyusha Sharma
トランスの学習ダイナミクスにおける分布シンプルさのバイアス[紙リンク] 2024-10-25
リカルドランデ; Federica Gerace;アレッサンドロ・ライオ;セバスチャン・ゴールド
アクティブドーマントの注意ヘッド：LLMSの極端なトークン現象を機械的に分解する[紙リンク] 2024-10-17
Tianyu Guo; Druv Pai;ユ・バイ; Jiantao Jiao;マイケルI.ジョーダン;曲メイ
トランスの実装方法誘導ヘッド：近似と最適化分析[紙リンク] 2024-10-15
Mingze Wang; Ruoxi Yu;ワイナンE;レイ・ウー
変圧器になるとはどういう意味ですか？理論的なヘシアン分析からの洞察[紙リンク] 2024-10-14
Weronika ormaniec;フェリックスデンジェル;シダックパルシン
LLMSの適応Odyssey：なぜ追加の事前トレーニングが改善できないのですか？ [紙リンク] 2024-10-08
fıratÖncel;マティアス・ベッジェ;ベイザ・エルミス; Mirco Ravanelli; cem subakan; çağatayyıldız
標識勾配降下による2層変圧器の最適化と一般化について[紙リンク] 2024-10-07
Bingrui Li;ウェイ・ハン;アンディ・ハン; Zhanpeng Zhou;鈴木太極;ジュン・Zhu; Jianfei Chen
ウォームアップ - 安定した学習率の理解：リバーバレーの損失の風景の視点[紙リンク] 2024-10-07
kaiyue wen; zhiyuan li;ジェイソン・ワン;デビッドホール;パーシー・リアン;天牛馬
考え方の推論のための非線形変圧器のトレーニング：理論的一般化分析[紙リンク] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong cui;ピンユーチェン
微調整注意メカニズムに関する理論的洞察：一般化と最適化[紙リンク] 2024-10-03
Xinhao Yao;ホンジン・チアン; Xiaolin Hu; Gengze Xu;ヨンリウ
訓練された変圧器分類器は、良性の過剰適合を一般化して展示します。
スペンサー・フレイ;ギャル・ヴァルディ
トレーニング後のLLMにおける合成データの理論的理解に向けて：リバースボトルネックの視点[紙リンク] 2024-10-02
ZEYU GAN;ヨンリウ
大手言語モデルにおけるモデルの複雑さの影響の調査[紙リンク] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
トークンの注意メカニズムの選択におけるベンギーまたは非装備の過剰装備[紙リンク] 2024-09-26
坂本キタロ;一島佐藤
次のトークン予測のためのトレーニングトランスの非アサイストの収束[紙リンク] 2024-09-25
Ruiquan Huang; Yingbin Liang;ジンヤン
大規模な言語モデルの最適化ハイパーパラメーター法[紙リンク] 2024-09-07
xingyu xie; Kuangyu Ding; Shuicheng Yan;キム・チュアン・トー; Tianwen wei
Ademamix Optimizer：より良く、より速く、古い[紙リンク] 2024-09-05
Matteo Pagliardini;ピエール・アブリン;デビッド・グリンジャー
クラスタリングとアラインメント：モジュラー追加のトレーニングダイナミクスの理解[紙リンク] 2024-08-18
Tiberiu Musat
トレーニングにおけるグローバルコンバージェンス大規模な変圧器[紙リンク] 2024-08
チェンガオ;元cao; Zihao Li; Yihan He; Mengdi Wang;漢u;ジェイソン・M・クルソフスキー; jianqingファン
エンコーダのみの浅い変圧器の収束について[紙リンク] 2024-08
Yongtao Wu; Fanghui Liu; Grigorios G Chrysos; Volkan Cevher
継続的な学習のためのパラメーター効率の高い微調整：神経接線カーネルの視点[紙リンク] 2024-07-24
ジンレン・リュー; Zhong Ji; Yunlong Yu; Jiale Cao; Yanwei Pang;ユンガン・ハン; xuelong li
LLM Finetuning [Paper Link] 2024-07-15の学習ダイナミクス
yi ren;ダニカJ.サザーランド
言語モデルの優れたオプティマイザーを作るものを解体する[紙リンク] 2024-07-10
ロージー・Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas;シャム・カカデ
指導チューニング中のゼロショット一般化：類似性と粒度からの洞察[紙リンク] 2024-06-17
bingxiang彼。 ningディン;チェン・チアン; Jia deng; Ganqu Cui; Lifan Yuan; Huan-ang gao; Huimin Chen; zhiyuan liu;マソン太陽
NTKの視点からの線形調査の理解その後の微調整言語モデル[紙リンク] 2024-05-27
アキヨシトミハリ;一島佐藤
マルチヘッドトランスダイナミクスの無限の制限[Paper Link] 2024-05-24
ブレイク・ボルデロン; Hamza Tahir Chaudhry; Cengiz Pehlevan
トレーニングダイナミクスによる「逆転呪い」の理論的理解に向けて[Paper Link] 2024-05-07
ハンリン・Zhu; Baihe Huang; Shaolun Zhang;マイケル・ジョーダン; Jiantao Jiao; Yuandong Tian;スチュアートラッセル
微調整および転送学習への理論的アプローチを制御[紙リンク] 2024-04-16
エルカン・ベイラム; Shenyu Liu;モハメド・アリ・ベラバス;タマー・バシャー
テキストを見てください：命令チューニングされた言語モデルは、あなたが思っているよりも堅牢な複数選択セレクターです[紙リンク] 2024-04-12
Xinpeng Wang; chengzhi hu; Bolei Ma;ポール・ロッタ;バーバラプランク
トレーニングデータGPTモデルの影響[Paper Link] 2024-04-11
清li; Yekun Chai; shuohuan wang; Yu Sun;ケズ・ワン; Hua Wu
言語モデルの合成データで学んだベストプラクティスとレッスン[Paper Link] 2024-04-11
Ruibo Liu;ジェリー・ウェイ; Fangyu Liu; chenglei si;ヤンツヘ・チャン;ジンメンラオ;スティーブン・ゼン; daiyi peng; diyi yang;デニー・Zhou;アンドリュー・M・ダイ
合成データのトレーニングはどれほど悪いですか？言語モデルの統計分析[紙リンク] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen;スーフィアン・ハヨー; Pierre Youssef; Merouane Debbah
微調整された大手言語モデルの一般化力の発表[紙リンク] 2024-03-14
ハオランヤン; Yumeng Zhang; jiaqi xu; Hongyuan lu; Pheng Ann Heng;ワイ・ラム
トランスは安定します：言語モデルのエンドツーエンド信号伝播理論[紙リンク] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia;ジュンゴ・ジョン; Harshith Goka;ヘジュン・リー
直線的な注意は（たぶん）必要なすべてです（変圧器の最適化を理解するため） [紙リンク] 2024-03-13
Kwangjun Ahn; Xiang cheng;ミンハクソング;チュルヒー・ユン;アリ・ジャドババイ; Suvrit Sra
ニューラルネットワークとLLMSの最適化軌跡の特徴：長さ、曲がり、行き止まり[紙リンク] 2024-03-12
Sidak Pal Singh;ボビーHE;トーマス・ホフマン;ベルンハルト・シェルコップフ
ヒューリスティックコア：事前に守られた言語モデルでのサブネットワーク一般化の理解[紙リンク] 2024-03-06
Adithya Bhaskar;ダン・フリードマン;ダンキチェン
コンテキスト学習のためのマルチヘッドソフトマックスの注意のトレーニングダイナミクス：出現、収束、および最適性[紙リンク] 2024-02-29
Siyu Chen; Hejune Sheen; Tianhao Wang; Zhuoran Yang
変圧器が勾配降下で因果構造を学ぶ方法[紙リンク] 2024-02-22
エシャン・ニチャニ;アレックス・ダミアン;ジェイソン・D・リー
NTK体制でのLORAトレーニングには、局所的な最小値がありません[紙リンク] 2024-02-19
Uijeong Jang;ジェイソン・D・リー;アーネストK.リュウ
事前トレーニング中のパラダイム[紙リンク] 2024-02-06のクロスタスクの直線性の出現について
Zhanpeng Zhou; Zijun Chen; Yilan Chen; Bo Zhang; Junchi Yan
トランスは、段階的ランクの増加を通じて学習します[紙リンク] 2023-12-10
Enric Boix-Adsera;エタイ・リトウィン;エマニュエル・アベ;サミーベンギオ;ジョシュア・ススキンド
手続き的に定義されたタスク[Paper Link] 2023-11-21に対する微調整の影響を機械的に分析する
サミヤク・ジャイン;ロバート・カーク; Ekdeep Singh Lubana;ロバート・P・ディック; Hidenori Tanaka;エドワード・グレフェンステット;ティム・ロックテルシェル;デビッド・スコット・クルーガー
表現のプロパティを介して、事前に訓練された言語モデルとダウンストリームタスクを接続する[紙リンク] 2023-11-02
チェンウェイ・ウー;ホールデン・リー; rong ge
スキャンとスナップ：1層トランスのトレーニングダイナミクスとトークン組成の理解[紙リンク] 2023-07-02
Yuandong Tian; Yiping Wang;ベディ・チェン;サイモン・デュ
言語モデルのカーネルベースのビュー微調整[紙リンク] 2023-06-15
サディカ・マラディ;アレクサンダー・ウェッティグ; Dingli Yu; Danqi Chen; Sanjeev arora
事前に訓練されたモデルの微調整の安定性分析[紙リンク] 2023-01-24
Zihao Fu;アンソニー・マンチョー。ナイジェルコリアー

学習 /一般化 /推論 /弱いものから強力な一般化

^ back to top ^

弱いから強力な一般化まで、言語モデルの学習能力と一般化パフォーマンスを分析する論文。

ペーパーリスト（クリックして折りたたむ /展開）

再発性ニューラルネットワークの一般化とリスク境界[紙リンク] 2024-11-05
Xuewei cheng; Ke Huang;シュジー・マ
スペクトルフィルタリング[ペーパーリンク] 2024-11-01を介した順序予測における証明可能な長さの一般化
アニー・マースデン;エヴァン・ドガリウ;ナマン・アガルワル; Xinyi Chen;ダニエル・スー; Elad Hazan
RL-STAR：独学の推論のための強化学習フレームワークの理論分析[Paper Link] 2024-10-31
Fu-Chieh Chang; yu-geting lee; hui-ing shih; Pei-yuan wu
オウムの混合：専門家は推論よりも多くの暗記を改善します[紙リンク] 2024-10-24
サミー・ジェラッシ;クララ・モーリ; David Brandfonbrener;アレックス・グ。 Nikhil Vyas;ニキル・アナンド; David Alvarez-Melis; Yuanzhi Li;シャムM.カカデ;エラン・マラッハ
数値精度がLLMSの数学的推論能力にどのように影響するか[Paper Link] 2024-10-17
グハオ・フェン;カイヤン; Yuntian Gu; XINYUE AI; Shengjie Luo; jiacheng Sun; di he; Zhenguo li; liwei wang
トランスのランク依存の一般化エラー境界[紙リンク] 2024-10-15
Lan V. Truong
一頭の頭の注意[Paper Link] 2024-10-10の良性の過剰フィット
Roey Magen;シャンジングシャン; zhiwei xu;スペンサー・フレイ;ウェイフー;ギャル・ヴァルディ
概念学習と構成一般化のダイナミクス[紙リンク] 2024-10-10
ヨンギヤン;コアフランシスコパーク。 Ekdeep Singh Lubana;マヤ・オカワ;ウェイフー; Hidenori Tanaka
訓練された2層リルーネットワークを使用した回帰のための良性の過剰フィット[Paper Link] 2024-10-08
Junhyung Park;パトリック・ブローバウム; Shiva Prasad Kasiviswanathan
良性の過剰適合[紙リンク] 2024-10-06を介した証明可能な弱い一般化
デビッドX.ウー;アナント・サハイ
トランスの長さの一般化を理解するための正式なフレームワーク[紙リンク] 2024-10-03
Xinting Huang;アンディ・ヤン; Satwik Bhattamishra; Yash Sarrof;アンドレアスクレブス;ハッティ・Zhou; Preetum Nakkiran;マイケル・ハーン
訓練された変圧器分類器は、良性の過剰適合を一般化して展示します。
スペンサー・フレイ;ギャル・ヴァルディ
大規模な言語モデルでの思考線[紙リンク] 2024-10-02
ラファエル・サルファティ;トニJB liu;ニコラス・ブレ;クリストファーJ.アールズ
大手言語モデルにおけるモデルの複雑さの影響の調査[紙リンク] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
注意メカニズムのトークン選択における良性または存在しない過剰適合[紙リンク] 2024-09-26
坂本キタロ;一島佐藤
学習ダイナミクスによる構成マッピングに対する単純さのバイアス[紙リンク] 2024-09-15
yi ren;ダニカJ.サザーランド
言語モデルの忘れられない一般化[Paper Link] 2024-09-03
エリック・チャン;レシェムが選ばれました。ジェイコブ・アンドレアス
最適な弱い学習の多くの顔[紙リンク] 2024-08-30
MikaelMøllerHøgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
言語モデルの物理学：パート2.2、学年の数学の問題に関するミスから学ぶ方法[紙リンク] 2024-08-29
ティアン・イェ; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
構成による分散排出一般化：変圧器の誘導ヘッドを通るレンズ[紙リンク] 2024-08-18
Jiajun Song; Zhuoyan Xu; Yiqiao Zhong
DPO [Paper Link] 2024-08-06を使用した優先学習の一般化について
ショーン・イム; yixuan li
帰納的または演ductive？ LLMSの基本的な推論能力を再考[Paper Link] 2024-07-31
ケウェイ・チェン; Jingfeng Yang; jiang; Zhengyang Wang; Binxuan Huang; ruirui li; Shiyang Li; Zheng li; Yifan Gao; Xian Li;ビング・イン; Yizhou Sun