アライメント データセット • ドメイン固有のデータセット • 事前トレーニング データセット ?️ マルチモーダル データセット
OpenAI の GPT シリーズ、Google の Bard、Baidu の Wenxin Yiyan などの大規模言語モデル (LLM) は、重大な技術的変化を推進しています。最近、LlaMa や ChatGLM などのオープンソースの大規模モデル フレームワークの出現により、LLM のトレーニングは、リソースが豊富な企業の独占的な領域ではなくなりました。小規模な組織や個人による LLM のトレーニングは、オープンソース コミュニティの重要な関心事となっており、Alpaca、Vicuna、Luotuo などの注目すべき作品がいくつかあります。大規模な言語モデルをトレーニングするには、大規模なモデル フレームワークに加えて、大規模で高品質のトレーニング コーパスも不可欠です。現在、コミュニティ内の関連するオープンソース コーパスはまだ散在しています。したがって、このリポジトリの目標は、オープンソース コミュニティ内の LLM 向けの高品質なトレーニング コーパスを継続的に収集することです。
人間の指示に効果的に従うことができるチャットボット LLM をトレーニングするには、さまざまな会話ドメインとスタイルをカバーする高品質のデータセットにアクセスする必要があります。このリポジトリでは、リンク、サイズ、言語、使用法、各データセットの簡単な説明など、チャットボット トレーニング用に特別に設計されたデータセットの厳選されたコレクションを提供します。私たちの目標は、研究者や実践者がチャットボット LLM トレーニングのニーズに最も関連性が高く有用なデータセットを簡単に特定して選択できるようにすることです。チャットボットの対話品質、応答生成、または言語理解の向上に取り組んでいる場合でも、このリポジトリには役に立つものがあります。
貢献したい場合は、以下に連絡してください。
趙俊豪?
Wanyun Cui 教授によるアドバイス
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
ヘルプステアリング | / | RLHF | 英語 | 37,000 インスタンス | 有用性、正確性、一貫性、複雑さ、冗長性の尺度について人間が注釈を付けた RLHF データセット |
no_robots | / | SFT | 英語 | 10,000 インスタンス | 人間が作成した高品質の STF データ、シングル ターン。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
人間性_ HH_ゴールデン | ウルマ | SFT / RLHF | 英語 | 列車 42.5k + テスト 2.3k | Anthropic の Helpful and Harmless (HH) データセットの無害データセットを改善しました。 GPT4 を使用して、元の「選択された」回答を書き換えます。元の無害なデータセットと比較して、経験的に、このデータセットは無害なメトリクスに関する RLHF、DPO、または ULMA メソッドのパフォーマンスを大幅に向上させます。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
関数_ 電話をかける_ 延長された | / | ペア | 英語 コード | / | 人間が作成した高品質のデータセットにより、LM の API 使用能力が強化されます。 |
アメリカンストーリー | / | PT | 英語 | / | 米国議会図書館からスキャンされた膨大なサイズのコーパス。 |
ドルマ | オルモ | PT | / | 3Tトークン | LM 事前トレーニング用の大規模で多様なオープンソース コーパス。 |
カモノハシ | カモノハシ2 | ペア | 英語 | 25K | LM の STEM 推論能力を向上させるための非常に高品質のデータセット。 |
ツノメドリ | レドモンド・パフィン シリーズ | ダイアログ | 英語 | ~3,000 エントリ | データセットは、実際の人間と GPT-4 の間の会話で構成されており、長いコンテキスト (会話あたり 1,000 トークン以上) と複数ターンのダイアログを特徴としています。 |
小さなシリーズ | / | ペア | 英語 | / | 一連の短く簡潔なコードまたはテキストは、LM の推論能力を向上させることを目的としています。 |
ロングベンチ | / | 評価 のみ | 英語 中国語 | 17のタスク | LLM の長いコンテキスト理解機能を評価するためのベンチマーク。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
シャチチャット | / | ダイアログ | 英語 | 198,463 件のエントリー | Orca スタイルのダイアログ データセットは、LM の長い文脈の会話能力を向上させることを目的としています。 |
ダイアログスタジオ | / | ダイアログ | 多言語対応 | / | 会話型チャットボットの構築を目的とした多様なデータセットのコレクション。 |
チャットボットアリーナ _会話 | / | RLHF ダイアログ | 多言語対応 | 33,000 件の会話 | チャットボット アリーナで収集された、ペアごとの人間の好みを使用したクリーンな会話。 |
WebGLM-qa | WebGLm | ペア | 英語 | 43.6k エントリ | LLM とインターネットに基づく QA システムである WebGLM で使用されるデータセット。このデータセットの各エントリは、質問、回答、参照で構成されます。応答はリファレンスに基づいています。 |
ファイ-1 | ファイ-1 | ダイアログ | 英語 | / | 「教科書さえあれば十分」の方法を使用して生成されたデータセット。数学とCSの問題に焦点を当てています。 |
リンリー~ プレトレーニング~ データセット | リンリーシリーズ | PT | 中国語 | 3.4GB | Linly シリーズ モデルで使用される中国語の事前トレーニング データセット。ClueCorpusSmall、CSL ニュース クロールなどで構成されます。 |
ファイングレインRLHF | / | RLHF | 英語 | ~5,000 例 | リポジトリは、人間のフィードバックを収集するための新しいフレームワークを開発することを目的としています。収集されたデータは、LLM の事実の正確さ、トピックの関連性、その他の能力を向上させることを目的としています。 |
イルカ | / | ペア | 英語 | 450万件のエントリー | Microsoft の Orca を複製する試み。 FLANv2に基づいています。 |
オープンチャット_ シェアgpt4_ データセット | オープンチャット | ダイアログ | 英語 | 6,000 個のダイアログ | GPT-4 を使用して洗練された ShareGPT プロンプトを完成させることで生成された高品質のデータセット。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
オープンオルカ | / | ペア | 英語 | 450万件の完了 | 拡張された FLAN データのコレクション。オルカ紙という手法を使って生成されます。 |
COIG-PC COIG-Lite | / | ペア | 中国語 | / | COIGの拡張版。 |
WizardLM_Orca | orca_miniシリーズ | ペア | 英語 | 55,000 エントリ | WizardLM データを強化しました。 orca のメソッドを使用して生成されます。 |
arxiv はデータセットを指示します 数学 CS 物理 | / | ペア | 英語 | 50K/ 50K/ 30,000 エントリ | データセットは、ArXiv 要約から派生した質問と回答のペアで構成されます。質問は t5 ベース モデルを使用して生成され、回答は GPT-3.5 ターボ モデルを使用して生成されます。 |
私は感じています- 好奇心旺盛 | / | ペア | 英語 | 2595 件のエントリー | Google が生成したランダムな質問と事実に対応した興味深い機能を感じます。 |
ign_clean _指示する _dataset_500k | / | ペア | / | 509K エントリ | Ultrachat プロンプトのサブセットから合成的に作成される大規模な SFT データセット。詳細なデータカードがない |
ウィザードLM 進化命令 V2 | ウィザードLM | ダイアログ | 英語 | 196k エントリ | Evolve Instruct データセットの最新バージョン。 |
恐竜 | / | ペア | 英語 | 800K エントリ | 本稿の手法を適用して生成したデータセット。ハイライトは、低コストで高品質なデータを生成することです。 |
スリムパジャマ | / | PT | 主に 英語 | / | RedPajama のクリーン化および重複排除されたバージョン |
LIMA データセット | リマ | ペア | 英語 | 1,000 個のエントリ | LIMA が使用する高品質 SFT データセット: アライメントには少ない方が良い |
タイガーボットシリーズ | タイガーボット | PT ペア | 中国語 英語 | / | TigerBot のトレーニングに使用されるデータセットには、事前トレーニング データ、STF データ、および財務調査レポートなどのドメイン固有のデータセットが含まれます。 |
TSI-v0 | / | ペア | 英語 | 30,000 例 タスクごとに | 475 のタスクソース データセットから再キャストされたマルチタスク命令チューニング データ。 Flan データセットと Natural 命令に似ています。 |
NMBVC | / | PT | 中国語 | / | 大規模で継続的に更新される中国語の事前トレーニング データセット。 |
スタックオーバーフロー 役職 | / | PT | / | 35GB | 事前トレーニング用のマークダウン形式の生の StackOverflow データ。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
LaMini命令 | / | ペア | 英語 | 280万件のエントリ | flan collection、p3、および自己指導から抽出されたデータセット。 |
ウルトラチャット | / | ダイアログ | 英語 | 157万ダイアログ | 2 つの ChatGPT を使用して作成された大規模なダイアログ データセット。1 つはユーザーとして機能し、もう 1 つは応答を生成します。 |
GPT_を共有する ビクーニャ_無濾過 | ビクーニャ | ペア | 多言語対応 | 53K エントリ | クリーン化された ShareGPT データセット。 |
pku-saferlhf-データセット | ビーバー | RLHF | 英語 | 10K + 1M | この種の最初のデータセットには、安全性を優先した 10,000 個のインスタンスが含まれています。 |
RefGPT データセット 非公式リンク | RefGPT | ペア、ダイアログ | 中国語 | ~50,000 エントリ | 中国語の対話データセットは、LLM の事実の正確性を向上させる (LLM の幻覚を軽減する) ことを目的としています。 |
Luotuo-QA-A CoQA-中国語 | 羅陀プロジェクト | コンテクスト | 中国語 | 127,000のQAペア | 翻訳された CoQA に基づいて構築されたデータセット。 OpenAI APIを使用して拡張されています。 |
ウィザード-LM-中国語 命令進化 | 羅陀プロジェクト | ペア | 中国語 | ~70,000 エントリ | 中国語版 WizardLM 70K。回答は、OpenAI の GPT API で翻訳された質問をフィードしてから応答を取得することで取得されます。 |
アルパカ_中国人 データセット | / | ペア | 中国語 | / | GPT-4 で翻訳されたアルパカ データには、いくつかの補完データ (漢詩、アプリケーションなど) が含まれています。人間による検査。 |
志湖-KOL | アシスタントを開く | ペア | 中国語 | 1.5GB | 有名な中国の Zhihu QA プラットフォームの QA データ。 |
アルパカ-GPT-4_zh-cn | / | ペア | 中国語 | 約5万件のエントリー | 中国のアルパカ スタイルのデータセット。元々は中国語で GPT-4 によって生成され、翻訳されていません。 |
ああ、rlhf ハギングフェイスについて | コアラ | RLHF | 英語 | 161kペア 79.3MB | 言語モデルの無害性と有用性を向上させるための強化学習で報酬モデルをトレーニングするためのペアごとのデータセット。 |
Panther-dataset_v1 | パンサー | ペア | 英語 | 377 件のエントリー | データセットは hh-rlhf から取得されます。 hh-rlhf を入出力ペアの形式に書き換えます。 |
Baize データセット | ベーズ | ダイアログ | 英語 | 10万のダイアログ | GPT-4 によってセルフトーキングを使用して生成された対話データセット。質問やトピックは、Quora、StackOverflow、および一部の医療知識ソースから収集されます。 |
h2ogpt-fortune2000 パーソナライズされた | h2ogpt | ペア | 英語 | 11363 件のエントリ | h2oai が開発した命令の微調整では、さまざまなトピックが取り上げられました。 |
SHP | 安定したビクーニャ、 チャットオプト、 、SteamSHP | RLHF | 英語 | 385K エントリ | RLHF データセットは前述のものとは異なり、スコアとタイムスタンプを使用してユーザーの好みを推測します。スタンフォード大学が収集した 18 のドメインをカバーします。 |
ELI5 | MiniLMシリーズ | FTさん、 RLHF | 英語 | 270K エントリ | Reddit から収集された質問と回答 (スコアを含む)。 RLHF 報酬モデルのトレーニングに使用される可能性があります。 |
ウィザードLM evol_instruct V2 | ウィザードLM | ペア | 英語 | この論文の進化手法を使用した、Alpaca-52K から派生した命令微調整データセット | |
MOSS SFTデータ | 苔 | ペア、 ダイアログ | 中国語、英語 | 110万件のエントリ | MOSS チームによって収集および開発された会話データセット。すべてのデータエントリに対して、有用性、忠誠心、無害性のラベルが付いています。 |
シェアGPT52K | コアラ、安定した LLM | ペア | 多言語対応 | 52K | このデータセットは、カスタマイズされた創造的な会話に特に焦点を当てた、ShareGPT から収集された会話で構成されています。 |
GPT-4all データセット | GPT-4オール | ペア | 英語、 あるかもしれない 翻訳版 | 400k エントリ | OIG、P3、Stackoverflow のいくつかのサブセットの組み合わせ。一般的な QA、カスタマイズされたクリエイティブな質問などのトピックをカバーします。 |
コイグ | / | ペア | 中国人、 コード | 200K エントリ | 中国ベースのデータセット。これには、汎用 QA、中国語試験、コードなどのドメインが含まれています。その品質は人間のアノテーターによってチェックされます。 |
レッドパジャマ-データ-1T | レッドパジャマ | PT | 主に英語 | 1.2Tトークン 5TB | 完全にオープンな事前トレーニング データセットは、LLaMA のメソッドに従います。 |
OASST1 | オープンアシスタント | ペア、 ダイアログ | 多言語対応 (英語、スペイン語など) | 66,497 の会話ツリー | 人間が作成し、人間による注釈が付けられた大規模な高品質の会話データセット。 LLM がより自然な応答を生成できるようにすることを目的としています。 |
アルパカ-COT | フェニックス | ペア、 ダイアログ、 コット | 英語 | / | 古典的なアルパカ データセット、OIG、グアナコ、および FLAN-CoT などのいくつかの CoT (思考連鎖) データセットのような多くのデータセットの混合物。使いやすいかもしれません。 |
バクトリアン-X | / | ペア | 多言語対応 (52言語) | 言語ごとに 67,000 のエントリ | AlpacaとDolly-15Kの多言語バージョン。 |
データブリック-ドリー-15k zh-cn版 | ドリー2.0 | ペア | 英語 | 15,000 件以上のエントリ | 人間が作成したプロンプトと応答のデータセット。オープンドメインの質問応答、ブレインストーミング、要約などのタスクが特徴です。 |
AlpacaDataCleaned | アルパカ/LLaMA風のモデルも | ペア | 英語 | / | Alpaca、GPT_LLM、および GPTeacher のクリーンなバージョン。 |
GPT-4-LLM データセット | アルパカのようなモデルも | ペア、 RLHF | 英語、 中国語 | 英語と中国語のそれぞれ 52,000 エントリ 9K エントリ不自然な命令 | GPT-4 で使用されるデータセットではありません!!これは、より良いペアと RLHF のために GPT-4 およびその他の LLM によって生成されます。これには、命令データと RLHF 形式の比較データが含まれています。 |
GPTeacher | / | ペア | 英語 | 20,000 エントリ | データセットには GPT-4 によって生成されたターゲットが含まれており、Alpaca データセットと同じシード タスクの多くが含まれており、ロールプレイなどのいくつかの新しいタスクが追加されています。 |
HC3 | コアラ | RLHF | 英語、 中国語 | 24322 英語 12853 中国語 | マルチドメインの人間と ChatGPT の比較データセット。報酬モデルのトレーニングまたは ChatGPT 検出器のトレーニングに使用できます。 |
アルパカのデータ ダウンロード | アルパカ、ChatGLM-finetune-LoRA、コアラ | ダイアログ、 ペア | 英語 | 52K エントリ 21.4MB | 人間の指示に従う言語モデルの能力を向上させるために、text-davinci-003 によって生成されたデータセット。 |
OIG OIG-小型チップ2 | Pythia-Chat-Base-7B、GPT-NeoXT-Chat-Base-20B、Koala | ダイアログ、 ペア | 英語、 コード | 4,400万エントリ | マルチタスク学習用の中品質および高品質のサブセット(OIG-small-chip2)を含む大規模な会話命令データセット。 |
チャットアルパカのデータ | / | ダイアログ、 ペア | 英語、 中国語版も近日公開予定 | 10,000 エントリ 39.5MB | データセットは、研究者が複数ターンの会話で指示に従うためのモデルを開発するのに役立つことを目的としています。 |
命令ワイルド | 巨大チャット | ペア | 英語、中国語 | 10,000 エンルーズ | Alpaca スタイルのデータセットですが、chatgpt のスクリーンショットから取得したシード タスクが含まれています。 |
Firefly(流萤) | Firefly(流萤) | ペア | 中国語 | 110万件のエントリー 1.17GB | 23 のタスクにわたって人が書いた 110 万件の例を含む中国語の命令チューニング データセットですが、会話はありません。 |
ベル 0.5Mバージョン 1Mバージョン 2M版 | BELLE シリーズ、春华 | ペア | 中国語 | 合計26億7000万 | Alpaca データに似た中国語の命令データセット。シード タスクから回答を生成することによって構築されますが、会話は含まれません。 |
グアナコデータセット | グアナコ | ダイアログ、 ペア | 英語、 中国人、 日本語 | 534,530 エントリ | 自然言語理解や明示的なコンテンツ認識など、さまざまな言語タスクにおける言語モデルの機能を強化するための多言語命令データセット。 |
OpenAI WebGPT | WebGPT の報酬モデル、Koala | RLHF | 英語 | 19,578足 | WebGPT ペーパーで使用されるデータセット。 RLHF の報酬モデルのトレーニングに使用されます。 |
OpenAI 要約 比較 | コアラ | RLHF | 英語 | ~93,000 エントリ 420MB | 報酬モデルのトレーニングに役立つ人間のフィードバックのデータセット。次に、報酬モデルを使用して、人間の好みに合わせて要約モデルをトレーニングしました。 |
自己指導 | / | ペア | 英語 | 82K エントリ | 有名な自己指示手法を使用して生成されたデータセット |
不自然な指示 | / | ペア | 英語 | 240,670 件の例 | 強力なモデル (text-davinci-002) を使用してデータを生成する初期の試み。 |
xP3 (および一部の亜種) | ブルームズ、mT0 | ペア | 多言語、 コード | 7,900 万件のエントリ 88GB | Natural Instructに似た、言語モデルの汎化能力を向上させるための命令データセット。 |
フラン V2 | / | / | 英語 | / | データセットは、Flan 2021、P3、Super-Natural 命令のデータセットとさらに数十のデータセットを 1 つにコンパイルし、ゼロショット、少数ショット、および思考連鎖テンプレートの組み合わせにフォーマットします。 |
自然な指導 GitHub&ダウンロード | tk-instructシリーズ | ペア、 評価 | 多言語対応 | / | 自然言語命令の下で言語モデルのマルチタスク一般化を評価および改善するための命令と定義を含む 1,600 を超えるタスクを含むベンチマーク。 |
クロスウォズ | / | ダイアログ | 英語、 中国語 | 6K ダイアログ | この論文で紹介されたデータセットは主に北京の観光トピックに関するもので、回答はルールによって自動的に生成されます。 |
行項目を主語とします。
OIG | ああ、rlhf | xP3 | 自然な指導 | AlpacaDataCleaned | GPT-4-LLM | アルパカCoT | |
---|---|---|---|---|---|---|---|
OIG | / | 含まれています | 重なり合う | 重なり合う | 重なり合う | 重なり合う | |
ああ、rlhf | の一部 | / | 重なり合う | ||||
xP3 | 重なり合う | / | 重なり合う | 重なり合う | |||
自然な指導 | 重なり合う | 重なり合う | / | 重なり合う | |||
AlpacaDataCleaned | 重なり合う | / | 重なり合う | 重なり合う | |||
GPT-4-LLM | 重なり合う | / | 重なり合う | ||||
アルパカCoT | 重なり合う | 重なり合う | 重なり合う | 重なり合う | 重なり合う | 重なり合う | / |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
プルーフパイル | 証明-GPT | PT | 英語 ラテックス | 13GB | パイルに似ていますが、LM の証明能力を強化するための LaTeX コーパスを備えた事前トレーニング データセット。 |
peS2o | / | PT | 英語 | 7.5GB | 事前トレーニング用の高品質な学術論文データセット。 |
スタックオーバーフロー 役職 | / | PT | / | 35GB | 事前トレーニング用のマークダウン形式の生の StackOverflow データ。 |
スリムパジャマ | / | PT | 主に 英語 | / | RedPajama のクリーン化および重複排除されたバージョン |
NMBVC | / | PT | 中国語 | / | 大規模で継続的に更新される中国語の事前トレーニング データセット。 |
ファルコンリファインドウェブ | ティウアエ/ファルコンシリーズ | PT | 英語 | / | CommonCrawl の洗練されたサブセット。 |
Cブック-150K | / | PT、 建物データセット | 中国語 | 150,000冊以上の本 | 生の中国語書籍データセット。前処理パイプラインが必要です。 |
一般的なクロール | LLaMA(一部加工後) | データセットの構築、 PT | / | / | 最もよく知られている生のデータセットですが、直接使用されることはほとんどありません。考えられる前処理パイプラインの 1 つは CCNet です。 |
nlp_中国語_コーパス | / | PT、 TF | 中国語 | / | 中国語の事前学習コーパス。 Wikipedia、Baidu Baike、Baidu QA、一部のフォーラム QA、ニュース コーパスが含まれます。 |
ザ・パイル (V1) | GLM (一部)、LLaMA (一部)、GPT-J、GPT-NeoX-20B、Cerebras-GPT 6.7B、OPT-175b | PT | 多言語、 コード | 825GB | 多様なオープンソース言語モデリング データセット。多くのドメインとタスクを含む 22 個の小規模で高品質なデータセットで構成されます。 |
C4 ハグフェイス データセット TensorFlow データセット | Google T5シリーズ、LLaMA | PT | 英語 | 305GB | Common Crawl の Web クロール コーパスの巨大でクリーンなバージョン。頻繁に使用されます。 |
ルーツ | 咲く | PT | 多言語、 コード | 1.6TB | 言語モデリング用の Wikipedia や StackExchange などのサブデータセットで構成される多様なオープンソース データセット。 |
PushshPairsレディット 紙 | OPT-175b | PT | / | / | 生の reddit データ、この論文で考えられる処理パイプラインの 1 つ |
グーテンベルクプロジェクト | ラマ | PT | 多言語対応 | / | 書籍データセット、主に小説。前処理は行わないでください。 |
CLUECorpus | / | PT、 微調整、 評価 | 中国語 | 100GB | Common Crawlをソースとする中国語の事前学習コーパス。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
スターコーダーデータ | スターコーダー シリーズ | PT | コード | 783GB | LM のコーディング能力を向上させるための大規模な事前トレーニング データセット。 |
コード_ 説明書 _120k_アルパカ | / | ペア | 英語/コード | 121,959 件のエントリー | 命令ファインチューン形式の code_instruction。 |
関数- 呼び出し - 25k | MPT の一部 バリエーション | ペア | 英語のコード | 25,000 エントリ | データセットは、自然言語プロンプトに基づいて APIsGuru 関数を正しく呼び出す方法を AI モデルに教えることを目的としています。 |
定理QA | / | ペア | 英語 | 800 | 高品質の STEM 理論 QA データセット。 |
ファイ-1 | ファイ-1 | ダイアログ | 英語 | / | 「教科書さえあれば十分」の方法を使用して生成されたデータセット。数学とCSの問題に焦点を当てています。 |
フィンNLP | フィンGPT | 生データ | 英語、 中国語 | / | オープンソースの生の財務テキスト データ。ニュース、ソーシャルメディアなどが含まれます。 |
PRM800K | の亜種 GPT-4 | コンテクスト | 英語 | 800K エントリ | 数学的問題のためのプロセス監視データセット |
MeChatデータ | メチャット | ダイアログ | 中国語 | 355733 回の発言 | メンタルヘルスケア チャットボットをトレーニングするための中国の SFT データセット。 |
ChatGPT-脱獄プロンプト | / | / | 英語 | ファイルサイズ 163KB | ChatGPT の安全規制をバイパスするためのプロンプトが表示されます。 LLM の無害性を調査するために使用可能 |
すごい中国語 法的リソース | ローグPT | / | 中国語 | / | LLM トレーニング用の中国の法律データのコレクション。 |
長い形式 | / | ペア | 英語 | 23.7K エントリ | データセットは、LLM の長文テキスト生成能力を向上させることを目的としています。 |
シンボリック命令チューニング | / | ペア | 英語、 コード | 796 | データセットは、SQL コーディング、数学的計算などの「記号的」タスクに焦点を当てています。 |
安全性に関するプロンプト | / | 評価のみ | 中国語 | 100,000 エントリ | 中国の安全性は、LLM の安全性の評価と改善を促しています。 |
バク掃除済み | / | ペア | 英語、 | 116k エントリ | これは、PairsTT ルールの DAISLab データセットの改訂版であり、命令チューニングの目的で徹底的にクリーニング、スコアリング、調整が行われています。 |
指導_ コードサーチネット_Python | / | ペア | 英語 & パイソン | 192MB | このデータセットは、Open-Assistant プロジェクトの code-search-net データセットの注釈付きバージョンから生成された、テンプレートで生成された教育用 Python データセットです。 |
金融アルパカ | / | ペア | 英語 | 1.3K エントリ | アルパカ スタイルのデータセットですが、金融トピックに焦点を当てています |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
GPT4Vを共有する | / | 画像プロンプトキャプション | 英語 | 120万のインスタンス | GPT4-Vision を利用したマルチモーダル キャプション データのセット。 |
オベリックス | イデフィックス シリーズ | 画像ドキュメント | 英語 | 1億4,100万の文書 | インターリーブされた画像とテキストの Web ドキュメントの、オープンで大規模で精選されたコレクション。 |
ジャーニーDB | / | 画像プロンプトキャプション | 英語 | 400万インスタンス | 大規模なデータセットは、Midjourney 画像に基づいた QA、キャプション、テキスト プロンプト タスクで構成されます。 |
M3IT | イン VLM | 説明画像 | 多言語対応 | 240万インスタンス | データセットは 40 のタスクと 400 の人間による記述された指示で構成されます。 |
ミミックIT | カワウソ | 説明画像 | 多言語対応 | 220万インスタンス | 画像とビデオに基づいた高品質のマルチモーダル命令と応答のペア。 |
LLaVAの使い方 | LLaVA | 説明画像 | 英語 | 158kサンプル | GPT-4 に指示を取得するよう促すことで、COCO データセットに基づいて生成されたマルチモーダル データセット。 |
データセット名 | 使用者 | タイプ | 言語 | サイズ | 説明 ️ |
---|---|---|---|---|---|
WebText (Reddit リンク) | GPT-2 | PT | 英語 | / | データは Reddit からクロールされ、GPT-2 事前トレーニング用にフィルタリングされました。 |
大規模テキスト | ホリネズミ、チンチラ | PT | 99% 英語、1% その他(コード含む) | ||
WuDao(悟道) Corpora | GLM | PT | 中国語 | 200GB | 大規模な中国語コーパス、Possible コンポーネントは当初オープンソースでしたが、現在は利用できません。 |