pratical llms
1.0.0
LLM (Large Language Model) エンジニアのためのリポジトリへようこそ!この Jupyter Notebook のコレクションは、私たちの仕事の実践的な側面を収集するように設計されています。学習と実験の目的で、jupyter やスクリプトを収集して追加します。
ノート | 説明 | URL |
---|---|---|
1_ Understanding_llms_benchmarks.ipynb | このノートブックでは、openLLM リーダーボードで使用される主なベンチマークについて説明します。これは、LLM のベンチマークに使用される主要な指標と方法論を把握するのに役立つことを目的としています。 | リンク |
2_quantization_base.ipynb | このノートブックでは、BitandBytes ライブラリを使用して、Hugging Face モデルを 8 ビットおよび 4 ビットで開く方法を学習します。量子化はモデルのパフォーマンスとリソース使用量を最適化するための重要なテクニックであり、このノートブックはそのプロセスをガイドします。 | リンク |
3_quantization_gptq.ipynb | このノートブックで auto-gptq ライブラリを使用して GPTQ 形式での量子化を調べてください。 GPTQ 形式は、GPT のような大規模なモデルの圧縮と量子化に有効であるため、人気が高まっています。この形式をモデルに活用する方法を学びましょう。 | リンク |
4_quantization_exllamav2.ipynb | モデルを HF から exllamav2 に量子化する方法 | リンク |
5_sharding_and_offloading.ipynb | モデルを複数のチャンクにシャーディングする方法。これにより、異なるデバイスにロードしたり、メモリを管理しながら一度に 1 つずつロードしたりすることができます。一部のレイヤーを CPU またはディスクにオフロードする方法を学びます | リンク |
6_gguf_quantization_and_inference.ipynb | llama.cpp ライブラリを使用してモデルを GGUF に量子化します。 OpenAI互換サーバーでの推論。 | リンク |
7_gguf_split_and_load.ipynb | GGUF 量子化モデルを複数の部分に分割し、簡単に共有可能にします | リンク |
8_hqq_quantization.ipynb | 半二次量子化 (HQQ) を使用した量子化の探索 | リンク |
9_inference_big_model_cpu_plus_gpu.ipynb | このノートブックでは、量子化された GGUF モデルに必要な RAM を計算する方法と、RAM と VRAM の両方を使用してそれをメモリにロードし、GPU にオフロードできるレイヤーの数を最適化する方法を示します。このノートブックでは、T4 15GB VRAM と約 32GB の RAM を備えたシステムでの例として、Qwen/Qwen1.5-32B-Chat-GGUF のロードを示しています。 | リンク |
a10_inference_llama3.ipynb | LLama3がリリースされました。このノートブックでは、24 GB の VRAM を備えた GPU にアクセスできる場合は LLama3-8B-Instruct 半精度を実行する方法を示し、10 GB の VRAM を備えている場合は 8 ビットに量子化されます。また、次の場合に Q8 GGUF バージョンを実行して最大のパフォーマンスを達成する方法を示します。 VRAM は 10GB しかありません。 | リンク |
a11_llm_guardrails_using_llama3_guard.ipynb | LLama3-guard-2 を使用してバックエンドと生成 AI アプリケーションを保護します。このノートブックでは、10 GB の VRAM を使用してサーバーをセットアップする方法と、HTTP POST リクエストを通じて推論を実行する方法を示します。 | リンク |
a12_speculative_decoding.ipynb | このノートブックでは、より小型で軽量なドラフト モデルを使用して、ターゲット モデルによって生成される 1 秒あたりのトークンを増加させる「投機的デコード」の手法を実際に説明および実証します。 LLama-3-70B-Instruct (ターゲット) および LLama-3-8B-Instruct (ドラフト) で実現された例。 | リンク |
a13_inference_vision_llm.ipynb | このノートブックでは、ビジョン LLM を使用して単純な推論を実行する方法を示します。この例では、Microsoft が新しくリリースした Phi-3-vision-128k-instruct を選択しました。このモデルは MIT ライセンスを取得しているため、制限なく独自のアプリケーションで使用できます。モデルは 1 つの Nvidia L4 上で実行できます。 | リンク |
a14_llm_as_evaluator.ipynb | このノートブックでは、Prometheus 2 を使用して LLM をジャッジとして使用する方法を示します。ノートブックには、LLM またはアプリケーション パイプラインのいずれかから返された回答を評価する方法が示されています。 | リンク |
a15_llm_evaluation.ipynb | このノートブックでは、EleutherAI/lm-evaluation-harness を使用して、公式リーダーボードでも使用されるコモンズ ベンチマークで LLM を評価する方法を示します。このプロセスは、リーダーボードにモデルを送信するときに自動的に使用されるプロセスと同じです。 | リンク |
a16_合成データ生成.ipynb | このノートブックでは、LLM として Llama-3-8B を使用して入力ファイルから合成 QA データセットを生成するためのカスタム クラスを作成しました。このスクリプトは、llama-3-8b-Q_8 GGUF で新しいバージョンの llama-server を構築して実行する方法も示しています。 | リンク |
a17_sglan_serving_llm_multiusers.ipynb | このノートブックでは、SGLang を使用してカスタム サーバーに LLama3.1-8B-FP8 を効率的に展開し、良好なパフォーマンスを維持しながら 64 人の潜在的な並列ユーザーにサービスを提供する方法に関するすべての手順を示します。 | リンク |
a18_jailbreak_control_using_promptguard.ipynb | 新しい PromptGuard-86M を脱獄用に試してみます。スポイラー: 現時点ではモデルが壊れているか、非常に悪いようです | リンク |
a19_文書情報とテーブル抽出.ipynb | このノートブックでは、マルチモーダル リテラシー モデル (Kosmos 2.5) を使用して、有料のクラウド サービスを使用せずにテキストと表を正確かつ効率的に抽出する方法を示します。モデルは個人用 GPU 上で実行され、データのプライバシーと安全性が保たれます。 | リンク |
a20_finetuning_llm_unsloth.ipynb | このノートブックは、「思考」構造のチェーンの HF データセットで unsloth を使用して Phi-3.5-mini-instruct を微調整する方法を示します。 | リンク |
さらにリソースやサポートが必要な場合は、お気軽にコミュニティにお問い合わせいただくか、以下を参照してください。
LLM を楽しく学習し、実験してください。