go sentencepieceダウンロード - go sentencepieceソースコードのダウンロード

go sentencepiece

AI ソースコード

1.0.0

ダウンロード

ゴーセンテンスピース

これは、SentencePiece トークナイザーを使用してテキストをエンコードおよびデコードする純粋な Go 実装です。

「エンコーディング」は、トレーニングされたトークナイザーモデルを使用して、テキストをトークンに分割するために使用される操作です。「デコード」はその逆のプロセスであり、トークンのリストを元のテキストに変換します。

SentencePiece は、protobuf 構成ファイルによって構成されるトークナイザーの一般的なファミリーです。このリポジトリは現在、Gemma モデルのトークン化を再現するために必要な機能のみを実装することに重点を置いています (Google 独自の Gemini モデルファミリには同じトークナイザーが使用されています)。具体的には、Gemma が使用するものであるため、BPE トークン化のみを実装します。

現在の状況

このパッケージは、Gemma トークナイザーを使用してテキストをトークンにエンコードするために使用する準備ができている必要があります。 SentencePiece Python バインディングと比較して、合理的に最適化され、広範囲にテストされています (このリポジトリのsystem_test.goを参照)。

問題や矛盾が見つかった場合は、問題を開いてください。

トークナイザーの構成

トークナイザーの構成ファイルは、トレーニングされたトークナイザーモデルを記述する protobuf (プロトコルバッファー形式でシリアル化された構造化データ) です。これには、トークン化に使用される完全な学習語彙やその他の構成情報が含まれます。

このリポジトリの一部ではありません。公式の Gemma 実装リポジトリから取得してください。 NewProcessor*コンストラクターは、このファイルを読み取ることを想定しています。

現像

protobuf はトークナイザーを構成するために使用されます。 protobuf の構造は、https://github.com/google/sentencepiece から提供されるinternal/model/sentencepiece_model.protoファイルによって記述されます。

そこから*.pb.goファイルを再生成するには: