最近、Tencent Technology(Shenzhen)Co。、Ltd。は、「大規模な言語モデル向けのトレーニング方法、デバイス、コンピューター機器、ストレージメディア」と呼ばれる特許を申請しました。この特許は、最初の抽象テキストと2番目の抽象テキストを導入することにより、大規模な言語モデルのトレーニング中にモデルのより学習可能な情報を提供します。
特許の説明によれば、最初の抽象テキストと2番目の抽象テキストには異なる量の情報が含まれており、最初の抽象テキストには正しいステートメントと誤ったステートメントも含まれています。同じテキストのこれら2つの異なる要約を比較および学習し、正しいステートメントと間違ったステートメントを区別することにより、単一の要約テキストによって引き起こされるモデルの過剰適合および不正確な生成などの可能な問題を効果的に回避できます。
この方法の革新は、モデルの一般化パフォーマンスを改善し、モデルの精度を効果的に改善することです。多様な抽象的なテキストコンテンツを導入することにより、Tencentのトレーニング方法により、大規模な言語モデルのトレーニングプロセスにより効率的かつ正確な改善がもたらされました。
この進歩は、人工知能の分野におけるテンセントの技術的強さを反映しているだけでなく、将来の大規模な言語モデルの適用と開発のための強固な基盤を置いています。