Tencent Terapkan untuk paten untuk "metode pelatihan model bahasa besar" untuk meningkatkan kemampuan dan akurasi generalisasi model - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-14 17:16:01

Baru -baru ini, Tencent Technology (Shenzhen) Co., Ltd. Terapkan untuk paten yang disebut "Metode Pelatihan, Perangkat, Peralatan Komputer dan Media Penyimpanan untuk Model Bahasa Besar". Paten ini memberikan informasi yang lebih dapat dipelajari untuk model selama pelatihan model bahasa besar dengan memperkenalkan teks abstrak pertama dan teks abstrak kedua.

Menurut deskripsi paten, teks abstrak pertama dan teks abstrak kedua berisi jumlah informasi yang berbeda, dan teks abstrak pertama juga berisi pernyataan yang benar dan pernyataan yang salah. Dengan membandingkan dan mempelajari dua abstrak yang berbeda ini dari teks yang sama dan membedakan pernyataan yang benar dan pernyataan yang salah di dalamnya, kita dapat secara efektif menghindari masalah yang mungkin terjadi seperti overfitting model dan generasi yang tidak akurat yang disebabkan oleh teks ringkasan tunggal.

腾讯 (2)

Inovasi metode ini adalah meningkatkan kinerja generalisasi model dan secara efektif meningkatkan keakuratan model. Dengan memperkenalkan beragam konten teks abstrak, metode pelatihan Tencent telah membawa peningkatan yang lebih efisien dan akurat untuk proses pelatihan model bahasa besar.

Kemajuan ini tidak hanya mencerminkan kekuatan teknis Tencent di bidang kecerdasan buatan, tetapi juga menjadi dasar yang kuat untuk aplikasi dan pengembangan model bahasa besar di masa depan.