Editor Downcodes mengetahui bahwa para peneliti dari Meta FAIR, Universitas California, Berkeley, dan Universitas New York berkolaborasi untuk mengembangkan teknologi baru yang disebut Thinking Preference Optimization (TPO), yang bertujuan untuk secara signifikan meningkatkan pemrosesan instruksi dan pemrosesan model bahasa besar (LLM). Teknologi ini mendobrak keterbatasan LLM tradisional yang hanya berfokus pada jawaban akhir. Dengan mensimulasikan proses berpikir manusia, model memungkinkan model melakukan refleksi dan deduksi internal sebelum memberikan jawaban, sehingga menghasilkan respons yang lebih akurat dan koheren. Teknologi ini diharapkan dapat merevolusi penerapan LLM di berbagai bidang dan menghadirkan pengalaman interaktif AI yang lebih baik kepada pengguna.
Inti dari teknologi TPO adalah metode penalaran Chain of Thinking (CoT) yang ditingkatkan. Pendekatan ini mendorong model untuk “berpikir sebelum menjawab” selama pelatihan, membantu mereka mengembangkan proses berpikir internal yang lebih terorganisir sebelum memberikan jawaban akhir. Perintah CoT tradisional terkadang mengakibatkan berkurangnya akurasi dan cukup sulit untuk dilatih karena kurangnya langkah berpikir yang jelas. TPO berhasil mengatasi tantangan ini dengan memungkinkan model mengoptimalkan dan menyederhanakan proses berpikirnya tanpa memaparkan langkah-langkah perantara kepada pengguna.
Selama proses pelatihan TPO, model bahasa besar pertama-tama diminta untuk menghasilkan banyak ide, dan kemudian jawaban akhir disortir. Keluaran ini kemudian dievaluasi oleh model "penilai" untuk memilih respons dengan kinerja terbaik dan terburuk. Hasil evaluasi ini digunakan sebagai pasangan "pilih" dan "tolak" untuk optimasi preferensi langsung (DPO) guna terus meningkatkan kualitas respons model.
Dengan menyesuaikan isyarat pelatihan, TPO mendorong model untuk berpikir secara internal sebelum menjawab. Proses ini memandu model untuk menyempurnakan jawabannya, menjadikannya lebih jelas dan relevan. Terakhir, pekerjaan evaluasi diselesaikan dengan model evaluasi berbasis LLM, yang hanya menilai jawaban akhir, sehingga tidak bergantung pada langkah-langkah pemikiran tersembunyi dan membantu model meningkatkan kualitas jawaban. TPO juga menggunakan optimasi preferensi langsung untuk membuat pasangan jawaban yang disukai dan ditolak yang mengandung pemikiran tersembunyi. Setelah beberapa putaran pelatihan, proses internal model semakin disempurnakan.
Pada benchmark terhadap AlpacaEval dan Arena-Hard, metode TPO mengungguli garis dasar respons tradisional dan mengungguli model Llama-3-8B-Instruct dari Thinking Tips. Pelatihan berulang dari pendekatan ini mengoptimalkan kemampuan menghasilkan pemikiran, yang pada akhirnya mengungguli beberapa model dasar. Perlu disebutkan bahwa TPO tidak hanya cocok untuk tugas-tugas logika dan matematika, tetapi juga menunjukkan bakatnya dalam pengajaran mengikuti tugas-tugas di bidang kreatif seperti pemasaran dan kesehatan.
Pakar AI dan robotika Karan Verma berbagi pandangannya tentang konsep "berpikir LLM" di platform sosial Efek terapeutik yang baik.
Proses berpikir internal terstruktur ini memungkinkan model untuk memproses instruksi kompleks dengan lebih efektif, sehingga semakin memperluas penerapannya di bidang yang memerlukan penalaran multi-level dan pemahaman mendetail, tanpa perlu manusia menyediakan data pemikiran spesifik. Penelitian ini menunjukkan bahwa TPO berpotensi membuat model bahasa besar menjadi lebih fleksibel dan efisien dalam beragam konteks, cocok untuk bidang yang memiliki persyaratan tinggi akan fleksibilitas dan kedalaman pembangkitan respons.
Secara keseluruhan, kemunculan teknologi TPO telah membawa kemungkinan baru untuk peningkatan kinerja model bahasa besar, dan prospek penerapannya di berbagai bidang patut dinantikan. Editor Downcodes percaya bahwa dengan pengembangan dan peningkatan teknologi yang berkelanjutan, TPO akan memainkan peran besar di lebih banyak bidang dan berkontribusi pada pengembangan kecerdasan buatan.