Reddit用戶實測：GTP-4o在西洋棋上擊敗Gemini 1.5 pro

作者：Eve Cole 更新時間：2024-12-05 14:56:26

Downcodes小編帶您了解一個有趣的AI實驗：Reddit用戶@zefman建立了一個平台，讓不同的語言模型（LLM）即時對戰西洋棋！這項實驗以輕鬆有趣的方式評估了各個LLM在下棋方面的能力，結果出乎意料，讓我們一起來看看吧！

最近，Reddit用戶用戶@zefman進行了一項有趣的實驗，建立了一個平台，讓不同的語言模型（LLM）即時對戰國際象棋，目的是用戶有趣且輕鬆的方式來評估這些模型的表現。

眾所周知，這些模型在下棋方面並不出色，但即使如此，他覺得這個實驗中還是能從中發現一些值得關注的亮點。

在這個實驗中，@zefman特別關注了幾款最新的模型，其中GPT-4o 的表現最為突出，毫無疑問成為了最強的選手。同時，@zefman也將它與Claude、Gemini 等其他模型進行了對比，觀察它們的表現差異，發現每個模型的思考和推理過程都非常有趣。透過這個平台，大家可以看到每個步驟的決策背後，模型是如何分析棋局的。

@zefman設計的棋局展示方式相當簡單，每個模型在面臨相同的棋盤狀態時，會給出相同的提示，包括當前的棋局狀態、FEN（棋局表示法）以及它們之前的兩步走法。這種方法確保了每個模型的決策是基於相同的訊息，以便更公平地進行比較。

每個模型都使用完全相同的提示，該提示會隨著ASCI、FEN 中的電路板狀態以及它們前兩次的移動和思考而更新。下面是一個範例:

此外，@zefman還注意到，在某些情況下，尤其是對於一些性能較弱的模型，它們可能會多次選擇錯誤的走法。為了解決這個問題，他給這些模型提供了5次重新選擇的機會，如果它們仍然無法選出有效的走法，就會隨機選擇一個有效的走法，這樣可以保持遊戲的進行。

他得出的結論是:GTP-4o仍是最強者，在西洋棋上擊敗Gemini1.5pro。

透過這個實驗，我們不僅看到了不同LLM在西洋棋領域的差異，也看到了@zefman的巧妙設計和實驗精神。期待未來更多類似的實驗，讓我們更深入了解LLM的潛力和限制！