您好，歡迎到訪!

大模型玩你畫我猜：Claude6局3勝，GPT-4o表現迷惑

2024-11-04 01:32:54 2

一群大模型玩你畫我猜，人類一旁圍觀超起勁兒。

就像下面這張圖展示的，由Grok畫長頸鹿，一堆大模型根據生成內容猜答案。參賽選手包括GPT-4o、Claude、Llama、Gemini、Grok等。

其實這是最近爆火的一種新的測試基準（doge）。

遊戲結果一定程度上能反映出大模型能力，比如這組測試一共進行了6局遊戲，表現最好的是Claude：它贏了3次！

GPT-4o表現有點抽象。就它畫的這龍捲風，人類也看不懂。

不止如此，在很多輪遊戲中，其他模型都在認認真真地答題，而它的第一個回答經常是Circle？？有點子抽象。

所以有人就說，這遊戲可以當測試基準來用啊。

還有人表示，AI照這個速度發展，人類就只能當圍觀的瓦力了。

來看看更多有趣的例子

在比較簡單的題目上，所有模型都在一兩個回合中就猜對了答案，比如下面的房子：

還有非常簡潔的草地、海洋：

動物主題相對複雜一些，模型們一般需要猜4-5輪，比如大象這題：

遊戲整體效果非常棒，網友們也是好評如潮：

你畫我猜專案起源

模型畫畫早已不是新鮮事，但讓大模型玩你畫我猜？這天才想法是怎麼產生的？

首先，不得不提到Simon Willison的一次測試，他讓所有模型繪製腳踏車上有一隻鵜鶘主題的影象，然後進行效果對比。

隨後Paul Calcraft看到測試，他產生了一個想法：這樣一個個比對太慢了，效果也不好，既然都畫同一個主題，為什麼不讓大模型玩你畫我猜的遊戲呢？

沒想到這位小哥說幹就幹，1天后就釋出了“你畫我猜”的0.0.1版（這令人羨慕的執行力）。

遊戲中，他設定回答的模型每2秒猜測一次，回答更快的模型會更快返回答案。

網友評價褒貶不一

不少網友表示，之前大模型在《我的世界》裡面比賽蓋樓，令人印象深刻，而你畫我猜可能成為新的視覺benchmark！

還有人熱心地提出了最佳化建議，比如以答對互相題目的速度作為評分準則，或者加入人類成績作為參考。

還有人提議將遊戲變成對抗式訓練，這樣大模型會進步更快。

不過，拋去趣味性，也有網友持負面觀點，表示不理解這個專案的意義。

有網友調侃說，這個遊戲的作用就是成為未來AI考古時的文物，幫助它們瞭解自己的起源。

好嘛，咱們AI有自己的洞穴壁畫（doge）。

不過，遊戲化學習（Learning through play）其實是教育理論和心理學中的一個重要術語。

多位網友表示，小孩子也是透過玩遊戲來提升智力、學習技能的，或許這可以成為訓練大模型的新方式。

雖然這次只有6輪遊戲，參與的模型也有限，但確實是一次很有趣的實踐。

作者Paul Calcraft也表示會繼續更新這個遊戲，包括分數顯示、更多的遊戲主題等等，期待更多後續！

本文標籤大模型玩你畫我猜 laude6局3勝 gpt 4o 表現迷惑

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報，壹經查實，本站將立刻刪除。

o1滿血版洩露！奧數題圖片推理手拿把掐，奧特曼上線劇透o2

« 上一篇 2024-11-04

轉型不易、持續虧損，四維圖新背水一戰？

2024-11-04 下一篇 »

最近發布

站長推薦熱門文章

1 孫楊4年後復出人氣破百萬，預賽排第二，卻被評成績沒有競爭力

隨便看看

熱門標簽

擇機（1）柔性（1）全民（1） 2024 （1）這下（1）情緒（1）責任感（1）變革（1）當前（1）直播（1）定製（1）改變（1）撤銷（1） 30萬級中端mpv（1）與敖瑞鵬（1）紀念（1）舞龍（1）集聚（1）日媒（1） spaex （1）傳gpu（1）女性（1）西城（1） 8 年（1）甲烷（1）索斯（1）歌聲（1）王朝（1） her（1） sing（1）

關于我們

《三思》网罗天下精彩，实用资讯应有尽有，专供您深度品味。内容覆盖娛樂、數碼、體育、裝修、時尚、教育、親子、電影、健康与科技等广泛领域，让您思思思，思考与学习并进，阅读无界！

Copyright2015-2024三思|版權所有