打臉奧特曼，GPT-4今年比去年還懶！網友在線實測出爐 - 大酷樂

今天小編分享的科學經驗：打臉奧特曼，GPT-4今年比去年還懶！網友在線實測出爐，歡迎閲讀。

GPT-4 變懶的問題，又有新進展。

就在今天凌晨，奧特曼發推稱，GPT-4 這個毛病在新的一年應該好多了！

關于 GPT-4 變懶，網友的吐槽已是不計其數，其中最多的就是與代碼相關的任務：

完成度不高不説，還會被分割成一個一個小塊，使用時需要逐一復制。

對于最新版本，一位博主體驗之後表示，自己嘗試給一年級的孩子做了個學習用的小遊戲，效果還不錯。

但也有人不認同，比如這位網友就發現，ChatGPT 回復的長度雖然增加了，但是很多都是車轱辘話，幹正事依舊擺爛。

他讓 ChatGPT 把一些文本翻譯成 17 種語言，結果叽裏呱啦説了一堆就是不翻譯。

為了消除個體差異，有網友用數據集測試了新的 ChatGPT，結果……

新版反而更懶了？

這位網友用 GitHub 上開源的一套 "lazy benchmark" 測試了 0125（24 年 1 月最新版）和 1106（23 年 11 月的上一版）GPT-4 模型，發現新版甚至還不如以前，變得更懶了。

這個測試數據集包含了與代碼相關的任務，用正确完成的比例間接反應 " 懶惰 " 程度，完成率越高説明 " 惰性 " 越小。

結果，對于其中的代碼比較（Unified diffs）任務，舊版能完成的比例尚且超過了一半，為 57%，新版的完成率卻僅有 44%，降低了近四分之一。

直觀感受上，也有人發現 ChatGPT 的 " 懶惰 " 變本加厲了——

以前就算偷懶至少還會糊弄一下，給出個大概的框架讓用户自行補充，現在直接就是擺爛説自己幹不了。

而針對網友們的這番發現，也有人給出了鋭評：

幾周之前奧特曼就説過 GPT-4 表現變好了，但是有人感覺到差别嗎？

這次，關于 GPT-4 變懶的原因，以及到底采用了什麼優化策略，奧特曼也未做進一步説明。

" 土辦法 " 可降低惰性

不過，之前的一項研究表明，GPT-4 的惰性可能與時間相關，這一結論與 GPT-4" 變懶 " 的現象出現在年末的 12 月相吻合。

按照這一理論，新年伊始，模型的表現的确會有所提升，但似乎解釋不了表現不升反降的現象。

不過，網友們也總結了一些 " 土辦法 "，能在一定程度上降低 ChatGPT 的惰性。

比如告訴它 " 我沒有手指 "，就能得到相對完整的代碼，而不是一段段碎片。

又或者，告訴 ChatGPT 自己會 " 給小費 "，也能激發它的工作動力。

甚至有人專門針對 " 小費 " 的金額進行了研究，發現 10 美元的性價比是最高的。

那麼，你覺得 ChatGPT 是變好了還是更懶了？

參考鏈接：

[ 1 ] https://twitter.com/sama/status/1754172149378810118

[ 2 ] https://aider.chat/docs/benchmarks-0125.html

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>

熱門排行

吳千語為老公慶生，施伯雄高興過頭又摟又親，二謝飛揚 | 2025-02-24
教育部：不再使用“函授”“業餘”的名稱袁曼雁 | 2025-02-24
吳清：優先支持開展關鍵核心技術突破瓶頸的科集玲琳 | 2025-02-24
梁文鋒親自挂名，DeepSeek 最新論文丢出注意賁芳蕤 | 2025-02-24
歐洲領導人緊急開會！“必要時派遣部隊”？佼昌翰 | 2025-02-24
免談世體：皇馬詢問亞馬爾情況，經紀人門德斯回嬴覓晴 | 2025-02-24
《演員請就位3》：吳鎮宇把母子演成情侶，無視郜萌運 | 2025-02-24
白雲山再曝醜聞旗下公司涉利益輸送五年銷佼昌翰 | 2025-02-24
東體：綜合各方意見和結合隊伍表現，足協考慮是幸聽楓 | 2025-02-24
76人的下一步很明确：擺爛保選秀權等待恩比甄正浩 | 2025-02-24
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
五一檔沒一個能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02