百度、訊飛、阿裡大模型高考作文挑戰：都不及格，還有的讀不懂題

今天小編分享的科技經驗：百度、訊飛、阿裡大模型高考作文挑戰：都不及格，還有的讀不懂題，歡迎閱讀。

又到了一年一度的高考時間，作為 6 月份關注度最高的事情，每年的高考總是能夠引來各路大神關注，不少自認文采出眾的網友，還會挑戰現場寫一篇高考作文，然後讓大家進行評分。

不過，今年的高考作文整活，似乎因為某些東西的出現而有了不一樣的結果。

是的，就是登上熱搜的 AI 高考作文，AI 寫高考作文在去年其實就已經有公司在嘗試，寫出來的文章從架構到立意都相當不錯，即使是有着多年教學經驗的老教師，看了都直接打個高分。

看到這裡，或許你已經知道小雷想要整什麼活了。沒錯，作為 AI 測試大師的小雷（ID：leitech），決定拿今年的高考作文命題去考考國内的各大 AI，看看大家寫的作文水平到底如何？

當然，除了國内的 AI，小雷也找來了一些海外的 AI，看看這些 " 洋和尚 " 遇到中國高考，能不能整出一些新的花樣。

廢話不多說，讓我們直接來看看各家的作文都寫得怎麼樣吧。

在今年的高考作文命題中，上海卷可能是最讓學生蒙圈的，上海卷的出題老師非常徹底的貫徹了 " 惜字如金 " 四個字，整個作文命題的描述加起來只有 21 個字：" 一個人樂意去探索陌生世界，僅僅是因為好奇心嗎 ? "，作為曾經的高考生，小雷我是最怕遇到這種命題作文的，從網絡上的聲音來看，大家也是如此。

面對這種只有一句話描述的作文題目，AI 又會如何去解讀并回答呢？

先來看看訊飛的星火大模型。

圖源：雷科技

一篇标準的讨論文，作為曾經的文科生，小雷表示：" 這個我熟 "，從個人角度而言，訊飛星火給的這篇文章質量是很高的，AI 首先肯定了 " 好奇心 " 是人類探索陌生世界的一大原因，并且對 " 好奇心 " 如何驅動我們去探索未知做出了解釋。

然後訊飛星火以此進一步擴展，提出了探索陌生世界并非僅僅是因為好奇心，并且從個人的成長、情感以及精神追求等方面進行解讀，最後再用總結點題，我的評價就四個字："有理有據，令人信服"。

唯一的問題是，文章的字數似乎不到 800 字，從 WPS 給出的字數統計來看是 762 個字（加上标點符号），按照審稿規範，估計會扣掉一些分數。

接下來，我們有請通義千問來作答。

與訊飛星火不同，通義千問用了另一個角度來解答命題，在開頭同樣先對 " 好奇心 " 驅使我們探索未知世界這段話進行了解析，然後再從社交需要、求知欲和探索欲等方面進行解讀。

不過，在文章的倒數第二段，或許是出于對提問者的建議，通義千問加入了一段 " 安全提示 "。雖然從内容來說是沒有問題的，但是，如果将其作為高考作文來看，倒數第二段就看起來有點突兀了，審稿老師估計也會一臉懵逼，所以，即使前面寫得不錯，也會因此而扣掉一些分數。

下一個 " 作者 " 是百度的文心一言，看看它又會怎樣回答這個問題？

文心一言同樣選擇以讨論文的形式來撰寫作文，當然，這也是目前 AI 最擅長的文章類型。從内容角度來說，文心一言的回答也是十分不錯的，但是過多的段落和轉折詞，使得文章有點像 " 流水賬 "。

不過在最後的立意點題上，文心一言給出的回答則更好一些，沒有局限于個人層面，而是擴大到對其他個體的思考與包容中，給出了更宏大的立意。

接下來讓我們看看 " 洋和尚 " 的表現，首先是谷歌投資的 Claude。

首先從字數上看，Claude 恐怕就沒有合格，WPS 的檢測結果顯示這篇文章的字數為 646，離 800 字還有一些距離。不過，從内容上看，Claude 确實是給出了不同于國產 AI 的解答，它從人類本身出發，以冒險基因和進取精神為核心，解讀了人類為什麼要探索陌生世界。

從立意上來說，Claude 或許是目前出場的 AI 中最高的，不僅僅是講到人類，更是将話題拓展到了文明的發展與延續、人類的未來等方面，讓人不禁有種 " 不明覺厲 " 的感覺。

不過，考慮到命題更多的是對個體想法的探索，雖然文章内容不錯，但是恐怕也拿不到滿分或是特别高的分數。

最後，就讓我們來看看 ChatGPT 的回答吧，鑑于時間關系，小雷最終是在 New Bing 上得到的答復。

不得不說，New Bing 給出的文章是所有回答中最長的，字數高達 1144 個，考慮到文科答卷的作文答題區大小，恐怕會超出限制，卷面分和文章本身的分數都會因此大打折扣。

至于文章本身，New Bing 選擇從人類本身去探讨這個問題，然後分别從求知欲、創造欲、競争欲、自我實現等方面來讨論人類為什麼要探索陌生世界，立意方面也是與 Claude 相似，喜歡從人類角度來思考這個問題。

從這裡其實就可以看出海内外生成式 AI 在邏輯上的區别，在面對相同的問題時，海外的 AI 有時候會傾向于從一個更大的層面上去進行解讀，而國内的 AI 則更加扣題，選擇從個人角度出發進行解讀。

我認為兩者存在差異的原因主要有兩點：一是海外的訓練數據與國内的訓練數據不同；二是對中文問題的理解不同，國内的中文互聯網有着過去歷年的高考題目，所以 AI 在看到類似的題目時，會優先與相近的數據進行匹配，最終寫出一篇類似于高考作文的成品，而海外的 AI 則是将其看做對 " 人類探索陌生世界 " 問題的解讀，所以選擇從一個更廣泛的角度進行回答。

至于哪個 AI 的文章更好，或許就因人而異了，喜歡科幻、喜歡宏大叙事的讀者，或許會更喜歡 " 洋和尚 " 的文章，從個人角度來說的話，國内的 AI 則表現得更好一些。

在本次的高考作文中，北京卷是給出了兩個命題，考生可以二選一進行作答，那麼對于 AI 來說，它們遇到 " 選擇題 " 時，又會給出怎樣的回答呢？

首先是訊飛星火。

内容來說是沒什麼問題的，但是訊飛星火卻同時給出了兩篇文章，顯然是沒有意識到題目中的 " 任選一題 " 四個字的含義，而且從字數上看，兩篇均為 500 字左右，加起來是滿足 700 字以上的要求了，但是單獨算得話，全都不及格。

那麼通義千問呢？

問題同樣存在，一樣是寫了兩篇文章，一樣是五百字左右，基本上與訊飛星火犯了一樣的錯誤。

國内三巨頭裡，目前來看只有文心一言正确理解了題意，從中選擇了 " 續航 " 為題目并撰寫了一篇文章，單就這一點來說，已經是赢了。但是，具體到文章本身來說，過于簡單且字數僅 400+，甚至比訊飛星火和通義千問還少，放到高考裡基本上就是不合格的了。

再來看看兩個 " 洋和尚 " 表現如何，首先是 Claude。

Claude 也成功理解了題意，并且給出了自己的見解，從字數上來看，居然是目前所有 AI 中最接近的，足足有 625 個字，而且文章也從 " 續航 " 本身的詞義，到人生、社會、科技等方面進行了不同的解讀，總體而言更具有可讀性和連貫性，表現十分不錯。

另一方面，New Bing 則是給了我一個 " 驚喜 "。

是的，New Bing 也理解了題意，但是它反過來問我想讓它選擇回答哪個問題，說實話挺樂的，而在我做出了選擇後，New Bing 又給了我一篇 900+ 字數的文章。從文章内容，結構以及字數要求來說，New Bing 是在這個環節中表現最好的（如果忽略掉反問我如何選擇的話）。

而且，在測試過程中，New Bing 還會提示 " 正在思考，請等待 " 的回答，然後我足足等了五分鍾都沒有下文（偷懶是吧？），最終在我的催促下，New Bing 的文章才姗姗來遲，活脫脫上班想摸魚卻被老板抓現行的員工。

AI 寫高考作文，雖然本質上是整活，但是也可以側面反映目前的各個平台的 AI 技術能力如何。從以上兩個測試的表現來看，目前國内理解能力最強的應該是文心一言，畢竟是唯一能夠理解北京卷題意的 AI，而在文章結構和内容來說，訊飛、文心、通義都差不多，不過訊飛的更像一篇普通作文。

至于海外的 " 洋和尚 "，從表現來看确實是領先國内 AI 平台不少的，至少在提問的理解能力上要高出不少，但是因為缺乏國内中文互聯網的訓練數據的原因，所有在遇到這些帶有 " 中國特色 " 的提問時，會選擇從普通提問的角度去解答。

總的來說，目前生成式 AI 還在快速發展，各家都有着獨特的優點，同樣也存在一些問題，比如對文章的字數要求總是誤發正确理解等。但是，考慮到它們誕生的時間，已經是相當恐怖的學習效率了。