今天小編分享的科技經驗:AI“推理”模型興起,基準測試成本飙升,歡迎閱讀。
IT 之家 4 月 13 日消息,随着人工智能(AI)技術的不斷發展,所謂的 " 推理 "AI 模型成為了研究熱點。這些模型能夠像人類一樣逐步思考問題,在特定領網域,如物理學中,被認為比非推理模型能力更強。然而,這種優勢卻伴随着高昂的測試成本,使得獨立驗證這些模型的能力變得困難重重。
據第三方 AI 測試機構 " 人工智能分析 "(Artificial Analysis)提供的數據顯示,評估 OpenAI 的 o1 推理模型在七個流行的 AI 基準測試(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表現,需要花費 2767.05 美元(IT 之家注:現匯率約合 20191 元人民币)。而評估 Anthropic 的 Claude 3.7 Sonnet 這一 " 混合 " 推理模型的成本為 1485.35 美元(現匯率約合 10839 元人民币),相比之下,測試 OpenAI 的 o3-mini-high 則只需 344.59 美元(現匯率約合 2514 元人民币)。盡管有些推理模型的測試成本相對較低,例如評估 OpenAI 的 o1-mini 只需 141.22 美元(現匯率約合 1030 元人民币),但從整體來看,推理模型的測試成本仍然比較高昂。截至目前," 人工智能分析 " 已經花費了約 5200 美元(現匯率約合 37945 元人民币)來評估大約十幾種推理模型,這一金額接近該公司分析超過 80 種非推理模型所花費的 2400 美元的兩倍。
OpenAI 在 2024 年 5 月發布的非推理 GPT-4o 模型,其評估成本僅為 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的評估成本為 81.41 美元。" 人工智能分析 " 聯合創始人喬治・卡梅倫(George Cameron)向 TechCrunch 表示,随着越來越多的 AI 實驗室開發推理模型,該組織計劃增加其測試預算。" 在‘人工智能分析’,我們每月進行數百次評估,并為此投入了相當可觀的預算," 卡梅倫說," 我們預計随着模型的頻繁發布,這一支出将會增加。"
" 人工智能分析 " 并非唯一面臨 AI 測試成本上升的機構。AI 初創公司 " 通用推理 "(General Reasoning)的首席執行官羅斯・泰勒(Ross Taylor)表示,他最近花費了 580 美元用大約 3700 個獨特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計,僅對 MMLU Pro(一套旨在評估模型語言理解能力的問題集)進行一次完整的測試,成本就會超過 1800 美元。" 我們正在邁向一個世界,在這個世界裡,一個實驗室在一項基準測試中報告 x% 的結果,而他們在其中花費了 y 數量的計算資源,但學者們的資源遠遠小于 y," 泰勒在 X 上最近的一篇帖子中寫道," 沒有人能夠復制這些結果。"
那麼,為什麼推理模型的測試成本如此之高呢?主要原因在于它們生成了大量的 token。token 代表原始文本的片段,例如将單詞 "fantastic" 拆分為音節 "fan"、"tas" 和 "tic"。據 " 人工智能分析 " 稱,在該公司的基準測試中,OpenAI 的 o1 生成了超過 4400 萬個 token,大約是 GPT-4o 生成量的八倍。大多數 AI 公司都是按 token 收費的,因此成本很容易就會累積起來。
此外,現代基準測試通常會從模型中引出大量 token,因為它們包含涉及復雜、多步驟任務的問題。Epoch AI 的高級研究員讓 - 斯坦尼斯拉斯・德内恩(Jean-Stanislas Denain)表示,這是因為今天的基準測試更加復雜,盡管每個基準測試的問題數量總體有所減少。" 它們通常試圖評估模型執行現實世界任務的能力,例如編寫和執行代碼、浏覽互聯網以及使用計算機," 德内恩稱。德内恩還指出,最昂貴的模型随着時間的推移,每個 token 的成本也在增加。例如,Anthropic 在 2024 年 5 月發布的 Claude 3 Opus 是當時最昂貴的模型,每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時候推出的 GPT-4.5 和 o1-pro,每百萬輸出 token 的成本分别為 150 美元和 600 美元。
" 盡管随着時間的推移,模型的性能有所提高,達到給定性能水平的成本也确實大幅下降,但如果你想在任何特定時間評估最大最好的模型,你仍然需要支付更多," 德内恩說。許多 AI 實驗室,包括 OpenAI,為測試目的向基準測試組織提供免費或補貼的模型訪問權限。但一些專家表示,這會影響測試結果的公正性 —— 即使沒有操縱的證據,AI 實驗室的參與本身就可能損害評估評分的完整性。