OpenAI 發布會第九天：o1 模型開放 API 使用，開發者最關心的更新有哪些？

今天小編分享的教育經驗：OpenAI 發布會第九天：o1 模型開放 API 使用，開發者最關心的更新有哪些？，歡迎閱讀。

以下文章來源于 AI 深度研究員，作者 AI 工作坊

作者 | AI 工作坊

來源 | AI 深度研究員 管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點

OpenAI 第 9 天的發布會上，他們帶來了一個激動人心的消息：備受期待的 o1 模型終于向開發者開放使用了！

（注：OpenAI 今天的原視頻音軌有問題，暫時沒有中文視頻）

這次更新不僅讓開發者能夠使用更強大的 AI 模型，還大幅降低了使用成本。比如說，過去需要不少費用才能使用的語音功能，現在價格直接降低了 60%。對于預算有限的開發者來說，他們還特别推出了一個 " 迷你版 " 的語音服務，費用只有原來的十分之一。具體更新内容包括：

OpenAI o1 模型：API 現已支持功能調用、開發者消息、Structured Outputs 以及視覺識别等功能。

實時 API 更新：集成簡單的 WebRTC 功能，GPT-4o 音頻價格下調 60%，同時推出 GPT-4o mini，音頻費用僅為原來的十分之一。

偏好微調 ( Preference Fine-Tuning ) ：新一代模型定制技術，幫助開發者更輕松地根據用戶需求和偏好優化模型。

Go 和 Java SDK：現已開放測試版，開發者可快速上手集成。

這些進步意味着什麼呢？簡單來說，就是 AI 應用的開發變得更簡單、更便宜，也更容易根據具體需求進行定制了。不管是想開發智能客服、自動翻譯，還是其他創新應用，開發者們都能以更低的成本實現自己的想法。

API 中 OpenAI o1 實際應用

全新的 o1 模型，這是一次重要的技術更新。相比之前的版本，新模型不僅變得更聰明，還能更快地回應用戶需求。目前，該模型已經向高級開發者開放使用，并計劃逐步擴大開放範圍。這次更新帶來了哪些實際改進？

1. 更快的響應速度

處理速度提升顯著，相比舊版本快了整整 60%

開發者可以根據需要調節模型的 " 思考時間 "，在速度和準确度之間找到平衡

2. 更強的實用功能

視覺識别：現在可以 " 看懂 " 圖片，這對工業生產、科研等領網域特别有幫助

精準輸出：能夠按照開發者的要求，生成格式嚴格統一的内容

個性化對話：支持調整語氣和風格，讓 AI 的回應更符合具體場景需求

系統集成：可以輕松與其他軟體系統對接，實現更復雜的功能

3. 實際應用案例

已經有開發者使用新模型開發出了多個實用的應用，比如：

智能客服：能更好地理解和解決客戶問題

供應鏈優化：幫助企業更好地管理庫存和物流

金融分析：協助預測市場趨勢

4. 性能測試成績

在最新的測試中，o1 模型在多個領網域都展現出了優秀的表現：

基礎能力測試：準确率達到 75.7%

編程能力：在代碼開發測試中達到 76.6% 的高分

數學計算：在某些測試中甚至達到了 96.4% 的驚人準确率

這些進步意味着什麼？未來我們使用的各種 AI 應用都會變得更聰明、更快速、更符合實際需求。不管是在線購物時的智能推薦，還是工作中需要的數據分析，都能得到更好的支持。

目前，OpenAI 正在分批向開發者開放 o1 模型的使用權限。随着更多開發者加入，我們有望看到更多創新的 AI 應用出現在我們的日常生活中。開放訪問權限，并計劃擴展到更高的使用等級，同時持續提升速率限制。

API 更低延遲、更低成本與更多靈活性

OpenAI 的實時 API 讓開發者可以構建流暢、自然的實時對話體驗，适用于語音助手、實時翻譯工具、虛拟導師、互動式客服系統，甚至是你自己的 " 虛拟聖誕老人 "。他們推出了一系列重要改進，包括直接支持 WebRTC、降低價格以及更靈活的響應控制。

1、引入 WebRTC 支持

實時 API 增加了對 WebRTC 的支持。作為一項開放标準，WebRTC 讓開發者能夠跨平台輕松構建和擴展實時語音產品，無論是浏覽器應用、移動端、物聯網設備，還是伺服器間通信。WebRTC 集成确保在真實網絡條件下提供高效、低延遲的互動體驗，能夠應對網絡質量波動，支持音頻編碼、流式傳輸、噪音抑制和擁堵控制等功能。

2、低成本和高語音質量

OpenAI 在語音服務領網域推出了重大更新，不僅大幅下調了原有服務的價格，還推出了價格更加親民的 " 迷你版 " 服務。原有的 GPT-4o 語音服務在技術層面獲得了顯著提升，特别在語音識别的準确性方面有了明顯進步，尤其是在處理數字語音時的表現更加出色。主要更新包括：

（1）語音質量全面提升，輸入穩定性進一步加強

（2）價格大幅下調 60%，降至輸入百萬，輸出 80/ 百萬 tokens

（3）緩存音頻價格創新低，降低 87.5% 至 $2.50/ 百萬 tokens

更令人矚目的是全新推出的 GPT-4o mini " 迷你版 " 服務。這個版本在保持與完整版相同的語音質量的同時，将價格降至原來的四分之一。其定價方案為：

（1）語音服務：輸入百萬，輸出 20/ 百萬 tokens

（2）文本服務：輸入百萬，輸出 2.40/ 百萬 tokens

（3）緩存服務：統一定價 $0.30/ 百萬 tokens

這次價格調整和新服務的推出具有深遠的意義。對于開發者而言，顯著降低的成本意味着他們可以将更多資源投入到應用的創新和優化上。而對于最終用戶來說，這意味着他們将有機會接觸到更多、更好的語音互動應用，而且使用成本會更加實惠。

這些更新已經在 OpenAI 的實時 API 和 Chat Completions API 中全面上線，開發者可以立即開始體驗這些新功能。這次重大更新無疑将推動語音互動應用的普及，讓 AI 語音技術在更多場景中發揮作用。

3、功能更靈活

OpenAI 為實時 API 推出了更多控制選項，幫助開發者實現高效、精準的語音體驗：

并發後台任務：可在不影響語音互動的情況下運行内容審核、分類等後台任務。

自定義上下文輸入：靈活選擇輸入内容，例如單獨審核用戶的最後一句話，或在會話中重用歷史響應。

受控響應時機：借助伺服器端語音活動檢測 ( VAD ) ，開發者可在回復前預先收集所需信息并精準控制響應時機。

延長會話時長：會話最大時長從 15 分鍾提升至 30 分鍾，适配更復雜的互動需求。

讓 AI 更懂你的需求

OpenAI 最新推出的偏好微調（Preference Fine-Tuning）功能，讓 AI 模型的個性化定制變得更加簡單和高效。這項技術采用了一種叫做 " 直接偏好優化 "（DPO）的創新方法，通過對比不同的 AI 回答，讓模型學會識别什麼樣的回答更符合用戶的偏好。

這與傳統的模型訓練方法有着本質的區别。傳統的監督式微調就像是讓 AI 按照标準答案來學習，而新推出的偏好微調則更像是讓 AI 理解 " 用戶更喜歡哪種回答方式 "。這種方法特别适合那些沒有标準答案、需要理解用戶個人喜好的場景，比如寫作風格的調整、對話語氣的把握，以及創意内容的生成等。

下方表格展示了偏好微調與監督式微調的核心區别：

偏好微調成功案例：Rogo AI 正在開發一款面向金融分析師的 AI 助手，該助手能将復雜的查詢任務拆分為子查詢。在其專業基準 Rogo-Golden 的測試中，Rogo AI 發現，監督式微調在處理非分布式查詢擴展時表現不佳，例如在 " 公司 X 的增長速度如何 " 這類查詢中，可能遺漏關鍵指标如 ARR。而通過偏好微調，這一問題得到有效解決，模型性能從基礎模型的 75% 準确率提升至 80% 以上。

偏好微調将于今日正式上線，支持 gpt-4o-2024-08-06，并即将拓展至 gpt-4o-mini-2024-07-18。定價将與監督式微調保持一致，同時，明年初将支持 OpenAI 最新發布的模型版本。

Go 和 Java SDK 測試版

為了讓更多開發者能夠方便地使用 OpenAI 的 AI 服務，OpenAI 正式發布了 Go 語言和 Java 語言的官方開發工具包（SDK）測試版。這兩個新成員的加入，與已有的 Python、Node.js 和 .NET 版本一起，讓開發者可以用自己最熟悉的編程語言來開發 AI 應用。

1、全新的 Go SDK 專門針對高性能場景設計。Go 語言在處理并發任務時表現出色，特别适合構建需要快速響應的在線服務。通過這個 SDK，開發者可以輕松地在他們的 Go 項目中添加 AI 功能，無需復雜的配置過程。

2、Java SDK 的發布則是對企業開發者的重要支持。眾所周知，Java 在企業級應用開發中占據重要地位，擁有龐大的用戶群體和豐富的技術生态。新發布的 Java SDK 不僅提供了完整的類型支持，還包含了許多實用工具，可以幫助開發者更好地将 AI 能力整合到現有的企業系統中。

這次 SDK 的發布意味着，不管是構建高性能的網絡服務，還是開發企業級應用，開發者都能找到最适合自己的工具，輕松地将 OpenAI 的先進 AI 能力融入到自己的項目中。

原視頻鏈接：https://openai.com/index/o1-and-new-tools-for-developers/