今天小編分享的科學經驗:國產4o大模型,秒懂國風李子柒,歡迎閱讀。
又一個國產版《Her》,就這麼水靈靈地來了。
作為一個實時語音對話的功能,效果好不好,實測見分曉。
我們直接以近期的大熱點——李子柒復出作為話題,來上一番對話:
可以看到,這個 AI 對于 " 李子柒復出 " 這樣相對較新的話題,信息的掌握也是較為全面。
它先是用 " 太震撼了 " 來表達了對這件事的整體感受,并且精準、高度總結内容為:
用中國非物質文化遺產漆器為主題的視頻,這個選擇本身就是對傳統文化的致敬。
當問及對視頻内容更具體的感受,國產《Her》仿佛一個李子柒的人類粉絲:
依舊保持高标準,每一幀都像一幅畫面;她的視頻總能讓人感受到一種寧靜與美好。
不僅如此,國產《Her》甚至還能對網友們的讨論做總結,包括李子柒為了做了漆器,背後所付出的努力和刻苦精神。
而且從整個對話過程來看,這個 AI 在語言表達方式上也是與人類無異,例如語氣和自然的停頓等等;即使是随意地打斷,也是完全 OK 的哦 ~
同樣的話題,我們給到GPT-4o這邊:
嗯,GPT-4o 知道李子柒,但是知道的不多。
無論是中文還是英文提問,由于它的知識是截止到了 2023 年 10 月,所以對于實時的新聞熱點,GPT-4o 是無法 hold 住的。
那麼這個國產《Her》,何許 AI 也?
不賣關子,它正是來自昆侖萬維的Skyo,基于天工大模型 4.0 4o 版(Skywork 4o)打造。
那麼除了能夠跟蹤時事熱點,Skyo 還能解鎖哪些能力?
更多實測,Let ’ s go on~
聊天随意打斷,話題不掉地上
OpenAI 大約半年前發布 GPT-4o 實時語音對話功能的時候,現場和網上觀眾較為震驚的,便是它不論如何被打斷,都能馬上接上話。
雖然在剛才李子柒的例子中,我們已經體現了一些 " 随時打斷 " 的能力,所以我們這次再加一點難度。
随時打斷,中英切換
我們這次測試的話題是去西雅圖旅行,來看下 Skyo 能給出什麼樣的建議:
在我們提出了簡潔的需求之後,Skyo 便唰唰唰地開始制定旅程計劃了。
而當它提到西雅圖示志性景點太空針塔時,我們進行了第一次打斷(00:50),Skyo 也随即停止了回答,開始聆聽新問題。
當 Skyo 要繼續拓展對太空針塔的介紹,我們随即第二次打斷(01:09);第三次打斷(01:38)我們直接用英文進行提問:
OK, sounds good, by the way, can you recommand some Seattle dishes I should try?
然後 Skyo 也是聽懂了英文需求,立即開始推薦當地著名的咖啡餐廳。
這一輪的随時打斷 + 中英文切換,Skyo,通過。
不讓話掉到地上
在真實生活中,很多i 人在與人溝通交流過程中,或許會出現接不上話的情況。
那麼如果我們以話題終結者的姿态與 Skyo 交流,又會是什麼效果?來,開整:
我們先是以 " 電影 " 為由頭,主動開啟了一個話題。
但 Skyo 在反問的時候,我們連續兩次冷漠回答了 " 沒有 "(00:27)、" 也沒有 "(00:47)。
第一次話題被終結,Skyo 很巧妙地把話題從電影轉向了音樂或書籍;二次話題被終結,Skyo 聯系上下文(因為是我們以電影開啟的話題),它就開始講述自己對電影的看法了。
總而言之,把話掉地上,這事兒在 Skyo 這邊是不能存在的。
情感陪伴," 人 " 聲可變
自打對話類 AI 大模型問世以來,情感陪伴,無疑成了很多用戶的一種剛需。
那麼 Skyo 是否也能在人們難受之際帶來一份心靈的慰藉呢?
請看 VCR:
在我們提出 " 被老板罵了 " 這樣的情景之後,Skyo 會用自己的方式來引導我們看開一些。
而當被要求切換女聲聲音時(00:42),Skyo 也是有求必應,秒變女聲,然後有理有據地羅列觀點進行心理開導。
由此可見,Skyo 作為新晉國產實時語音對話產品,在多個維度的測試中都屬于達标了的那種。
那麼接下來的一個問題:
怎麼做到的?
Skyo 實時語音對話助手是一個多模态大模型項目,應用了端到端實時語音對話建模技術。
其強大的記憶功能使其能夠在對話中追蹤并回憶用戶的偏好與歷史信息,從而提升多輪對話的準确性。
這種精細的技術積累,使得 Skyo 在高強度的對話互動中依然保持卓越的穩定性與流暢性。
除此之外,Skyo 采用了全雙工和低延遲的實時語音對話架構。
全雙工意味着該助手能夠同時進行聽和說的操作,用戶無需按下對話開始和結束按鈕即可實現無縫交流,這就讓人機的互動變得更加自然和高效。
在技術測試中,Skyo 以其低延遲的實時響應接近人類思考的反應時間,體現了在對話響應速度方面的顯著優勢。
在互動能力方面,Skyo 擁有較好的情感理解與個性化記憶功能。
它不僅可以記錄用戶的歷史偏好,還能根據用戶需求提供個性化的互動體驗,例如提供溫暖的女聲或更具情感色彩的回應。
這使得 Skyo 在非正式、非固定場景下,能夠保持一種尊重且平等的人機互動體驗。
Skyo 的卓越性能依賴于其多模态模型的應用,使其能夠在多種場景中保持高質量的互動體驗。
例如,用戶可以與助手讨論最新的科技新聞,助手能夠根據用戶的請求,從科技資源庫中檢索相關信息并進行異步互動,增強用戶的互動感與沉浸體驗。
此外,Skyo 系統的自研特性使其在互聯網語音互動與應用場景中具有出色的适應性。
通過自研的數據積累與語音互動技術,Skyo 實現了實時、高效且個性化的溝通體驗,使得用戶在每次對話中都能感受到近乎無障礙的人機互動與溫暖陪伴。
以上就是昆侖萬維 " 煉 " 成 Skyo 背後的秘籍了。
又拼上一塊多模态 " 拼圖 "
最後,我們聊回到實時語音對話助手本身。
雖然 GPT-4o 可以說是率先打開了這一市場的大門,但時至今日類似的產品仍然存在諸多痛點。
例如現有產品在多語言支持方面仍有不足,難以滿足全球用戶的需求;再如它們雖然在語義理解和生成方面表現出色,但在情感理解和個性化記憶方面仍有待提升。
此外,實時語音對話助手在響應速度和流暢性方面也需要進一步優化,以此來确保用戶體驗的連貫性和自然性。
但最重要的一點,或許還屬消息的實時性了,畢竟我們平時聊天也都更傾向于談談一些新鮮的事物。
從這次的實測中不難發現,Skyo 在諸多維度上已經符合要求,是在實時語音對話助手領網域發展中打了個樣的那種。
至于對昆侖萬維在大模型時代自身的發展,Skyo 可以說是有拼上了一塊多模态的 " 拼圖 "。
這一點,把它在每個節點的產品鋪開來看,便可一目了然了。
首先就是其大底座天工大模型系列,包括天工 1.0、天工 2.0、天工 3.0,近期還将邀測天工大模型 4.0 O1 版,具備中文邏輯推理和反思能力。
其次在其它模态上,還包括 AI 搜索(天工 AI 搜索)、AI 音樂(天工 SkyMusic)、AI 社交(linky)、AI 視頻(AI 短劇平台 SkyReels)等。
加上此次的 Skyo,昆侖萬維稱得上是國内在多模态與工程能力,以及布局全面型上的佼佼者了。
One More Thing
據了解,Skyo 即将集成在天工 AI 的 APP 中。
屆時,除了我們展示的能力之外,還會有生成音樂、主動交流以及更多個性化互動等眾多新能力哦 ~
那麼這樣的實時語音對話助手,是否聊到你的心趴上了呢?
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>