今天小編分享的互聯網經驗:快手自研的文生圖大模型“可圖”來了,已于近期開啓内測,歡迎閲讀。
今年下半年以來,快手正在頻頻發力大模型業務。
未來科技力獨家獲悉,快手在 AIGC 領網域的最新進展——自研文生圖大模型 " 可圖 "(Kolors)已在公司内部全面開啓内測。
繼上個月推出大語言模型 " 快意 "(KwaiYii)後,快手在不到一個月的時間内,又推出了文生圖大模型 " 可圖 "(Kolors),在大模型業務方面繼 " 文生文 " 之後又補上了 " 文生圖 " 這塊版圖。
未來科技力從可圖項目組研發成員側了解到," 可圖 " 文生圖大模型有着三個突出特點,分别是強大的文本理解、豐富的細節刻畫,以及多樣的風格轉化。
而從 " 可圖 " 大模型内部平台測試版的首頁排布可以看出,它已經擁有了成熟的產品雛形。
" 可圖 " 大模型内部平台測試版首頁
盡管 " 可圖 " 大模型尚未開啓外部測試,它的具體表現我們依然可以從快手 App 兩天前上線的 "AI 玩評 " 功能中略知一二。
"AI 玩評 " 已于 9 月 15 日在快手主站開放内測,由 " 可圖 " 文生圖大模型提供技術支持。
就在我們以為這又是一個單純面向短視頻創作者的文生圖工具、會出現在視頻編輯後台時,快手卻頗讓人意外地把 "AI 玩評 " 功能放在了評論區。
也就是説,以後你在某個短視頻下評論,可能不再需要煞費苦心去找适合的圖片 / 表情包了,快手直接就能為你生成一張。
在 "AI 玩評 " 上線當天,獲得測試資格的用户已經開始在快手官方的評論區開始了 " 許願式 " 留言。
未來科技力也在第一時間獲得了内測資格,下面就來看看我們的一手體驗。
首先在快手 App 打開任意一條視頻的評論區,找到評論輸入框右側的 "AI" 按鈕,就可以很方便地進入 "AI 玩評 " 的功能界面。
生成圖片的前提是需要先輸入一段至少六個字的文字,輸入後右側的 AI 圖示就會自動亮起,告訴你可以開始生成。
先來試試一些比較常規的描述看它能不能聽懂,比如輸入 " 陽光照耀的沙灘,一個小孩在海邊玩耍 "。
幾秒之後下方就會出現一組 AI 生成的影像,每張都标注了不同的風格,包括了新海誠、像素畫、寫實動漫、國風、賽博朋克和皮克斯等等,據説有十幾種。如果對生成的幾組圖不滿意,還可以點右上角的 " 換換看 " 重新生成一組。
從生成的影像來看,理解還是挺到位的。
再輸入幾句中國古詩句,它竟然也聽懂了:
從畫面的細節來看,不管是葉片和花瓣的細微紋路,還是根根分明的花蕊,難得能處理得不錯(葉片外圍的枯邊也體現出來了)。
據説快手 AI 研究團隊更改了去噪算法的底層公式和加噪公式,同時精選了一批高細節、高美感的優質數據,在模型學習的後期進行有側重學習。能讓生成圖片的細節紋理更豐富,想必也與此有關。
我們再來輸入一些中文語境下有着特定含義的詞組:
也不錯,至少沒有把魚香肉絲畫成一只魚加一片肉,隔着螢幕也聞到了麻婆豆腐的辣味(上面甚至還撒了葱花點綴)。
它甚至能聽懂什麼是幹飯人(" 幹飯 " 本來是西南官話方言):
" 可圖 " 大模型對中文表達的理解從一開始可以説就被納入了考慮。
據快手研發人員透露,快手 AI 有着數十億的圖文訓練數據,這些數據來自開源社區和自研 AI 技術合成,并且覆蓋了常見的三千萬中文實體概念,在此基礎上訓練研發了一個強大的中文 CLIP 模型。
自研的中文 LLM 加上融合 CLIP 的圖文特征作為文生圖的文本理解模塊,讓 " 可圖 " 大模型能更好地理解中文特色概念,減少了復雜概念、屬性混淆等文生圖領網域常見問題。
不過,既然是把 "AI 玩評 " 的功能放在了評論區,也要來看看它在評論場景下表現如何。
蹭個熱點,輸入描述心情的 " 搶不到火車票非常沮喪 ","AI 玩評 " 還是生成了一些比較能反映這種情緒的有趣影像:
而當我輸入那句表情包裏經典的 " 我聽不懂,但是我大受震撼 ",發現還是生成的簡筆畫風格和新海誠風格表現最貼切(最受歡迎的生成風格預定?):
整體體驗下來,"AI 玩評 " 還是有可圈可點的地方,當然前提依然是能用合适的 prompt,以及是比較常見的描述來提示 AI。而如果考慮到網友們在評論時自由表達心情和口語化的普遍特點,這一功能依然可以做許多探索。
從 "AI 玩評 " 功能其實能看出一部分快手對于大模型應用的思考,也就是——非常強調 " 落地 "。
不同于早前很多致力于打造通用大模型產品的公司,快手這樣短視頻内容社區,在大模型產品功能的研發上要更重視和社區的結合,在乎的是用户是不是能真正用到。
就像 8 月依托 " 快意 " 大模型推出的 "AI 對話 " 功能,有一部分是基于搜索場景,能讓用户更便捷精準地找到平台上的内容(在給出答案的同時也會附帶相關視頻、百科的鏈接),服務用户的思路同樣也延續到了 "AI 玩評 "。
至于為什麼把 " 可圖 " 大模型在快手站内首先落地到評論區,快手的官方回答是,
" 快手應用的累計互關用户對數超過 311 億對,同比增長近 50%,日均互動(包括點贊、評論和轉發等)總量達 80 億次。有較強用户粘性的短視頻評論區成為 AIGC 能力最佳的落地應用場景之一……(花時間和精力找配圖)在很大程度上抑制了用户發布評論的意願,AI 玩評能夠極大提升用户參與評論的積極性和滿意度。"
當然,既然将 " 可圖 " 大模型做成了產品,背後可能還承載着快手更大的野心。
今年 5 月的一季度财報電話會上,快手 CEO 程一笑第一次向外界透露了快手大模型業務的進展:已組建大模型研發團隊,并依托過去在 AIGC 算法和大規模語言模型方面的技術積累,按計劃推進大模型開發和訓練。
兩個月後,快手在 7 月 8 日宣布開始内測 " 搜索智能問答產品 ",拉開了大模型應用落地的序幕。
随後就是較為密集的產品及功能發布:8 月 8 日快手開始 "AI 對話 " 功能内測,8 月 21 日大語言模型 " 快意 " 開啓内測,9 月 15 日主站内測 "AI 玩評 " 功能,直到今天 " 可圖 " 文生圖大模型浮出水面……
值得注意的是,快手曾在今年 8 月 10 日、面向平台創作者舉辦的光合創作者大會上第一次正式且較為詳盡地介紹了其大模型業務的進展。
針對此前一直向外界透露甚少的大模型業務,快手在這次大會上一口氣公布了了多項進展。其中就包括了文本、影像、視頻乃至 3D 素材和音樂音頻生成的多種能力,覆蓋了視頻創作的創意激發、素材挖掘及剪輯制作各個環節,同時還針對直播場景重點介紹了快速制作屬于用户自己的孿生數字人的解決方案 " 快手智播 "。
甚至這場一年一度的大會本身,包括海報和嘉賓出場方式等等,也罕見地充滿了 AIGC 的元素。
選擇從零開始自研大模型的快手,不知不覺已經積累了許多,慢慢搭建起它口中的 " 全模态大模型 AIGC 解決方案 "。
所以到這次推出 " 可圖 " 大模型,快手可以説也是有備而來。
雖然今年以來國内各大公司都開始陸續推出各自的大模型產品,但就内容公司來説,我們似乎還沒有看到過一款能真正讓人印象深刻的產品,如何能在訓練出一個靠譜大模型的基礎上探索出更多屬于内容公司的新玩法,想想還是挺讓人期待的。