今天小編分享的科學經驗:Sora還沒開源,但這家國產AIGC視頻公司已經靠還原現實賺錢了,歡迎閱讀。
最近 AIGC 的落地,又有了一些熱議和争論。
在金沙江創投主管合夥人朱嘯虎的爆款采訪中,他表達了對自研大模型商業閉環的悲觀,但又堅定地表示非常看好應用," 我信仰 AGI,但我信仰應用啊,信仰能馬上商業化的。"
在他的犀利表達中,一家應用公司意外走紅。
它就是 AIGC 視頻廣告公司FancyTech(時代湧現)。
對國内大模型五小虎不願一看的朱嘯虎,提到 FancyTech,真的是不吝溢美之詞,直誇很酷。
誇它什麼呢?主要是兩點,一是效果好,二是能馬上變現。
FancyTech 商業成績如何,還要等我們進一步挖掘;而論效果,我們搜尋來了網上的視頻,确實不錯。
但誰會只相信品牌放出的 demo 呢???
搜索之下,我們發現 FancyTech 的免費測試鏈接——那還等什麼,直接衝啊。
FancyTech 真的 fancy 嗎?
實測第一站,我們率先體驗的是 FancyTech還原現實的換裝功能。
簡單來說就是基于一張商品圖,可以生成模特上身圖,并且是能自定義姿勢、自定義背景、自定義臉的那種。
說實話,AIGC 的風這麼大,給模特換裝已經不是啥稀奇功能了,甚至這一塊的開源力量也不小。
但之前接觸過類似 Google 的 Tryon Diffusion 等,都沒有 FancyTech 這樣能夠進行詳細的自定義。
就上手體驗而言,FancyTech 的體驗比較傻瓜式。
首先需要上傳一張服裝影像,接着上傳可供參考的模特姿勢,同時選擇模特的性别、人種等,繼而再上傳(最少)一張背景參考圖,就能得到最終的模特上身效果。
衣服整體還原效果還是挺真實的。
實測第二站,是 FancyTech 另外一個主打的功能,圖生視頻。
上傳任意一張圖片,點擊下方的運行鍵即可。
等待時間大概在 35s 左右,我們得到了這樣一個效果:
模特有眨眼動作,肢體中心也有自然的輕微轉移,商品、模特都沒有變形。
我們還試着多跑幾次,每次出來的效果都很穩定。
而相同的事情丢給同為 AIGC 視頻生成工具的 Pika 幹,得到的效果是這樣的:
動作幅度更大,但商品細節似乎有模糊處理。不知是否是模特表情誇張引起的五官變形,恐怖谷效應撲面而來。
兩者對比,能看出 FancyTech 生成的視頻結果在商品實物還原方面,還是很能打的。
為了試驗它的效果穩定與否,我們又對比了一組。
這是 FancyTech 的效果:
這是 Pika 的效果:
這一組效果也都還不錯,并且能感受到,FancyTech 也可以有較大的人物動作幅度,有接近真人模特的動作展示,視頻時間也能達到 4s 左右。
在給品牌使用的流程上,這些生成都是自動化的,從生成圖片到視頻、再到發布,都不需要人工參與。
就怎麼說呢,跟某寶上售賣服裝配的展示視頻好像也沒差?
看了一下别人利用 FancyTech 做出的商品廣告,比我們這種純小白做的,那是酷炫多了。
最最重要的是,看起來不穿幫,對現實場景有比較好的還原,不會一眼假是 AI 做的:
技術上是如何實現的?
親身體驗下來,FancyTech 是有兩把刷子在身上的。
定位也很明晰:聚焦電商和廣告視頻領網域,利用 AI 驅動生成商品表達視頻,能基于用戶反饋調整視頻細節,還能附帶畫外音、音樂、字幕等。
而且與市場上很多的 AI 視頻生成工具,包括 Sora、Pika 等在内,FancyTech 采用的方式不是文字生成視頻,而是圖片生成視頻。
但這樣的 AIGC 視頻生成效果,背後究竟是通過什麼原理實現的?是基于某些開源方案打造,還是重新純自研?
帶着種種問題,我們向 FancyTech 求解了一下背後的技術細節。
"FancyTech 是自研的全鏈路底層技術,然後配合工程化能力。" 對方倒也沒藏着掖着,直接亮出來了自家的技術實現方案。" 我們學習了大量的熱門視頻,自研的模型來寫腳本,再通過 AI Agent 串聯各模型生成視頻。"
整體來說,FancyTech 的工作流包含以下三個組成部分:
視頻模型:生成素材,提升素材豐富度;
AI Agent:自動化生成,提升交付效率;
數據效果反饋:自動優化素材,提升發布效果。
三者形成循環,實現數據驅動,達到持續優化視頻生成效果的目的。
更進一步的,我們則就最基本的視頻模型方面進行了了解。
以前,AI 無法真正取代商品展示拍攝,是因為效果不盡人意,尤其是難以模拟 3D 場景的真實動态。
但看看剛才親自試出來的效果,不管是連衣裙本身面料和重量帶來的垂墜感,還是模特動作變換導致的裙擺擺動,FancyTech 都能展現出自然效果。
是怎麼做到的呢?
一是 FancyTech 自己組建了數據标注團隊,在訓練過程中收集了大量的真實數據,進行清洗、标注,從而擁有了質量夠高的數據集。
這樣一來,就非常有利于最終產出優質效果的視頻。
二是構建覆蓋多類型商品的場景圖生成框架,實現全自動化、多品類、多種組合搭配的商品生成、場景生成、細節復原與增強。
為了精确保持商品細節并進行合理變化,FancyTech 還自研了影像特征提取器,将影像特征抽成 100 自由度(合理變化)和 0 自由度特征(保持細節)。
第四點是,針對不同商品和細分品類,團隊訓練了自己的多模态(文 + 圖)影像生成模型 DeepVideo。
在自研模型的基礎上,FancyTech 團隊采用元學習和強化學習的訓練方案,持續提升不同控制條件下的泛化能力。
第五點也是 FancyTech 着重強調介紹的一點,是團隊自研商品細節增強模型,ProductRefiner。
ProductRefiner 負責的功能是加強細節復原,此外,還能描述輸入可選細節,進一步提升商品細節展現。
在訓練過程中,ProductRefiner 選用了自監督訓練方法,無需構建成對數據集,極大地降低了成本。
而且能對模特的上身和下身着裝進行分割,在保證輸入影像背景不變的前提下,對上衣和下衣進行修復和還原。
阿裡系創始團隊
就在這樣的技術加持下,去年一年,FancyTech 和超過 500 個國内外品牌進行合作,日均生成視頻量超過 10 萬。
而且根據朱嘯虎公開的說法,FancyTech 是在賺錢的:
去年收入達到 5000 多萬,(比他投資時的 2022 年)漲了五六倍。
在基礎大模型業務商業化路徑仍然不分明的時候,聚焦特别場景,能有這樣一個成績,FancyTech 背後團隊究竟是什麼來歷?
據量子位了解,成立于 2020 年的 FancyTech,背後是一支阿裡系團隊。
其創始人兼 CEO,William Li,花名空界,曾是天貓奢品 Luxury Pavilion 初代負責人,也在手機淘寶歷任分享平台和用戶社群的產品運營負責人。
創始團隊的其他成員,也都來自于手淘、天貓、阿裡雲等資深算法、運營及技術崗位。
看到這裡,你一定也對 FancyTech 能深谙電商展示玩法不足為奇了。
現在,成立快 4 年的 FancyTech 已經将算法團隊擴大至近百人規模,其中算法團隊近 20 人,數據标注團隊約 50 人。
在我們聯系上 FancyTech 的時候,這支隊伍剛剛對產品進行了一次迭代,視頻長度從原來的 2s,拓展至 4s 左右。
那麼,有技術,有市場,有商業化,FancyTech 的下一步又有什麼打算?
量子位得到的答案是這樣的:
Sora 的出現,把其他所有的視頻模型公司都打回了同一起跑線上——這對我們來說反而有利。
我們走商業化路線,追求的是商品的還原,而 Sora 驗證了下一步該怎麼樣去增強持續性。
目前,FancyTech 内部算法團隊已經開始投入自家 Transformer+Diffusion 框架的研發,預計在今年 4、5 月份會拿出成果。
是的沒錯,盡管有了 Sora 那樣驚豔世人的模型出場,FancyTech 的目标倒是一直沒變過:
" 我們希望成為長視頻賽道裡,對現實還原得最好的公司。"