多模态大模型迸發，創業機會和挑戰在哪？

今天小編分享的互聯網經驗：多模态大模型迸發，創業機會和挑戰在哪？，歡迎閱讀。

自 ChatGPT 發布之後，多模态大模型賽道備受各界關注，似乎也給了跨境電商領網域一劑強心劑。

多模态大模型作為最前沿的 AI 技術，在跨境電商領網域，發揮怎樣的應用前景？對于新一代創業者而言，他們又有怎樣的創業機會和挑戰？

近日，由 GAIR 研究院、雷峰網、世界科技出版社、科特勒咨詢集團聯合主辦的第七屆 GAIR 全球人工智能與機器人大會，在新加坡烏節大酒店圓滿結束。

而在會議多模态大模型與跨境電商的分論壇上，由 Mamentum Works 創始人兼首席執行官李江玕主持，Meta 人工智能研究專家曹晟、人工智能專家張偉、騰訊海外遊戲發行算法中心主任郎君齊聚一堂，一同分享多模态大模型下的創業機會。

在圓桌論壇上，郎君表示，如果創業可能從兩個方面下手，一是從現有的大公司的流程裡發現大公司可能做得不夠好的一些點，大公司又不太願意投入一個很專注的團隊專門幹的這些事情，自己創業就把這些事做了。二是如果我們沒有在大廠工作，可以觀察自己的生活周邊有沒有一些相對好的需求，可以用技術的方式去解決，或者用商業的方式解決，或者用產品的方式解決。這幾個方面，只要找到一個需求點就可以去突破。

郎君覺得在 AIGC 領網域創業，這波還是會有很多做法。現在 ChatGPT 已經開放了，大家用起來也很方便，也有很多的 API 接入技術可以使用，創業成本門檻已經比以前低了很多。關鍵是要麼從需求出發延伸性地做創新，要麼就是從這個應用上繼續加一塊磚也能產生巨大商業價值。

張偉則思考了兩條路，第一條路是在學術界中沿着這個方向做一些基礎的研究，跟政府或者是國内的一些高校合作做一些更前端的研究，類似跟機器人的結合等。第二條路是創業，基于 ChatGPT 做一些應用，比如數字人，這個方向有挑戰，但發展得好也是一條新的商業賽道。

曹晟直言，企業的周期越來越短，大家可以去接受這個事實，也不用去焦慮。首先有很多機會，同時也有很多競争對手，第三有很多是可以被颠覆，第四要看你自己也可以颠覆的東西。曹晟覺得，大家只要結合這種模式，都是有機會的。

以下為圓桌讨論的内容，雷峰網做了不改變原意的整理和編輯：

李江玕（主持人）：從去年 11 月 ChatGPT 發布出來到現在，整個市場發生很多變化，大模型能力也在不斷的迭代。在過去的 8~9 個月的時間，對很多人來說好像又變成了無限的可能，但無限的可能就得做市場，你得探索他們的東西。各位在過去的這個時間經歷了怎麼樣的心路歷程？

郎君：去年 11 月 ChatGPT 橫空出世，剛開始我們的算法中心，有些同學很積極的去探索、研究，有些同學則比較保守，說這東西跟我沒關系，還有一部分人是處于觀望的狀态，我是後者。當時我覺得它離我們比較遠，那是聊天的語言模型，跟我們做的視頻、音頻等技術關系不大，但是再過兩個月之後就發現 ChatGPT 開始火爆了，一下子就把我們的視野全部打開了，大家可以做的事情越來越多。我們在我們場景裡面做視頻用的特别多，所以我們就開始深入研究，把我們能夠服務的 ToB、ToC 客戶全部掃描了一遍看看能做什麼，後來再從某些方向快速地去試錯。

内部也是分很多種聲音，但大家整體都是希望用 ChatGPT 真正地降本增效。而且讓你試錯的時間并不多，可能就是 3 個月的時間，能做就做下去，做不成可能就要撤。但是我們确實還是摸索出了一些路線出來，繼續去嘗試，現在看起來效果不錯。

比如，我們做了視頻的自動生成、遊戲文案的自動生成、大規模的情報分析，以及關于用戶運營的一些技術，包括影像的變換，一些虛拟人的技術，這方面做的還是比較多的。有些是我們用 ChatGPT 直接做，有些是在 ChatGPT 上面加一層 LangChain 的方式做一個相關的工作。這方面現在比較成熟，而且 Lang chain 現在也用得比較穩定了。

李江玕（主持人）：從一個東西想做，到這個東西落地，你是不是感覺這些新的應用、新的場景、思路比以前快。

郎君：對，我感覺比較快的原因有兩個，第一個是 ChatGPT，它人人可用，它不像過去的元宇宙，大家知道雲宇宙就是一個雲裡霧裡的概念，跟我沒關系，只能看看這個 Demo 而已。現在 ChatGPT 人人都可以去嘗試和探索，我就可以成為用戶了。

這其實啟發了很多人的一些想象力，包括投資資本界也是這樣看的，一下子就暴漲，然後現在開始出現一個冷靜期，所以在漸漸的衰弱，但還是在反彈。所以我覺得确實很好用，而且現在這種 AIGC 開源社區非常的發達，不管 ChatGPT 還是其他領網域裡的核心工具，特别有一段時間每天都有海量的論文在爆發，跟都跟不過來，就很痛苦了，現在相對好一點，但還是很不容易。這是我們的一些情況。

張偉：我自己也是做自然語言處理的，我讀博士也是讀自然語言處理的，剛看到 ChatGPT 的時候我自己也體驗了一下，非常吃驚，感覺這個好像把我們以前學的那些東西都颠覆了，包含我們做的那些句法分析、信息提取的工作。

我們現在還面臨着挑戰，主要分兩部分，一方面針對自然語言理解，業務的特定模型表現不是很好，另一方面 LLM 大模型，針對業務場景，它的精力達不到我們的業務需求。但是你要真正到一個具體的商業問題上，還是有點 Gap。因此我們需要做一些針對特定任務的小模型，然後再在一些大模型底座上去做再訓練。但是像電商這種場景，你首先要投入，而我又不是做一個雲服務，這裡面你就得想清楚它的應用在哪裡。

這種我們就剛開始講了兩個點，一個點是現在已經有 AI 應用，現在的模型已經還可以了，然後你換它的成本也很高。第二個是，做完之後它能不能跟我們現在這個業務匹配，其實也有一定分享，因為過去的系統已經優化很長時間了。LLM 大模型如果在 General 的 NLP Topic 上，真的要對标，其實也是有優有劣了。但是你如果再加一層業務含義，這個不确定性有點高。

所以這裡面就會對于我們來說有兩個思路，一個思路是有沒有一個應用可以驅動做這個事情，第二個是這個應用驅動完了之後，其他的那些應用是不是可以重寫。

曹晟：我的心路歷程大致可以用一條比較出名的曲線形容，Gartner Hype Cycle。每次新的技術出來，大家的預期會非常高且不合理，然後到對于不能兌現的預期迅速失望，然後再回歸到合理預期并產品化 Plateau 的一個過程。我感覺我已經過了這個高點和這個低點，然後到了這個 Plateau 的過程。現在這個股票市場可能是剛剛過了高點，最近市場的反應有一點 cool down 的。

我是去年開始關注這個領網域，一開始也是對它的湧現能力和 AGI 能力感到非常震驚，也問了很多身邊的大佬，有華人和非華人，大家都說它就像互聯網剛出來的時候，甚至比互聯網那會還稱得上是幾十年一遇的機會，所以當時是非常 optimistic on this。後來在實際中做 research 和開發的時候，就發現非常難以在短時間做完美的產品化、商業化落地，特别是 ToB 或對 accuracy、safety 要求很高的產品，這方面不能保證這個產品落地。比如說金融領網域現在還是 slow to adopt，因為金融對于 accuracy 的要求太高了。多模态大模型這個長期 trend 還是在的，我也是一個 AI 的 believer 在這個情況下面，心态上面要更落地。

在 Generative AI 的時代，首先大家開發的思路會轉變，因為大家是從一個面向 deterministic programming 過程，到面向一個 probability based 的過程，大家要去習慣這種轉變，很多事情不是絕對能去杜絕，或者是絕對能去證明。而是說在一個概率上面去收斂，或者概率上面去杜絕一個事情。第二，很多時候雖然大模型的能力非常強，但很多時候卡脖子并不在這上面，或者說還有很多繞過模型本身的方法，能更好的 Boost 整個 application 的 ROI。

大家可以關注一下未來幾個月内初創公司基于拿大模型做的一些產品應用，因為他們現在被賦予了用 llama 2 整個模型創新的能力。初創公司非常能拼搏一些新的 idea，他們可以更好地找到瓶頸的地方到底在哪裡，這些信息我們可以反饋到整個生态的搭建和商業化思考。

李江玕（主持人）：你剛才提到那個銀行，我們自己的一個東南亞銀行客戶，他們内部已經有十幾個應用在做了。但他們做的事情第一件事情就是說這個東西能不能本地化，本地化部署了之後，然後再做一些提效類，包括客服的抵消，内部開發人員抵消，但是那個核心系統還是沒有碰到。

曹晟：核心沒有能看到。金融行業比較特殊，它的商業化上限理論上特别高，但是往往現在技術方面還是在做的 cost reduction 上面其實并沒有真正把 AI 技術運用到金融上面賺錢那一塊，因為就是金融的 it 還是很小一塊。再就是，大家對于這件事情的看法也有不同，所以大家可能一開始還是在做 sentiment scoring 的系統，因為這個可能更好的把它轉換成一個 trading signal。

但是在我看來，sentiment score 這個東西很久以前就一直在做，我覺得只做 sentiment score，并沒有很好的 leverage 大模型的能力，可能只用了一小部分，但是對于别的人可能更想看到這個東西能帶來實際經濟上的利益，同時他本身的 it 人才又不像那個大廠那麼多，這還是比較有挑戰的。

李江玕（主持人）：再問一個簡單的補充問題，你在矽谷裡就直接請教了一些華人前輩，也有一些白人，這兩派對這個技術的看法，會有一些系統的差異？

曹晟：華人和非華人在這上面的看法出奇的一致，都是非常看好。而且他們覺得這件事情肯定是一個 revolutionary 的事情。有些人的看法倒不是華人和非華人之間，而是看他之前從事的那個領網域，現在是有一個 AI security 比較新的領網域。但以前做 security 的那些大佬，他可能會對這個東西的 suspicion 會更多一些。他倒不是說質疑它的能力，而是說質疑在這個情況下面，人類可能不能很好地用這樣的 Tool。

最簡單的例子就是，它會帶來更多的一些不能 debug 做的一些風險，或者說傳統的一些 practice 在這個模型下面可能就失效，然後可能大家還沒有準備好。比如說現很多不會寫代碼的人用大語言模型，或者說沒有系統受過這方面訓練的人用 GPT 去寫代碼，這是一件非常危險的事情，因為可能他不知道自己到底寫出來什麼東西，然後有很多 security 的 risk 暴露出來，大致上是這樣的一個差别。

李江玕（主持人）：跟這個相關的問題，各位都在比較大廠的架構下面工作。這一塊的話，你在大廠可以投入很多資源去研究和嘗試這種東西。我現在做的是中小企業，在這個方面不管是研究也好，還是感到焦慮也好，這方面大家有什麼建議？在自己沒有什麼資源的情況下，變化又這麼大，有些場景可能對于創業公司來說的話，我沒抓住，這個可能就是生與死的挑戰，大家在這點上面有沒有一些思考和一些建議？我們應該做些什麼事情？或者說應該怎麼去面對這個問題？

張偉：ChatGPT 出來之後，我發現還挺不錯的。我自己也在思考，如果我不是在大廠，我要自己做這個事情，如果要去做個創業公司，怎麼做啊？

我自己思考了三條路，第一條路是在學術界中沿着這個方向做一些基礎的研究，跟政府或者是國内的一些高校合作做一些更前端的研究，類似跟機器人的結合等。第二條路是自己創業，基于 ChatGPT 做一些應用，比如數字人，這個方向有挑戰，但發展得好也是一條新的商業賽道。第三個思路是在一個大公司裡面的創業團隊，做一些應用。

郎君：ChatGPT 剛出來的時候，我們團隊并沒有很充沛的資源，自由去探索和發揮，我們一方面要把現有的工作做好，然後用業餘時間摸索數據，有些壓力也是給咱們特别新的意義。再說創業，因為我自己還沒有創業，我一直在想我要創業能幹什麼？這兩天在會場碰到很多以前的老朋友，很多都是創業者，有很多的信心，但我不一定要去創業，但是我如果創業可能從這兩個方面下手，從現有的大公司的流程裡面發現一些大公司可能做的不夠好的一些點，但大公司又不太願意投入一個很專注的團隊專門幹這些事情。那你去創業把這些事做了，用長尾效應的方式去收割所有大廠做的不好的點，這是一種常規的思路。

第二種思路是，如果我們沒有在大廠裡面工作，你可以去觀察你的生活，像巴菲特怎麼買股票？可口可樂為什麼不愛買？他生活中需要喝的就好，喝他就買了。從這種思路的話，可以觀察自己的生活周邊有沒有一些相對好的需求，可以用技術的方式去解決，或者用商業的方式解決，或者用產品的方式解決。這幾個方面，只要找到一個需求點就可以去突破。很多東西不一定是說我要全面的技術才能幹這個事，但我有個商業模式創新也可以搞，電商搞一些，電商就幹出來了，它并不是技術的創新，是模式的創新，所以我覺得創業還是很有機會的。

在 AIGC 這個領網域，我覺得 AIGC 創業這波還是會有很多做法。我們普通人沒有這麼多的資源，有幾種方式可以解決？第一種，有一家公司是用 CPU 的方式來做 GPU 的事情，這種 CPU 的形式做到了成本很低。這方面是有巨大的空間的平台，拿台筆記本就可以幹這種 CV 的事，就可以創業了。有些像做文本的技術，現在 ChatGPT 已經開放了，大家用起來也很方便，也有很多的 API 的接入技術都可以去使用。其中的創業成本門檻已經比以前低了很多，而且它的收費時間并不高，你幾十萬次才幾十塊錢，所以這裡其實會做很多的東西，關鍵是要麼從需求出發，延伸性的做一些創新，要麼從一個緊急的應用上，繼續加一塊磚也能產生巨大商業價值。

曹晟：我講一下我自己的看法，我以前是學物理的，一直相信熵增定律。現在是大家在一個信息上，一直在信息熵增和 explode 一個階段。這個帶來很多東西，我覺得他思考會和以前不一樣，首先企業的這個生命周期裡面，企業的周期越來越短，同時做公司的怎麼定義門檻，但是至少現在的公司比之前越來越容易，包括雲計算等技術。

當然這對創業是一個利好，又是不利好的情況。可能很多項目起來很快，但有些公司因為 ChatGPT 的事情，它又受到了一些影響。到時候大家能看到很多企業周期變化，新老交替迭代或者業界發展都非常快，我覺得大家可以去 accept 這個事實，也不用焦慮，首先有很多機會，同時也有很多競争對手。有很多事物是可以被颠覆。大家只要接受這種模式的話，我覺得就是可以走出一條路的。

李江玕（主持人）：我記得 4 月份的時候，當時在國内一家公司做拜訪，那個時候我們剛開完記錄總結會，我說總結出一點，珍愛生命，遠離大模型。我說什麼意思？他說你做的東西不能夠在大模型的能力的延伸線上，這樣的話可能會很快死。那我在想 UGIC 可能跟國内的一家大廠有關系。以前的想法是做任何東西不要在大廠的延伸線上，因為大廠很容易復制能力，這對于創業者來說其實是很難的，要做的也只是那個需求大盤本身自己做起來很難受的一些需求，那麼可能這個比較好。

剛才張偉你提到一點創業的想法，當然我們也知道現在的這種環境都不好，從 shopee 的角度或周圍一些朋友的角度來講的話，你會鼓勵大家去創業嗎？

張偉：我有個同事也在問我，因為我以前是做 NLP 的，他不是做這塊的，他問這個有沒有機會？我勸他謹慎一點，還是在大廠待着好一點。他只是有一個比較懵懂的 idea，所以這個就挺難的。而且大模型也有大廠開源的了，所以你去創業，一是資金拿不到，二是很難做一個盈利模式出來。有些同事之前做一些客服的機器人，然後接到電商裡面，它這個東西不用大模型之前也有盈利模式，用了大模型之後體驗更好，或者是整個對話效應更好，因為現在的大模型 API 的成本也比較低，用大模型迭代的現有應用還是挺好的。

還有數字人，現在的需求量是在那的，只要你的技術做得好，是有人用的。比方說一個直播它就 24 小時在那挂着，還是挺好的，開直播就相當于是免費的，這樣帶來的流量也是客觀的。這個流量不像廣告一下需要付費。雖然大家覺得數字人流量不如真人，但是從商業的角度上還是有一個利益點的，這個創意還挺好的。如果做大模型底座的創業，現在确實是風險很大，有些朋友去創業，起初他們出去的時候拿種子輪融資的時候環境還挺好，現在就很難拿到融資了。

李江玕（主持人）：我之前有個投資人朋友見了更多的創業者，他總結出來說，創業者最開心的狀态是兩個時候，第一個是產品上線前，即第一版產品上線前，第二個是剛拿到的融資還沒有到賬，中間這個過程是最開心的，之後就很不一樣了。

你們剛才提到的那個數字人，其實最近在東南亞市場有很多人在關注，就是 TikTok 電商的發展，我們也是聊了很多這個行業從業者上，因為在直播這個方面人員的投入還是挺大的，尤其是在東南亞大家覺得人員的效率跟中國比是有差距的，所以大家讨論數字人比較多，但是可能就是在實際應用上還比較少一個東西。大家對這個怎麼看？

張偉：我自己不止數字人，包括國内接受度比較高其他 AI 應用，類似一些智能化運營工具和數字化的業務看板，東南亞這邊都還處于初期，這些應用接受度需要慢慢發展。所以包括數字人在内的智能化運營工具都還是處于萌芽期。

雖然現階段規模小，接受度低，但是發展空間還是不錯的，第一個是消費者端電商市場滲透率，第二個是商家側的運營能力跟國内拉齊。随着這兩部分的發展，數字人以及數據驅動的運營工作等都是有很大的市場的。國内給商家提供第三方運營的公司，有很多，但是東南亞這邊其實還較少。在一個成熟市場去做技術創新，這件事情是一個思路。在一些發展初期市場再去做這件事情，随着市場成熟，機會也會更多，所以我覺得數字人在這還可以的。另外，我覺得數字人比國内好一點，在東南亞的真人直播質量和數字人的差距沒國内那麼大，這個也算是個優勢。

李江玕（主持人）：對于消費來說的話，TikTok 本身是一個就是廣告投放渠道本身，但本身也是一個電商的競争對手，歷史上大家都認為就是 TikTok 的廣告的轉化率比 Meta 跟谷歌都要低的，原因是什麼？目前包括數字人、辦公情況會給這個行業帶來什麼樣的變化？

曹晟：TikTok 的轉化率比 Facebook、谷歌要低。一個在 TikTok 做 Monetization 的朋友說，TikTok 的轉化率是 Facebook 的一半，但這個數據沒有考證。在我個人看來，主要原因是在做廣告投放上面。在傳統廣告投放上面，短視頻的信息密度，還有轉化率要低過信息流的。

像谷歌、Facebook，它們基本還是一個以信息流為主的產品，短視頻是它們的一部分，但是 TikTok 是以短視頻為主的一個產品，短視頻的粘度非常高，所以不做短視頻的話，session time 肯定會被短視頻搶走，但是整個短視頻的 monetization 效率是低過信息流這類產品。然後數字人我确實不太了解。這個是指經常挂在這個平台上，24 小時的一個電商直播，它是一個虛拟人嗎？

李江玕（主持人）：國内現在還有很多這種，就淘寶上的賬号，它其實都是挂着直播的，但往往是有一個人在那邊，可能也不是特别活躍。但是現在有了這樣的技術，可能以後你不需要雇一個人在那，然後你可以同時用處理的方式在不同的渠道完成直播中的時效。

曹晟：那他就是不同數字人，因為每個商家都有自己的一個直播頻道，他怎麼去跑出來呢？如果一個用戶他剛進入到整個平台上，想要找到類似還是需要一個檢索或者推送的方式。這部分可能還是需要廣告推送讓他更容易跑出，一旦它有這個綁定之後，可能就成為深度轉化，那個時候它就不需要這個持續的廣告推送，它就會綁定這個 channel，然後通過數字人去讓它持續轉換。

郎君：我補充一下數字人或者虛拟人。這個在遊戲裡面已經很多年了，它叫 NPC。比如說你打王者榮耀，突然之間有個人下線了，可以有個機器人代替，大家可以感覺不到，那這機器需要匹配機制，你需要這個機器人比你強很多還是比你差很多，有時候你跟一個很強的人打了幾局，你就進步了，但一直被虐你就不想玩了，你跟一個很差的人打一會沒意思，也不打了。所以這裡面匹配是很復雜的。在虛拟直播裡面其實也是這樣，有時候你到一個店裡面，如果這個直播講得很好，互動很好，這個機器人調得很好，你就随便買東西了。如果你跟機器人聊了半天，聊不上來，體驗不好之後就不買了，直接走了。所以這個虛拟人的技術，我覺得它不只是個聊天機器人，可能還有那種表情、動作、手勢，還有廣告的技術，心理學怎麼去設定，非常非常復雜。我覺得做好了還是有極大的前景。

李江玕（主持人）：所以這個行業還是有很多的可能性的問題的。今天的時間也差不多了，接下來我們大概有 15 分鍾的休息時間，3 點半我們将進入下一個議題，感謝三位嘉賓的精彩分享。