今天小編分享的科技經驗:AI時代,大語言模型下的機會與不适,歡迎閲讀。
近幾個月,人們一次次在被AI技術實際應用刷屏的同時開始產生專業領網域的工作者即将被取代的恐懼。如何沉着面對AI時代下的機會與不适?希望作者在本文的闡釋能夠帶給你一些啓發。
2013年,iPhone搭載多點觸摸螢幕技術開創了一個全新的智能手機界面互動模式,由此孕育了移動互聯網。
而2022年年底的ai繪畫到近幾個月,ChatGPT生成的文章,Copilot 生成的代碼,Midjourney、Stable Diffusion和DALL-E 僅靠一些關鍵詞就能快速生成圖片,人們一次次在被ai技術實際應用刷屏的同時開始擔心在不久的未來人類的絕大部分工作是否要被人工智能替代。
同一時間,各個行業巨頭也紛紛下場,前有Google影像生成模型Imagen,Meta的文本轉視頻模型的Make-A-Video,微軟則另辟蹊徑,将 DALL-E 2 内置在新服務 Microsoft Designer 中,滿足普通用户的邀請函、明信片等日常設計需求。
人們在面臨科技帶來的便利的同時伴随着專業領網域的工作者即将被取代的恐懼。
這次我們來聊聊AI時代下的機會與不适。
ChatGPT、Mid-Journey、Stable Diffusion 等 AI 超級應用的出現,标志着加速計算和AI技術的成熟已邁入成熟,看着一連串陌生的單詞,做完互聯網打工人的我們,雖然不太明白到底意味着什麼,但也真切感受到我們的生活或将發生如電影《I, Robot》的變化和恐懼。
AI正以一個前所未有的速度滲入各行各業,推動一場一場新的科技革命。
經過近幾年AI技術的不斷發展,強大算力和先進的大語言模型為AI提供了合适的應用平台,促使各個頭部廠商重新構建自己的產品和商業模型,市面上常見到的AI工具如圖:
另一方面人性中對于安全、穩定的追求,致使更多人對AI工具及產生的内容持觀望态度或抗拒新的改變。
,随着各個頭部公司投入的資源,如英偉達、微軟、Google、Adobe以及國内互聯網等廠商在相差無幾的時間裏相繼退出各自的AI服務,在當今内卷到不行的時代【如果不想被人颠覆,就要先颠覆别人】或許我們應該先放下懷疑、抗拒,了解這次的新技術。
01 AI的技術發展史
人們都在説是今年是一個AIGC(AI generated content)爆發的時代,讨論度最高的幾款工具ChatGPT、Stable Diffusion、Mid-Journey等都可以被稱為AI,那麼什麼是AI?
AI是指利用人工智能技術生產内容,也就是説我們在互聯網上浏覽到的信息内容制作者從人【UGC(User-generated Content)用户原創内容,以提倡個性化為主要特點】或機構【PGC(Professional Generated Content)專業生產内容,内容設定及產品編輯均非常專業】變成了通過各種類型的人工智能工具制造出來。
1. 從深度模型概念GAN到Transformer深度學習模型架構
AI的概念于2014年由人工智能專家Ian Goodfellow在一次酒後想到的,可以基于CNN(深度卷積神經網絡,通過問題開始學習一個陌生事物,提取特征)的深度模型概念GAN【Generative(生成) Adverserial(對抗) Nets(網絡)】,通過GAN将兩個神經網絡進行對抗,即生成器與判别器。
生成器通過輸入生成影像即用于生成"造假數據",判别器用于判斷數據的真偽,在訓練過程中,兩者交替進行,使得生成器生成的影像越來越逼真,而判别器的判别能力也越來越強,如果想了解更多關于GAN算法模型可以點擊查看更詳細的解釋,涉及到模型算法等專業性内容這裏不做過多説明。
GAN算法做為當時AI技術革命的基礎,後來被廣泛運用到影像生成(Ai換臉)、高清重建、黑白電影上色、視頻生成、語音合成、影像風格轉換等等領網域,被稱為21世紀最強大的算法模型之一,Ian Goodfellow也成為了AI領網域最知名的專家之一。
2015年開始,GAN開始被投入實際運用中,相關的論文也爆發式增長,也成為AI生成影像、處理影像任務裏最常見的算法模型。
同一年,一家被"鋼鐵俠"埃隆·馬斯克、Y Combinator總裁阿爾特曼、天使投資人彼得·泰爾等一眾硅谷大佬投資的公司 OpenAI 成立。
當時 OpenAI 的初衷是預防人工智能帶來的災難性影響,推動人工智能發揮積極作用。
2016年,OpenAI推出了自己的AI訓練架構 Universe,通過網絡利用全世界的遊戲、網頁和其他應用,來測量和訓練AI的普通智力,使得AI 智能體可以通過虛拟鍵盤和滑鼠像人類一樣使用電腦進行任何維度的自我學習解決任何問題。
當時的AI 技術雖然在特定領網域很強大,但一旦超過這個特定領網域就無法工作,即AI 技術逃脱不了"窄AI"的範疇,比如AlphaGo可以在圍棋輕松赢過任何人,卻沒有辦法玩其他棋類遊戲。
直到2018年,Transformer(深度學習模型)架構的發展改變了NLP(自然語言處理)技術的發展。
在NLP領網域中主要存在三種特征處理器——CNN、RNN以及Transformer,Transformer抛棄了傳統CNN和RNN神經網絡,整個網絡結構完全由Attention機制以及前饋神經網絡組成,使得Transformer不同于CNN的單向處理數據,可以并行處理所有輸入數據更快、更高效。
另一方面Transformer的自我注意機制,通過捕獲句子中單詞或标記之間的關系,提高語言翻譯和情感分析任務中的表現,更好的處理自然語言任務中的長文本或語音序列。一定程度上解決了傳統RNN等序列模型中長序列計算效率低下、梯度消失等問題。
此時的OpenAI也推出在NLP(自然語言處理)領網域打造的模型GPT系列,第一款產品GPT-1也在2018年正式推出。
GPT-1不同于其他AI模型之處,在于他的"半監督",在此之前的NLP模型中,AI需要基于特定任務對大規模數據進行學習,而這些數據需要人為"監督",進行數據标注。
GPT-1則可以在一開始先進行無監督的學習預訓練,通過對數據的學習增強語言能力,最後進行部分監督的微調。簡單來説,就是GPT-1可以用更少的資源和數據進行更有效率的學習,但當時的GPT-1一方面由于訓練數據的有限,一方面性能并不算好,并沒有到達對話的能力。
2020年OpenAI推出了GPT-3,相較于前兩代,GPT-3的參數超過1750億個(GPT-2約為15億個參數)相當于人腦神經連接的十分之一。另一方面GPT-3使用人類反饋優化語言模型RLHF(Reformer Language model with Hybrid Flow)通過監督學習和強化學習的組合方式對ChatGPT進行微調,将強化學習和人類反饋結合到NLP中,以最小化無益、失真或偏見的輸出。
當語言模型經過RLHF預訓練後,可以對一段對話生成不同的響應,同時讓人對結果進行排名。RLHF的關鍵3個步驟如下:
預訓練一個語言模型(LM)+有标籤數據微調
收集數據,訓練獎勵模型
用強化學習針對獎勵模型優化策略
預訓練語言模型的使用提升的GPT-3性能,使其能夠識别更深層次的文本含義,通過不斷地監督學習、人工糾錯、強化學習進行對話模拟,自然而然的與人類進行對話并進行反饋,最終形成越來約接近人類語言的模型。
另一方面影像生成領網域,雖然GAN已經可以生產較高質量的圖片及内容,但效率較低,另一方面生成的影像也始終難以令人滿意。而Transformer架構的出現,使得影像合成領網域告别了GAN時代,迎來了NLP(Natural Language Processing,自然語言處理)與計算機視覺技術相結合,產出更貼合用户需求的圖片。
上面關于AI的進化過程中,除了GAN語言、Transformer架構,還有關于語言模型的訓練,那麼什麼是NLP(natural language process,自然語言處理)?為何在年初突然各大公司紛紛開始搭建自己的大語言模型?
2. 從自然語言模型(NLP)到大語言模型(LLM)
在系列電影《猩球崛起》中,由于病毒大範圍的擴散,猩猩會因病毒變得聰明,而受感染的人類則會失去語言能力且智商大幅降低,直至稱為猩猩的奴隸。
其中的反派上校説到"病毒不會殺死我們,但會奪走那些之所以使我們稱為人類的東西,我們的語言我們的思想,它會把我們變成野獸。"可見語言對于人類文明存在的重要。
語言作為人類特有的用來表達情感、交流思想的工具,是一種特殊的社會現象,由語音、詞匯和語法構成。語音和文字是構成語言的兩個基本屬性,語音是語言的物質外殼,而文字是記錄語言的書寫符号系統。
在人類長期的進化過程中,采用一套共同的符号、表達方式以及處理規則進行溝通,即交流觀念、意見、思想。其中符号以視覺、聲音、觸覺的方式進行信息傳遞,現代人類擁有現在的高度文明,并不是當代人類的獨立創作,離不開前人對于自己發明成果的記錄與留存,使得我們可以在前人的基礎上進行迭代與新的創造。
當然人類也并非天生具備語言能力,需要後天經過學習才能獲得。
語言模型(language model,LM)是根據客觀事實而進行的語言抽象數學建模,通過計算句子(單詞序列)的概率或序列中下一個單詞的概率的模型。自然語音模型(natural language process,NLP)則是從人類的角度,人與人及人與計算機交際的語言問題,語句是否正常合理。
當一句話種的單詞總是順序出現,每個單詞通過前面所有單詞計算出概率,把所有這些單詞的概率相乘,總概率數值越大,説明越像人類語言,語言模型協助解決了AI出現的語句是否合理。而語言模型也經歷從專家語法規則性模型到統計語言模型,進而到神經網絡語言模型階段。
專家語法規則性模型-(至80年代)
在計算機編程語言的初期,通過歸納針對自然語言的語法規則方式建立模型,多應用在提升語音識别和機器以及機器翻譯的性能。
整個過程中需要人先從數據中獲取知識,歸納出規則,寫出來交給機器,然後機器來執行這套規則,從而完成特定的任務。
但由于自然語言本身的多樣性及口語化,随着時間性發展不同語法或流行語的迭代,以及空間性不同國家地區語言語法的本地話,同時人本身強大的糾錯能力,導致語法規則急劇膨脹,沒辦法持續迭代使用。
傳統的自然語言處理系統主要依靠人工基于上述組成元素來編寫出各種規則,從實踐結果來看,這種方式耗時耗力,而且效果并不理想。
在影像識别領網域也同樣存在。例如,在影像識别領網域的早期,如果要識别一只貓,那麼首先就要提取和制定出貓的各種特征規則。
由于貓的形态多種多樣,而且當出現遮攔、扭曲等情況時,人工提取特征将會變得更困難。
統計語言模型-(至00年代)
計算句子(單詞序列)的概率或序列中下一個單詞概率的模型,通過給定的上文來預測句子的小一個詞,如果預測的詞和下一個詞一致,那麼上文+該詞出現的概率比上文+其他詞的概率更大,則系統判斷上文+該詞則更為合理,即概率高的語句比概率低的語句更像人類語言。
與上階段統不同的是,統計語言模型由之前的需要通過人轉述知識變成了機器自動從數據中學習知識,再加上大量的語料數據。
神經網絡語言模型-(至今)
在統計語言模型的基礎上,通過網絡的疊加和特征的逐層提取,可以表征除了詞法外,相似性、語法、語義等多方面的表示。
相較于傳統網絡,神經網絡模型可以處理單詞之間的長期依賴關系,捕捉到單詞的上下文及句子中其他單詞的關系,同時随着時間的推移神經網絡語言模型可以使用更多數據自主進行學習迭代,而傳統語言模型則需要手動更新以提高其準确性。
ChatGPT現階段的自然語言模型正是"神經網絡語言模型"階段。
2023年很多公司基于深度學習架構,通過大量的文本數據訓練,從而擁有包含了數十億參數規模龐大的大語言模型LLM(Large Language Model),用來處理多種自然語言任務,目的在于讓機器能聽懂人的命令、遵循人的價值觀,意味着AI的使用并不局限于專用領網域,而是通用任務,即通過自然語言鏈接人與機器,滿足機器能夠獨立、準确理解完成相應指令同時完成自主學習,比如文本總結分類、問答、對話等等。而人的角色也會從教導者逐漸轉向監督者,甚至從人機協作、機器向人學習,發展為人向機器學習,甚至由機器拓展人類。
目前常見的大語言模型有:
GPT-3(OpenAI):Generative Pre-trained Transformer 3(GPT-3)最著名的LLM(Large Language Model)之一,擁有1750億個參數使用單向語言模型預訓練。該模型在文本生成、翻譯和其他任務中表現出顯著的性能,在全球範圍内引起了熱烈的反響。
BERT(谷歌):Bidirectional Encoder Representations from Transformers(BERT),該模型基于谷歌的大語言模型LaMDA驅動,使用雙向方法從一個詞到左右兩邊捕捉上下文,使得各種任務的性能提高,适合于理解類、做理解類、某個產經的具體任務,如情感分析和命名實體識别。
T5(谷歌):文本到文本轉換器(T5)是一個LLM,該模型将所有的NLP任務限定為文本到文本問題,簡化了模型适應不同任務的過程。T5在總結、翻譯和問題回答等任務中表現出強大的性能。國内許多大型語言模型都采用T5模式。
ERNIE 3.0 文心大模型(百度):百度推出的大語言模型ERNIE 3.0首次在百億級和千億級預訓練模型中引入大規模知識圖譜,提出了海量無監督文本與大規模知識圖譜的平行預訓練方法,底層邏輯是通過百度智能雲提供服務,吸引企業和機構客户使用API和基礎設施,共同搭建AI模型、開發應用,實現產業AI普惠。
而現在的大型語言模型也多應用于提升AI的自動回復能力、意圖識别能力、優化人機互動的體驗以及其他更多的實際使用場景。
3. AI 繪畫-文本生成影像
在美國科羅拉多州博覽會的藝術比賽中,參賽者 Jason Allen 使用AI繪畫工具MidJourney生成的作品《空間歌劇院(Théâtre D’opéra Spatial)》獲得了數字藝術獎項的第一名。在當時引起極大的争議,甚至有人提出"藝術消亡"的言論,但随後兩名評審表示即使提前得知此事,也依舊會把首獎頒給Allen。
在實際創作過程中這張畫也不是一次性完成的,整個繪制過程中經過了上千次修改、完善,花費了将近80個小時才完成。
而差不多時間段Stable Diffusion、Disco diffusion等多個高精度、高效率的AI繪畫平台開始在全世界範圍内引起關注。
很多人理解的AI繪畫應該一鍵生成完全符合用户心中所想的影像,而在實際操作過程中需要通過不斷輸入關鍵信息生成影像,其操作邏輯跟畫家進行創作有很大的區别。
實際上AI繪畫與ChatGPT等大型語言模型相似,都需要操作人對于想要的影像先進行抽象化文字理解,比如畫面的構圖、曝光、置景、角度等都需要先通過哪些精準化、具像化的語言表達出抽象的畫面,整個創作過程也需要多次的人為幹預優化,進行多次輸入調整,而系統則根據對于語義理解能力、充分的數據标注、細節處理、用户的Prompt提示詞相互作用,才能得到符合操作人的想要的畫面。
我們在各大社交媒體會看到各種各樣的不同風格對應的Prompt提示詞整理,因此如果你使用MidJourney生產的畫面差強人意不妨先找找對應風格的描述詞(比如主題、媒介、背景、燈光、顏色、氣氛、視角、構圖、藝術風格等等)。
因此AI影像的生成不是簡單的結果,更多是将操作人進行表達的過程。而由于自然語言中的語義表達比詞組空間更大,AI對于語義的理解和人類本身不可避免的會出現偏差,因此AI繪畫的本質是協作與表達,因此在使用Midjourney過程中描述詞越詳細,生成的圖片相對也就越精準。
當你需要修改AI生成影像的某一細節時,就需要重新修改Prompt,而我們無法知道AI是否将你輸入的Prompt拆解成對應圖片上的修改,也就無法保證此次輸入修改是否有效,因此在Midjourney生成圖片後還是需要經過ps、ai等工具進行二次加工,或許才能得到我們想要最終效果。
AI繪畫并非在近兩年才開始投入研究,也并非一開始就采取文本生成影像的方式,在算力和模型不斷的技術迭代下,促使各個公司及相關人員不斷嘗試構想實現產品落地及商業模式,因此Chat GPT、Midjourney等AI工具的出圈及更新迭代的速度并非一蹴而就:
2012年,吳恩達和Jef Dean使用1.6萬個CPU以及來自YouTube的1000萬個貓臉圖片來訓練當時最大的深度學習網絡,耗時3天,用來指導計算機畫出貓臉,最終得到模型,以及一張非常模糊的貓臉。正式開啓深度學習模型支持AI繪畫這個"全新"的研究方向。
2015年,Google開源項目deep dream,根據AI指令,完成迷幻超現實圖畫。同一年,智能影像識别,通過算法識别并标記影像中的對象,而同時一群研究員開始嘗試思考反向操作用文本生成影像。
2016年,模型Diffusion Models提出使用随機擴散過程生成影像。
2021年1月,OpenAI 公布了DALL-E,底層技術為Diffusion Models,奠定了擴散模型在這一波技術發展中的重要性。
2022年2月,由somnai等開源社區工程師開始訓練自己的AI生成器-Disco D infusion,此後相當多的基于此的產品出現。
2022年3月,由Disco diffusion的核心開發參與建設的AI生成器Midjouney正式發布。
2022年4月,OpenAI旗下人工智能在線繪圖應用DALL·E 2公測。
2022年7月,stability.ai 開源了stable-diffusion,這是目前可用性最高的開源模型,很多商業產品都基于此,如 NovelAI。10月18日,Stability.ai 宣布完成1.01 美金的種子輪融資,估值達10億美金。
我們可以看到市面上有各種各樣的AI繪圖工具,Midjouney、Stable Diffusion、Disco Diffusion等等。相較于其他同類型的AI 繪畫工具,Midjourney通過社群的形式,注冊Discord賬号之後即可進入到Midjourney頻道,加入公測伺服器開始使用了。
使用方式也很簡單,用户只需要輸入命令提示符,1min左右就可以得到對應的高品質圖片。
Midjouney借助Discord社區持續迭代,大量免費試用新用户湧入,有時甚至會導致付費用户的伺服器癱瘓。低用户門檻,簡單上手的使用方式,以及快速得到反饋使得即使Midjourney即使叫停了免費試用,需要用户花費每月30美元的費用,也依舊抵擋不了大量用户對于Midjourney AI繪畫的着迷。
而Midjouney公司也靠着訂閲服務在沒有融資的情況下,實現年營收1億美元。
在Stable Diffusion發布前,AI繪畫最好的開源工具是Disco Diffusion,但Disco Diffusion存在生成速度慢、成本高昂、生成圖片邏輯差導致的畫面結構混亂等等問題,而且無法生成人和物體。Stable Diffusion解決了Disco Diffusion存在的這些問題,另一方面Stable Diffusion作為免費的開源工具,用户可以進行本地配制,能夠保證信息安全,配制出合适的數據庫後,AI定向學習畫畫風格,完成定向風格圖片的批量生產。
雖然Stable Diffusion相對Midjourney都有着高可控性,但要駕馭Stable Diffusion,需要在伺服器或本地端布置一個強大的計算環境供其運行。
也就是説,即使你有強大的想象裏,沒有強大的自然語言學習、處理能力,以及AI算力作為支持,依然無法使用Stable Diffusion。
因此如果是完全新手可以先嘗試Midjourney體驗AI繪圖工具,但如果有很大的工作商業需求,則可以選擇Stable Diffusion部署定制自己的AI繪畫數據庫。
02 關于AI的不同聲音
在AI讨論如火如荼的當下,很多人已經體驗過AI生成文字或AI繪畫,對于AI的使用感受、擔心、發展各個行業開始出現不同的聲音。
1. 學術論文劇本創作
一開始ChatGPT被人們關注到除了ChatGPT無障礙的對話模式外,很多學生開始使用ChatGPT完成論文,甚至得到A+的高分。老師們不得不仔細辨别,學生的作業是否使用ChatGPT完成。
在紐約和西雅圖的公立學校系統,學校的wifi網絡和設備上已經全面禁止ChatGPT。港大也明令禁止使用chatGPT或其他AI工具上課、做作業或考試。
如果必須使用,需事先獲得相關課程導師書面許可,違反上述臨時措施的行為被視為【潛在抄襲】行為;如果教師懷疑學生使用hatGPT,可要求學生讨論相關論文或作品,設額外的補充口試、新增課堂考試等。
學生使用ChatGPT完成作業、論文等,可以輕松的解決一些需要查詢,思考的問題。
但在學校方面則認為這項技術對于沒有使用ChatGPT的同學來説是首先是不公平的,另一方面使用人工智能幫助完成作業及論文這種行為在當時沒有明确的規定是否屬于抄襲行為。
而對于學生來説,過度依賴人工智能完成課程,在整個學習過程中無法發展出自己的邏輯推理、批判性思維和語言技巧,同時也會失去獨立自主的學習過程以及對知識的驗證過程。
而28所英國大學已經明确規定禁止在論文和課程作業中使用Chatgpt,否則将被視為學術不端行為。現在很多學校已經在嘗試加入AI 相關的課程或更換其他考核方式,比如課堂作業、手寫論文、小組作業和口試等。
ChatGPT除了可以用來完成課業論文,也可以用來寫小説、詩歌或進行編劇。
當地時間5月2日,美國編劇協會(WGA)和好萊塢等影視巨頭談判宣告破裂。11500名協會成員舉着統一制作的标語牌,湧上紐約和洛杉矶的街頭,進行罷工遊行。而他們抗議的并不是AI,而是那些幕後使用、訓練AI的電影公司。
由于AI的生成并不是基于自主創作,而是在于喂給機器相關文筆、故事梗概、畫面風格的基礎上進行的【模仿創作】,所有的創作都是建立在現有的數據基礎上,而對于很多創作者來説相當于用自己的作品,斷送了自己的生計。這就牽扯到版權問題,之後會有專門的説明讨論。
2. 自動化編程導致程式員将被取代
CSDN 曾提出自動化編程的 5 個等級:
第一個等級(C1):基于當前行代碼自動補全。
第二個等級(C2):編寫代碼時 AI 可以預測下一行代碼。
第三個等級(C3):基于自然語言生成代碼;基于自然語言完成編程語言翻譯功能。
第四個等級(C4):高度自動編程。可以基于自然語言生成項目及注釋,基于自然語言生成模塊及注釋,基于自然語言生成函數及注釋,函數、模塊、項目粒度自動化測試生成;主流編程語言正确互譯;基于當前行代碼生成下一行代碼;代碼調試 (bug 定位及正确修正建議);基于當前行代碼自動補全;代碼檢查(自然語言提示問題)。
第五個等級(C5):完全自動編程。可以基于自然語言生成系統及注釋;基于自然語言生成項目及注釋;基于自然語言生成模塊及注釋;基于自然語言生成函數及注釋;函數、模塊、項目、系統粒度自動化測試生成;全編程語言最佳互譯;基于當前行代碼生成下一行代碼;代碼調試 (bug 定位以及自動修正);基于當前行代碼自動補全;代碼檢查(自然語言精準提示問題);代碼自動最佳糾錯。
目前對于程式員來説,ChatGPT更像是最強輔助,使用ChatGPT可以在幾秒内解決編碼的代碼補全、編譯錯誤、語法錯誤等問題,并在不同語言和框架下,提供有關如何使用特定語言、API和框架的信息等等(也就是C1-C3的部分工作)。
但ChatGPT只能用于快速、準确地調用事實答案,幫助提升程式員的生產力,沒有辦法适用于需要【邏輯推理】等高精度需求的任務領網域。也就是在最終仍然需要人類确認和測試代碼的正确與否并進行修改。
而初級程式員将被取代的情況早在十幾年前就已經出現了,很多企業很早就已經開始用低代碼開發的方式節省時間,而GPT的出現讓這種趨勢更加明顯,創造性較低的開發活動很容易被取代。但對于沒有系統學習過編程的小白用户來説,編程的門檻也相對容易了很多。
其他類似金融、律師、教育等職業也是類似情況,AI降低了我們與某些專業性職業的門檻距離,他可以準确、快速的找到專業性信息,将信息數據結構化,替代基礎的信息收集及普及工作,但還是需要更高專業的相關人員進行信息補充與校正,以提供真實的、不同場景下的解決方案。
3. 設計行業
由于Midjourney、Stable Diffusion等AI 繪畫工具的爆火,使得設計、原畫、插畫等設計師感到岌岌可危,在AI 繪畫工具的加持下,仿佛人人都可以進行高質量的創作。
一部分畫手對于AI繪畫采取抵制、排斥的态度,而有些則開始嘗試将AI繪畫作為生產力,試圖從另一個方向突破。
各大公司則态度明顯很多,都在再嘗試使用Midjourney、Stable Diffusion等AI 繪畫工具實現降本增效,降低低端重復工作内容的投入比例。
但在實際的執行過程中還是會有各種各樣的問題,由于AI無法理解畫面元素與元素之間的關系,畫面的視覺統一性無法保證、生成的内容不可控、無法進行特定部分的修改等等,比如衣服上的褶皺、logo、特定花紋、紋路等等,需要有專門的人進行修改,使得AI 繪畫好像并不像傳説中的那麼容易應用于商業領網域。
這是由于AI 繪畫的底層邏輯其實是自然語言模型,AI對于語義的理解和人類本身不可避免的會出現偏差。
技術的進步,伴随了舊工作形式的消失,同時也伴随了工作内容的出現,上面我們大概了解到部分AI對部分職業的影響。而AI和人類也對現在的工作進行了評估,并引用"暴露值"(Exposure)這一新的标準來來評估哪些工作形式将被AI将取代。
接下來我們來聊一聊,AI 影響下對已有職業的影響及新職業的產生。
03 AI帶新的工作方向
蒸汽機剛誕生時,部分紡織工人對機器給人類帶來人類失業的災難感到憤怒,并砸毀了機器。
在一開始人們确實會因為新技術的誕生導致大量傳統工作消失,但新的進步終究會創造出更好的工作崗位,實現新的經濟增長和創造力。
當時的工業革命創造了大量的高度自動化的機器,替代體力勞動,使得人類開始從事大量腦力勞動工作,而AI的出現也導致很多工作職業受到影響。
1. AIOE暴露值評估工作是否會被AI工具影響
3月20日,在人類評估和GPT-4共同調研評估的結果中顯示,口譯員和筆譯員、調查研究人員、數學家、新聞分析師、記者和新聞工作者等職業受GPT技術影響最大,其次是作家、税務人員、書信員、區塊鏈工程師、法律秘書和行政助理等行業。
調研過程中使用AIOE(AI Occupational Exposure),引入了"暴露值"(Exposure)這一新的标準來衡量确定工作和行業對AI進步的"暴露",其定義為使用GPT模型及其相關技術是否會将人類執行特定任務所需的時間減少50%。
E0:沒有暴露。
E1:直接暴露,僅使用大型語音模型(比如GPT-4 聊天界面),可以将時間至少減少50%。
E2:間接暴露,單獨使用大型語音模型無法達到效果,但在它的基礎上開發額外軟體(比如圖形生成),可以将時間減少50%。
E0等級,主要包括體力勞動,比如:
最終,人類評估員将15種職業的"暴露值"标記為100%,即使用GPT技術将使人類執行該職業中特定任務所需的時間減少50%,包括作家、數學加、保税員、金融量化分析師、網頁與數字界面設計師等。
GPT-4則将86種職業的"暴露值"标記為100%,包括數學家、會計與審計、新聞從業者、臨床數據助理、法律秘書和行政助理、氣候變化政策分析師等,是人類評估結果的近6倍。
總體來説,如果工作對科學方法和判斷性思維依賴性較強,那麼就不會過多接觸GPT技術,而如果涉及編程和寫作技能,就會更容易接觸GPT技術或受影響。
而從行業層面來看,受GPT技術影響最大的五大行業依次為證券商品合同和其他金融投資行業、保險行業、數據處理托管行業、信息服務行業、出版業。
而受影響最小的五大行業則是以體力勞動著稱的行業,比如農業和林業、木制品制造業、伐木業、食品制造業、采礦業(不包括石油和天然氣)。也就是説收入越高的"白領"越可能收到影響,原因在于,這部分人群更可能接觸和需要使用ChatGPT和相關工具。
2. AI帶來的新機會
之前人們的猜想是,随着科技的進步大量體力勞動工作将被取代,之後是認知勞動,而随着AI的到來促使我們提前進入了新的時代,而最不受影響反而是體力勞動。
另一方面,AI也催生了新的職業,由于AI的缺點,比如編造事實、無法進行邏輯推理等等,在真實的工作場景中,AI只有有可能出錯,就無法放任其獨立完成工作。
因此AI 的火爆同樣也帶來了新的熱門高薪職業,如提示詞工程師、AI訓練師等職位,也成為了近段時間招聘的熱門:
提示工程師——負責開發和優化人工智能提示算法的工程師,訓練大模型。需要具備對人工智能、自然語言處理、機器學習等技術的深刻理解,以及對人類語言表達的熟練掌握。日常工作為各種應用和平台設計,優化提示詞,以提高用户的使用體驗和效率。
人工智能訓練師——為機器學習模型設計和實施訓練計劃,即讓機器人懂用户在説什麼。使用一系列的方法來改善機器學習模型的性能,包括數據清洗、超參數調優、正規化等。還會負責從可用數據中提取,篩選和編寫有意義的結構,以便訓練機器學習模型,并解決訓練中出現的問題。另一方面需要收集有關機器學習技術的最新進展,不斷改進訓練方法,以提高模型的準确性和可靠性。
AI代碼整理員——将AI生成的代碼進行整理、糾錯,最終獲得一個完整、邏輯上能跑通的代碼文檔。(大學生兼職)
AI作圖家——通過AI作圖工具"midjourney",根據需求提煉關鍵詞,通過提示詞或關鍵詞,讓工具生成一副畫。拆分關鍵詞是這個工作的核心,關鍵詞越精細,做出的畫越符合想要的。同時需要對生成的圖片進行細節修改。
AI叙事員——利用基于ChatGPT的AI工具去寫網文、故事。需要先想象一個故事背景,然後将這個故事進行細枝末節的拆分,必須要拆分的足夠詳細,這樣可以讓AI反饋出的文字更加詳盡和真實。
随着AI的爆火,作為一個全新的工具,AI的影響已經自然而然的開始蔓延到各個階層和角落,而另一方面我們也需要看到AI的風險與局限。
04 AI的局限與潛在風險
1. AI的局限
無論是文生文還是文生圖,AI 以自然語言模型以及大量數據算力為基礎,本身還是在理解、信息數據方面存在問題。ChatGPT可以快速、準确、持續的進行信息的收集、整理、反饋,但同時也會犯些明顯的錯誤,包括編造信息,因此在真實工作環境中必須要有相關人員監督其工作,無法獨立完成工作。
而在AI繪畫方面,生成圖片的随機性、無法進行細節調整、對輸入Prompt及輸入信息用户的認知依賴、指向性差(無法生成數字或精确到像素)等,都需要在生成的圖片上進行二次加工或作為創意概念靈感使用,無法直接作為商用結果進行上線使用。
2. AI的潛在風險
在3月底,包括2018年圖靈獎得主 Yoshua Bengio、馬斯克、史蒂夫·沃茲尼亞克、Skype 聯合創始人、Pinterest 聯合創始人、Stability AI CEO等多位知名人士籤名支持,呼籲所有AI實驗室立即暫停至少6個月的時間,不要訓練比GPT-4更強大的AI系統。
而在這個暫停期間需要AI 實驗室和獨立專家共同制定和實施一套共享的先進AI設計和開發安全協定,這些協定應該由獨立的外部專家嚴格審核和監督。
在AI 進步如此神速的當下,相關的監督、審計手段卻依然遲遲沒有跟上,也就是説沒人能保證AI工具及使用AI工具的過程中的安全性。呼籲信中提出疑問:
我們應該讓機器充斥我們的信息渠道,傳播宣傳和謊言嗎?
我們應該将所有工作都自動化,包括那些令人滿足的工作嗎?
我們應該發展可能最終超過、取代我們的非人類思維嗎?
我們應該冒失控文明的風險嗎?
需要注意的是這封倡導信并不是説暫停AI的發展,而是希望将研究開發重點放在提高現有強大、先進系統的準确性、安全性、可解釋性、透明度、穩定、一致、可信度和忠誠度。并在信中提出需要AI開發人員與政府合作,至少需要:
專門負責AI有能力的新機構;
監督和跟蹤高性能人工智能系統和大型計算能力池;
用來幫助區分真實與合成的出處及水印系統,并跟蹤模型泄漏;
強大的審計和認證生态系統;
人工智能造成的傷害責任;
為技術人工智能安全研究提供強大的公共資金;
資源充足的機構來應對人工智能将造成的巨大經濟和政治破壞(尤其是對民主的破壞)。
附上原信件鏈接,希望了解更多的同學可以自己查看,《Pause Giant AI Experiments: An Open Letter》。
而另一方面AIGC模型的完成和完善依賴于大量的數據訓練,而用于訓練的數據中往往包含受版權保護的内容(比如圖片版權商圖庫裏的圖片、知名藝術家的作品等等),另一方面藝術家是否有被AI模仿的意願。
因此對AI生成物用于商用的版權問題一直存在諸多争議。而通過AI生產的圖片版權到底是歸用户、平台或是需要版權注冊後才擁有或者以CC0(知識共享許可協定)協定發布,不同的平台或用户都有自己的一套想法。
直到2023年3月16日,美國版權局(USCO)發布的美國法規第202部分,才有説明AI自動生成的作品,不受版權法保護。
USCO表示,作者通過Photoshop進行的創作圖片作品是受保護的,從最初的構思到完成創作,在整個過程中有人工參與進行創作。而AI工具自動生成的作品,整個過程由機器人自動完成,并且訓練的數據需要基于人類創作的作品,因此不受版權法保護。
而國内目前還沒有明确的法律關于AI生成物的版權問題。
也就是説無論是通過何種AI工具生成的劇本、小説、畫作、音樂等等創作,任何人都無法擁有版權,任何人都可以進行使用。
05 尾聲
還沒有試過任何AI工具,可以先接觸下ChatGPT、Midjourney或其他AI工具,但目前ChatGPT需要進入OpenAI官網,根據提示進入ChatGPT頁面。
目前暫不支持國内手機号,需要第三方平台輔助接碼,如果想快速體驗可以嘗試Notion或Writesonic等門檻低的其他平台。Midjourney同樣的情況目前有大量的教程怎樣注冊使用及關鍵詞講解,這裏也不做過多説明。
歷史上的數輪創新浪潮從來沒有淘汰人類,也并未導致大規模失業,反而使勞動需求空前增加。
比如,機器雖然部分替代了人工耕種,卻也圍繞農業機械催生并聯通了制作、維修等上下遊行業,每個行業都包含大量的工作崗位。電腦普及後,數字經濟、平台經濟在今天依然在擴展着我們的生活和工作的邊界。
對于AI的探索從來不是突然的爆發,技術跟新帶來更多的可能,或許更多時候我們需要保持對技術的樂觀及敏感,在不斷的局勢變化中找到自己的方向。
資源來源:
《penAI CEO最新訪談,3萬字全文詳述技術、競争、恐懼和人類與AI的未來》
《LLMs 大語言模型是對實體世界的抽象》
《什麼是LLM大語言模型?Large Language Model,從量變到質變》
《transformer通俗理解》
《什麼是GAN(生成對抗網絡)?》
《别讓 GPT-4 再進化!馬斯克帶頭籤署千人聯名信,緊急呼籲 AI 實驗室立即暫停研究 》
《當 AI 衝擊自動化編程,誰将成為受益者?》
《"你的AI侵犯了我的版權":淺談AIGC背後的版權保護問題》
作者:查無此人;公眾号:9号自習室;知乎專欄:9号自習室。
本文由 @9号自習室 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協定