今天小編分享的科學經驗:Science:ChatGPT縮小了打工人的差距,歡迎閲讀。
Science 正刊發表對 ChatGPT 的調查報告,《生成式人工智能對生產力影響的實驗證據》
對于一些文書任務,ChatGPT 不僅能在節省 40% 時間的同時提高 18% 的績效,還降低了不同人之間的績效差異。
MIT 官方也對這一研究成果進行了報道。
對照組也會偷用
這場實驗一共邀請了 453 名受試者,分為實驗組和對照組。
這些受試者是來自不同領網域、受過高等教育的專業人士。
兩個組中人員的薪資水平、職業等信息如下表所示:
在為期一個月的實驗中,他們被要求完成與職業相關的寫作任務。
這些任務包括撰寫新聞稿、簡短報告、分析計劃和電子郵件,時長約為 20 到 30 分鍾。
評估的指标包括效率和質量兩部分,每份成果分别交由三名相關領網域的專業人士進行盲評(1-7 分)。
結果顯示,實驗組所用時間減少了 0.75 個标準差(約 11 分鍾),評分則提高了 0.41 個标準差。
如果換算成百分數,時間縮短和質量提高的比例分别是 40% 和 18%。
具體而言,實驗組首先被安排完成一項任務,之後注冊 ChatGPT(3.5 版本)。
他們被告知,如果覺得 ChatGPT 好用,那麼就要在第二個任務中使用。
而對照組則被要求注冊一款 LaTex 編輯器(注冊復雜度與 ChatGPT 相當),但沒有類似的告知。
結果,有 80% 的實驗組人員在第二個任務中使用了 ChatGPT,而對照組中只有不到 5% 使用了 LaTex 工具。
對于第二個任務,實驗組平均耗時為 17 分鍾,比對照組少了 10 分鍾。
質量方面,實驗組的平均成績為 4.53,對照組的平均成績則為 3.802。
除了提質增效,ChatGPT 還降低了不同人之間工作質量的差異。
根據第一個任務完成情況的不同,研究人員将這些人第二次任務的評分進行了線性拟合。
結果顯示,實驗組評分的拟合斜率為 0.414,比對照組低了 0.272。
那麼這些人又是如何使用 ChatGPT 的呢?是直接使用輸出結果或僅做微調,還是只用來打草稿?
跟蹤結果顯示,有 33% 的受試者提交的是原汁原味的 ChatGPT 結果,而 53% 進行了修改。
但這些修改可能十分微小,比如只是調整一下格式等等。
得出這一結論的理由是,他們在 ChatGPT 生成回復後的平均活動之間只有 3.3 分鍾,且大部分位于 0-2 分鍾之間。
需要説明的是,在實驗開始之前,70% 的受試人員已經聽説過 ChatGPT,32% 曾經使用過。
所以,在實驗過程中,研究人員發現,對照組中也有 10~20% 的人使用了 ChatGPT。
這一現象對實驗結果存在一定影響,研究人員利用了統計學方法進行修正。
實驗結束後,研究人員還對這些受試者進行了兩次回訪,分别有 92% 和 83% 的人給出了回復。
第一次回訪是在實驗結束後兩周,實驗組和對照組分别有 34% 和 18% 的人仍在使用 ChatGPT。
六周之後,也就是實驗結束後兩個月,這組數字分别提升到了 42% 和 27%。
綜上所述,研究人員認為,ChatGPT 在提升工作質效方面确實有顯著作用,但其能否取代人類仍不明确。
作者簡介
該研究由 MIT 華裔經濟學博士生 Whitney Zhang 和同學 Shakked Noy 共同完成。
Zhang 從 2017 年開始一直在 MIT 就讀,目前的研究領網域包括行為經濟學等經濟學分支領網域。
Zhang 還是波士頓華人社區大學初入者幫扶項目導師。
Noy 則來自新西蘭,2022 年進入 MIT 攻讀經濟學博士。
論文地址:
https://www.science.org/doi/10.1126/science.adh2586
參考鏈接:
[ 1 ] https://news.mit.edu/2023/study-finds-chatgpt-boosts-worker-productivity-writing-0714
[ 2 ] https://economics.mit.edu/people/phd-students/whitney-zhang
[ 3 ] https://economics.mit.edu/people/phd-students/shakked-noy