今天小編分享的科學經驗:MSRA首席研究員劉炜清:為每位研究員提供AI科研助理,自動化高門檻、重復性工作,歡迎閲讀。
2025,随着大語言模型技術的迅猛發展,數據科學領網域正經歷一場靜默的革命。傳統的特征工程、模型訓練與迭代優化流程,正被智能化的研發助手所改變。
在第三屆 AIGC 產業峰會上,微軟亞洲研究院(MSRA)首席研究員劉炜清帶來了一項引人矚目的研究成果—— RD-Agent,一個旨在 " 自動化、增強到重塑 " 數據科學研發流程的智能系統。
這項研究源于一個現實問題:當大模型浪潮席卷各行各業時,數據科學家們面臨着被颠覆還是被賦能的選擇題。與其坐等被颠覆,MSRA 團隊選擇主動探索,将 Agent 技術轉化為科研助理,為每位研究員提供一個 " 虛拟助理 ",承擔那些高門檻但又重復性強的研發工作。
從最初幫助研究員實現想法的開發助手,到能夠自主提出研究方向的研究夥伴,RD-Agent 正在以 "AI 驅動數據驅動 AI" 的方式,重新定義數據科學的工作流程。這不僅是一項技術創新,更是對未來科研方式的一次大膽探索。
為了完整體現劉炜清的思考,在不改變原意的基礎上,量子位對演講内容進行了編輯整理,希望能給你帶來更多啓發。
中國 AIGC 產業峰會是由量子位主辦的 AI 領網域前沿峰會,20 餘位產業代表與會讨論。線下參會觀眾超千人,線上直播觀眾 320 萬 +,累計曝光 2000 萬 +。
話題要點
RD-Agent 的三階段演進路線:從初始的研發自動化,到現階段的研發增強,再到未來的領網域重塑
雙 Agent 協作框架:Research Agent 負責產生研究想法,Development Agent 負責實現和驗證,形成了閉環迭代系統,大幅提升數據科學研究效率
數據驅動的能力增強:通過記錄和分析各種 idea 嘗試的結果數據,使系統能夠超越 " 模仿專家 " 的瓶頸,實現真正的創新性突破
實際應用場景價值:從團隊自身研究效率提升到幫助金融合作夥伴實現論文自動復現驗證,特别是在 Feature Generation 等關鍵任務上達到 80-90% 的可用效果,展示了系統的實用價值
以下為劉炜清演講全文:
起源:以自動化為目标
大家早上好,我是來自微軟亞洲研究院(MSRA)的劉炜清。今天我給大家帶來的研究題目是大語言模型時代下的數據科學新引擎 RD-Agent,從自動化、增強到重塑。這三個關鍵詞恰好也是描述了我們 RD-Agent 的起源、現狀和未來。
我們首先從 RD-Agent 以自動化為目标的起源開始介紹起。首先介紹一下我們 RD-Agent 背後的團隊,我們團隊從 2017 年初開始與金融行業的各個領網域不同方向的公司進行深度的產業的科研的一些合作,大家對 2017 年這個時間有一些感覺的話,這恰好是 AlphaGo 當年橫空出世打敗世界冠軍,使各行各業有一個擔憂,自己的行業會不會被 AI 所颠覆,同時也會有一些小的期待——會不會自己做的業務有機會能夠被 AI 所賦能的奇妙的一段時間。
我們團隊代表 MSRA 跟金融行業的合作夥伴們一起探讨當時最先進的 AI 技術,當時是 Deep Learning 深度學習的技術,看看能不能對金融行業核心的場景業務和問題進行一個智能化的更新。比較幸運的是,我們在多年的努力下面還是有不少研究成果成功的落地,并且在合作夥伴實際產品和業務中間獲得不錯的效果。
我們做這些合作的過程中間會發現,實際場景產業落地中間遇到的挑戰和困難,并沒有很好地被學術界所廣泛關注到和很好地解決,我們就會把這樣的一類挑戰進行抽象,并且嘗試對他進行解決,最後以學術論文的方式分享給業界以及學術界,幫助大家更多地關注這些核心的挑戰,以及幫助方向持續的演進,做出我們自己的貢獻。
做產業落地研究的時候,我們發現這一類的研究直接去做,可能跟真實場景會有很大的 GAP。我們需要更好的基礎設施、研究框架才能幫助我們做有真實價值的研究,我們以量化研究為例子,當時發現公開可獲得的基礎設施研究框架都不太能滿足需求後,我們自己内部開發了這樣的一個研究框架 Qlib,并且将它進行開源。比較幸運的是獲得社區裏比較多的關注和認可,給了我們很大的動力來持續研究和改進它。
回望過去将近十年產業相關的應用和落地的工作,我們主要的工作都是在數據科學和機器學習的範疇。左邊的圖中所示,我們常用範式就是在業務海量數據中間找出來有價值的特征,利用這些特征我們訓練模型對其中的規律進行建模,從而得到智能化的解決方案服務于各種各樣業務場景的需求。智能化解決方案的整個開發過程則是以迭代漸進的方式進行的,第一版看看效果怎麼樣,根據反饋再改進下一版,迭代地得到最終的智能化解決方案。
現在我們到了大模型的時代,這一波技術的浪潮與之前 AlphaGo 帶來的那一波狂熱相比,也帶來了各行各業的新一輪的思考,有沒有可能這個行業會被颠覆,或者自己的業務有沒有可能被賦能。這一波技術潮流從我們自己的體感來看,會感覺我們自己本領網域的研究人員第一波受到的衝擊其實很大的。大語言模型出來以後,很多持續穩步發展多年的研究領網域,已觀察到慢慢有些式微,面臨很多挑戰。這時候我們自己也要考慮,我們自己的研究領網域和方向這些東西是被颠覆還是賦能?與其等着被颠覆,我們嘗試能不能用大語言模型對我們自己的研究進行賦能,就好像我們之前研發的 Qlib 基礎設施框架幫助我們更好地做相關研究一樣,這就是我們 RD-Agent 最初以研發自動化為目标的設計初衷。
在這樣的初衷下面,理想情況下有了大語言模型,有了 Agent,是不是能夠讓每一個研究員、每一個數據科學家都能有一個 Agent 為代表的科研助理或者研究實習生,它來承擔我們日常工作中間需要做非常多的重復、但是又有高門檻的工作。
具體來説,人人都有科研助理意味着人人都是老板,老板怎麼來做這樣的一件事情呢?我有大概的想法,同時我手頭上有一堆數據,我交給科研助理 Agent,幫我實現一下看看想法怎麼樣。
當我們有了正确代碼的實現,訓練好了一個模型,同時對它進行正确的全面的評測以後,如果第一版效果還不錯,老板英明!第一版效果太好也會想想是不是我有一些 Test Data 甚至 Label 都 Leak 了,我們得 check 一下有沒有 bug;效果太差的話,當然得看一看是什麼原因,是不是訓練的時候 loss 都飛掉了。往往這些檢查驗證實現的過程是需要多輪迭代才能得到最終的可信結果的,這個過程需要比較高的門檻,同時也需要非常繁重又相對重復的勞動。
經過幾個月的努力我們構建了 Agent 工具,幫助我們自己在日常研究工作中間很大的效率的提升,減輕了很多細節實現的負擔。當我們已經驗證了能夠賦能我們自己研究的時候,我們就在想這個 Agent 有沒有可能真正賦能產業,賦能實際問題,我們找到我們合作夥伴看他們場景中間有沒有類似的問題,我們最終找到了論文或者研究報告的自動實現或者驗證的問題,這個問題在與合作夥伴的溝通中間發現,在他們日常的研發工作中間每天都在發生的,比如説看到一個公開或者半公開的研究報告或者論文,大概描述了一個新穎的方法。同時在他們論文所在的那個數據集,假設叫數據集 A 上效果非常好,但是在他們自己自有的數據跟論文中所使用的數據不同,場景也有稍微的區别,那它效果怎麼樣?這就需要重新實現這個方法看看在我自己這邊好不好使,往往這樣的工作并不是所有都能找到開源的代碼,這時候需要自己來復現重新驗證。這類的工作其實占用了他們研發過程中間非常多的精力和時間。經過一段時間的努力我們會發現 RD-Agent 确實能夠很大地幫助到他們真實的日常工作,讓這個事情能夠自動化提升研發效率。
現狀:為研究員提供 AI 科研助理 / 為各行業提供 AI 自動研發團隊
具體來看,我們選擇的是一類屬于 Feature Generation 的具體問題,這是我們統計分析出來實現每一個 idea 所需要寫的核心代碼,其實也就是幾十行的體量,我們發現如果使用原生大模型做這件事情幾乎不可能在直出的實踐中做對,經過很多改進和嘗試,RD-Agent 系統能達到 80、90% 可用的效果。當然我們也觀察到了帶 reasoning 能力的大模型出來以後,模型的代碼實現能力得到很大的提升,但是依然很難做到一次就對,依然需要采用我們這種多次迭代漸進的方式才能做對。
有了第一階段對自己的研究過程進行賦能,以及對實際產業界的任務進行了賦能以外,我們不太擔心會被颠覆了,我們心思開始活絡了,能不能做更有價值的一件事情呢?現階段我們目标構建一個通用的數據科學或者機器學習的 Agent,目的為了增強人類專家的能力和產出。怎麼做呢?在這一階段我們的目标是自動地做新場景和新問題,并且持續的改進當下的解決方案,而不僅僅是當科研助理,僅僅是實現人類專家給出來的 idea。
藍色部分可以看到,剛剛我們作為科研助理 Agent 的部分,我們叫做 Development Agent,它是需要大概的 idea 的描述,之前是依賴人類專家給這樣的描述,我是不是也能依賴 Agent 給出研發的 idea 呢?橙色部分是我們新加入的 Research Agent,它直接以當前我們的任務和場景的描述作為輸入,來迭代產生 idea,并且根據 Development Agent 來產生的當前 idea 下最終模型的真實效果來進行下一輪 idea 迭代的依據,這就是我們整體的設計。希望在很少的專家介入或者沒有領網域專家介入的情況下也能自動給出智能化的解決方案,這時候我們就有了 RD-Agent 當前的整個框架。
這個框架我們在去年底進行了開源,比較短的時間内獲得比較好的關注,我們取了一個 slogan,AI Drives Data-Driven AI。
在這樣的問題下面,我們先做了一個簡短的視頻介紹我們 RD-Agent。
未來:重塑數據科學
看了錄屏以後相信大家對 RD-Agent 有了更直觀的感覺, 剛剛説到現階段的目标是研發增強,怎麼增強人類專家呢,光靠原生大語言模型做不到,那麼大語言模型做不到什麼我們就補什麼,比如我們組裏有 Kaggle Grand Master,我們來看看語言模型做不到,但是他能做到的,我們通過引入領網域知識和經驗并且優化我們算法使我們的 Agent 更像人類專家而不僅僅是直接原生大語言模型的能力,這個技術路線很有效但是也有瓶頸,因為人類專家做這一類問題的時候也是有瓶頸的,光靠模仿是很難超越的。
比如我們現在就發現,當迭代到某一輪數,解決方案還不錯的時候,Agent 給出 5 個改進路線,人類專家看的時候覺得每個路線都很有道理,我們只有試一試才知道最終的結果,試完之後發現有些性能有增強,有些對性能反而有很大的損害。我們有沒有可能通過數據驅動的方式把所有探索的過程記錄下來,比如在什麼情況下嘗試了什麼 idea,這樣的 idea 最終對性能的提升有沒有幫助,并且基于這些數據來增強我們大模型或者 Agent 相關的能力,做到比人類專家對于什麼樣的 idea 效果更好,有更直觀更準的判斷。這樣的話避免我們只是模仿專家但是很難超過專家的瓶頸,從而讓我們有機會超過專家達到更好的效果。
當下我們正在快速迭代快速演進我們的相關設計,同時我們也在同步驗證當前 RD-Agent 的能力,由于時間問題我沒有辦法把細節進行展開,我們在一些 Kaggle 比賽中間進行驗證,我們直觀感受是這個 RD-Agent 已經能夠達到初階從業者水平,比我們接觸到很多在校學生們能力顯得更強一些。
未來我們希望我們 RD-Agent 方向是什麼?我們奔着自主發現新方法的方向進行努力,如果我們能做到這個方向就是能夠重塑 Date Science 或者是 Machine Learning 領網域。聽説圍棋的棋手們現在也都跟着 AI 學習怎麼更好地下棋,就是重塑這個領網域。
怎麼做到這件事情?我們嘗試設計三階段循序漸進的方式,從最開始自動化為初衷,我們為專家減少髒活累活,從而得到更高效的專注于創新。當下我們做增強的事情,我們其實是嘗試比專家能夠更快地找到我們的方法和場景和數據更好地匹配,更快地找到更優的方法。未來我們期望通過不同的方法在各個場景、數據上表現的觀察、分析和理解改進現有的方法或者發明新的方法。真的到了這一步的時候我們自己的領網域肯定是被颠覆了,但由于我們能夠有能力發明更好的方法,相信這也能夠扎扎實實地賦能到各行各業,看上去是挺美好的一個未來。以上就是我關于 RD-Agent 工作的介紹,由于時間問題很難把很多細節進行展開,也很難介紹未來的計劃,如果大家對我們工作感興趣或者對我們未來的發展想有一個關注的話,歡迎大家關注我們開源項目 RD-Agent。
今天我的演講就是這些,謝謝大家。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見