大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

多個中國團隊斬獲EMNLP‘24最佳論文!UCLA華人學者中三篇傑出論文,明年頂會落户蘇州

2024-11-16 简体 HK SG TW

今天小編分享的科學經驗:多個中國團隊斬獲EMNLP‘24最佳論文!UCLA華人學者中三篇傑出論文,明年頂會落户蘇州,歡迎閲讀。

剛剛,EMNLP 2024最佳論文獎新鮮出爐!

5 篇中榜論文中,華人學者參與三篇,分别來自 CMU、上海交通大學、中國科學院大學等機構。

其中,Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院網絡數據科學與技術重點實驗、中國科學院大學的學者完成。

論文一作 Weichao Zhang;通訊作者郭嘉豐,現任中科院網絡數據科學與技術重點實驗室常務副主任。

這項研究提出了一個新的數據集和方法,用于檢測給定文本是否為 LLM 預訓練數據的一部分,有助于提高 LLM 訓練數據透明度。

EMNLP ’ 24 今年收錄論文總共2978 篇,比去年增長 5%,其中 2455 篇主會議論文,523 篇 workshop 論文。

除最佳論文外,傑出論文也揭曉了,超半數華人學者參與。

順便提一嘴,EMNLP 2025 将于明年 11 月 5-9 日,在中國蘇州舉辦!

國内學者們可以搓搓手準備起來了 ~

接下來,具體康康獲獎論文有哪些~

上交大 CMU 等團隊獲最佳論文

此次共有 5 項研究成果獲得 EMNLP ’ 24 最佳論文獎。

1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance

(影像能表達千言萬語,但每個人都能傾聽嗎?關于影像再創造的文化相關性)

這篇來自 CMU 的論文研究了影像跨文化再創作任務。鑑于多媒體内容興起,翻譯需涵蓋影像等模态,傳統翻譯局限于處理語音和文本中的語言,跨文化再創作應運而生。

作者構建了三個包含 SOTA 生成模型的管道:e2e-instruct 直接編輯影像,cap-edit 通過字幕和 LLM 編輯後處理影像,cap-retrieve 利用編輯後的字幕檢索影像,還創建了概念和應用兩部分評估數據集。

結果發現,當前影像編輯模型均未能完成這項任務,但可以通過在循環中利用 LLM 和檢索器來改進。

2、Towards Robust Speech Representation Learning for Thousands of Languages

(為數千種語言實現穩健的語音表征學習)

這篇來自CMU、上海交大、豐田工業大學芝加哥分校的論文,介紹了一種名為 XEUS 的跨語言通用語音編碼器,旨在處理多種語言和聲學環境下的語音。

研究通過整合現有數據集和新收集的數據,構建了包含 4057 種語言、超 100 萬小時數據的預訓練語料庫,并提出新的自監督任務(聲學去混響)增強模型魯棒性。研究結果顯示,XEUS 在多個下遊任務中表現優異,在 ML-SUPERB 基準測試中超越了其他模型,如在多語言自動語音識别任務中實現 SOTA,且在語音翻譯、語音合成等任務中也表現出色。

該團隊超半數都是華人,其中一作William Chen目前是 CMU 語言技術研究所的碩士生,此前獲得佛羅裏達大學計算機科學和歷史學學士學位。

3、Backward Lens: Projecting Language Model Gradients into the Vocabulary Space

(逆向透鏡:将語言模型梯度投射到詞匯空間)

了解基于 Transformer 的語言模型如何學習和調用信息成為行業一個關鍵目标。最近的可解釋性方法将前向傳遞獲得的權重和隐藏狀态投射到模型的詞匯表中,有助于揭示信息如何在語言模型中流動。

來自以色列理工學院、特拉維夫大學的研究人員将這一方法擴展到語言模型的後向傳遞和梯度。

首先證明,梯度矩陣可以被視為前向傳遞和後向傳遞輸入的低秩線性組合。然後,開發了将這些梯度投射到詞匯項目中的方法,并探索了新信息如何存儲在語言模型神經元中的機制。

4、Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

(大語言模型的預訓練數據檢測:基于散度的校準方法)

這篇論文作者來自中科院網絡數據科學與技術重點實驗、中國科學院大學、中關村實驗室、阿姆斯特丹大學。

通訊作者郭嘉豐,現為中國科學院計算技術研究所研究員、中國科學院大學教授、北京人工智能研究院研究員,中科院網絡數據科學與技術重點實驗室主任。目前研究方向是信息檢索 ( Neural IR ) 和自然語言理解的神經模型。

他們的研究旨在解決大語言模型預訓練數據檢測問題,因模型開發者不願透露訓練數據細節,現有方法在判斷文本是否為訓練數據時存在局限。

基于這樣的原因,他們提出 DC-PDD 方法,通過計算文本的詞元概率分布與詞元頻率分布的交叉熵(即散度)來校準詞元概率,從而判斷文本是否在模型預訓練數據中。實驗在 WikiMIA、BookMIA 和新構建的中文基準 PatentMIA 上進行,結果顯示 DC-PDD 在多數情況下優于基線方法,在不同模型和數據上表現更穩定。

5、CoGen: Learning from Feedback with Coupled Comprehension and Generation

(CoGen,結合理解和生成,從反饋中學習)

來自康奈爾大學的研究團隊研究了語言理解和生成能力的耦合,提出在與用户互動中結合兩者以提升性能的方法。

具體通過參考遊戲場景,部署模型與人類互動,收集反饋信号用于訓練。采用聯合推理和數據共享策略,如将理解數據點轉換為生成數據點。

實驗結果顯示,耦合方法使模型性能大幅提升,理解準确率提高 19.48%,生成準确率提高 26.07%,且數據效率更高。在語言方面,耦合系統的有效詞匯增加,與人類語言更相似,詞匯漂移減少。

傑出論文

再來看看傑出論文的獲獎情況,此次共有 20 篇論文上榜。

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory,香港科技大學研究團隊完成,論文共同一作 Wei Fan、Haoran Li。

團隊提出了一個新框架,基于情境完整性理論來調整大語言模型使其符合隐私法律,提高其在不同情境下檢測隐私風險的能力。

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge,南京大學團隊完成,論文共同一作 Jiahuan Li、Yiqing Cao。

論文研究了大語言模型在訓練數據中存在衝突信息時的學習傾向。

科技巨頭獲獎團隊有微軟,Learning to Retrieve Iteratively for In-Context Learning提出了一種創造性的方法,模拟上下文學習示例的選擇作為馬爾可夫決策過程。

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs,由 Adobe、蘋果與羅馬大學研究人員聯合完成。

論文探讨并挑戰了在跨文化機器翻譯中翻譯文化相關命名實體的傳統方法。

此外值得一提的是,華人學者、加州大學洛杉矶分校計算機科學系副教授Nanyun Peng團隊這次赢麻了,她參與 / 指導的三篇論文都獲獎了。

三項工作都是關于評估 LLM 在創意叙事生成方面的能力,分别為:

Measuring Psychological Depth in Language Models(測量語言模型中的心理深度)

Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs(大語言模型能像人類作家一樣規劃嗎?通過與記者對新聞稿的報道比較來評估)

Are Large Language Models Capable of Generating Human-Level Narratives?(大語言模型能生成人類水平的叙述嗎?)

以下是完整獲獎名單:

最佳論文鏈接:

[ 1 ] https://arxiv.org/abs/2404.01247

[ 2 ] https://arxiv.org/abs/2407.00837

[ 3 ] https://arxiv.org/abs/2402.12865

[ 4 ] https://arxiv.org/abs/2409.14781

[ 5 ] https://www.arxiv.org/abs/2408.15992

參考鏈接:

[ 1 ] https://x.com/emnlpmeeting/status/1857176170074460260?s=46

[ 2 ] https://x.com/emnlpmeeting/status/1857173122598010918

[ 3 ] https://aclanthology.org/events/emnlp-2024/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們