今天小編分享的科技經驗:刷新世界紀錄!中國AI企業提出新多模态謠言監測模型BAET,歡迎閲讀。
近日,中國人工智能獨角獸企業深蘭科技旗下深蘭科學院投稿的《基于二部特定事件樹的分層表示的謠言檢測》(Rumor Detection With Hierarchical Representation on Bipartite Ad Hoc Event Trees)研究論文被全球人工智能領網域頂級期刊《IEEE Transactions on Neural Networks and Learning Systems》(IEEE TNNLS)收錄并發表。BAET 多模态謠言檢測模型在 PHEME1 和 RumorEval2 兩個數據集的有效性應用測評上,性能領先于 SOTA 方法。
論文首次提出的謠言檢測模型 BAET,是通過提取事件元素,将由流通中的根帖子組織轉換為帖子和作者的二分特定事件樹,基于詞嵌入編碼器,構建多層次 RNN 模型,以此對事件樹的結構進行表征,并提出一個樹感知注意模塊來分别學習作者樹和帖子樹的樹表示。
圖 1:BAET 的總體架構
本篇論文采用從社交平台 Twitter 上可收集到的 PHEME1 和 RumorEval2 兩個公開可用的數據集進行評估,其中,PHEME 數據集包含五個突發新聞事件,RumorEval 涉及八個突發新聞,兩個數據集都包含帖子文本、作者信息、時間戳和傳播信息。在兩個公共數據集上的大量實驗結果,證明了 BAET 在探索和利用謠言傳播結構方面的有效性以及 BAET 相對于目前世界最先進的基線方法檢測的優越性。
在評估中,開發團隊根據準确度、精密度、召回率和 F1-score 四個評估指标,展示了不同基線模型與 BAET 模型的性能對比。評估數據顯示,深蘭科學院提出的 BAET 多模态謠言檢測模型,在基于 PHEME1 和 RumorEval2 這兩組公開可用數據集的評估中,得分均刷新了原有的世界紀錄。
其中在 PHEME 數據集評估中,BAET 模型在準确度、精密度、召回率和 F1-score 這四個指标上的得分,分别高出原世界紀錄 1.19 分、0.67 分、2.17 分和 1.75 分;而在 RumorEval 數據集評估中,BAET 模型四個指标的得分,則分别高出原世界紀錄 1.28 分、1.135 分、1.32 分和 1.38 分。
圖 2:本文提出的 BAET 模型的性能領先于目前 SOTA 方法
最終評估結果表明,BAET 模型在探索和利用謠言傳播結構方面的有效性,無論是單項性能,還是綜合指标,都大幅領先于其他最先進的基線模型。
BAET 謠言檢測模型主要由節點級表示、結構級表示和預測層三個關鍵模塊構成。其中,節點級表示模塊包含有 TNP 和 RAL 兩個子模塊,結構層次表示模塊也包含有 TRvNN 和 TAL 兩個子模塊,這兩個模塊都被應用于帖子樹和作者樹,用來分别學習帖子節點和作者節點的更多信息表示,而預測層模塊則是用來對謠言和非謠言進行分類。
在當前全互聯網飛速發展的時代,社交媒體成了滋生虛假信息的最佳 " 温床 ",一段文字、一張圖片,就可以編造出一段聳人聽聞的謠言。而這些對損害他人名譽、制造群體對立、破壞社會的和諧穩定等方面均有負面影響,運用 AI 技術來治理網絡謠言,已經成為具有社會責任感的 AI 企業的重要研究課題。此次論文結果不僅驗證了 BAET 模型在社交信息多模态檢測方面的技術優越性,更重要的是證明了該模型在網絡謠言檢測治理方面有着巨大的應用潛力。
據了解,《IEEE Transactions on Neural Networks and Learning Systems》是由國際電氣和電子工程師協會(IEEE)于 1990 年創辦,目标是在理論、算法和應用方面推動神經網絡和機器學習的發展,涵蓋了神經網絡、機器學習、計算智能等方面的研究領網域,期刊的影響因子為 10.4,分别被 SCI 中科院和 JCR 列為一區 TOP 期刊。IEEE TNNLS 期刊所錄用的論文,必須經由知名學者和專家組成的評審團隊的評審,以确保論文具有學術獨創性、科學性和技術深度。