今天小编分享的科技经验:刷新世界纪录!中国AI企业提出新多模态谣言监测模型BAET,欢迎阅读。
近日,中国人工智能独角兽企业深兰科技旗下深兰科学院投稿的《基于二部特定事件树的分层表示的谣言检测》(Rumor Detection With Hierarchical Representation on Bipartite Ad Hoc Event Trees)研究论文被全球人工智能领網域顶级期刊《IEEE Transactions on Neural Networks and Learning Systems》(IEEE TNNLS)收录并发表。BAET 多模态谣言检测模型在 PHEME1 和 RumorEval2 两个数据集的有效性应用测评上,性能领先于 SOTA 方法。
论文首次提出的谣言检测模型 BAET,是通过提取事件元素,将由流通中的根帖子组织转换为帖子和作者的二分特定事件树,基于词嵌入编码器,构建多层次 RNN 模型,以此对事件树的结构进行表征,并提出一个树感知注意模块来分别学习作者树和帖子树的树表示。
图 1:BAET 的总体架构
本篇论文采用从社交平台 Twitter 上可收集到的 PHEME1 和 RumorEval2 两个公开可用的数据集进行评估,其中,PHEME 数据集包含五个突发新闻事件,RumorEval 涉及八个突发新闻,两个数据集都包含帖子文本、作者信息、时间戳和传播信息。在两个公共数据集上的大量实验结果,证明了 BAET 在探索和利用谣言传播结构方面的有效性以及 BAET 相对于目前世界最先进的基线方法检测的优越性。
在评估中,开发团队根据准确度、精密度、召回率和 F1-score 四个评估指标,展示了不同基线模型与 BAET 模型的性能对比。评估数据显示,深兰科学院提出的 BAET 多模态谣言检测模型,在基于 PHEME1 和 RumorEval2 这两组公开可用数据集的评估中,得分均刷新了原有的世界纪录。
其中在 PHEME 数据集评估中,BAET 模型在准确度、精密度、召回率和 F1-score 这四个指标上的得分,分别高出原世界纪录 1.19 分、0.67 分、2.17 分和 1.75 分;而在 RumorEval 数据集评估中,BAET 模型四个指标的得分,则分别高出原世界纪录 1.28 分、1.135 分、1.32 分和 1.38 分。
图 2:本文提出的 BAET 模型的性能领先于目前 SOTA 方法
最终评估结果表明,BAET 模型在探索和利用谣言传播结构方面的有效性,无论是单项性能,还是综合指标,都大幅领先于其他最先进的基线模型。
BAET 谣言检测模型主要由节点级表示、结构级表示和预测层三个关键模块构成。其中,节点级表示模块包含有 TNP 和 RAL 两个子模块,结构层次表示模块也包含有 TRvNN 和 TAL 两个子模块,这两个模块都被应用于帖子树和作者树,用来分别学习帖子节点和作者节点的更多信息表示,而预测层模块则是用来对谣言和非谣言进行分类。
在当前全互联网飞速发展的时代,社交媒体成了滋生虚假信息的最佳 " 温床 ",一段文字、一张图片,就可以编造出一段耸人听闻的谣言。而这些对损害他人名誉、制造群体对立、破坏社会的和谐稳定等方面均有负面影响,运用 AI 技术来治理网络谣言,已经成为具有社会责任感的 AI 企业的重要研究课题。此次论文结果不仅验证了 BAET 模型在社交信息多模态检测方面的技术优越性,更重要的是证明了该模型在网络谣言检测治理方面有着巨大的应用潜力。
据了解,《IEEE Transactions on Neural Networks and Learning Systems》是由国际电气和电子工程师协会(IEEE)于 1990 年创办,目标是在理论、算法和应用方面推动神经网络和机器学习的发展,涵盖了神经网络、机器学习、计算智能等方面的研究领網域,期刊的影响因子为 10.4,分别被 SCI 中科院和 JCR 列为一区 TOP 期刊。IEEE TNNLS 期刊所录用的论文,必须经由知名学者和专家组成的评审团队的评审,以确保论文具有学术独创性、科学性和技术深度。