干货!假新闻检测:观察新闻本身,更要观察它所在的新闻环境

点击蓝字

9a1a1e9312069379f0ca372153adca88.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1192b2a45a9c98a719b898ffe1e410b3.gif

社交媒体虚假新闻的广泛传播已经在政治、经济、健康等领域带来了严重危害。现有的检测方法往往选择推近观察(“zoom in”),通过捕捉特定行文模式、基于知识库验证内容真实性、考虑用户评论,对给定新闻的真实性做出判断。

这些方法忽略了假新闻创作和传播时所处的新闻环境中蕴含的信息:为了提高影响力和破坏力,假新闻往往存在“蹭热点”倾向,这使得新闻环境反映的近期主流的媒体焦点和群众关切,成为了假新闻创作中的重要参考。

例如,2月1日中国男足1-3负于越南男足后,网上立刻流传起“击败国足的越南足球队队长在农贸市场卖虾谋生”的不实信息。

基于上述思考,我们认为拉远焦点(“zoom out”),观察给定新闻与其所在新闻环境的关系,可以为假新闻检测提供全新的视角。

本文提出新闻环境感知框架,通过在宏观环境中观察给定新闻的流行度,在微观环境中观察其新颖度,捕捉有用信息用于假新闻检测。据我们所了解,这是首个考虑新闻环境信息的假新闻检测工作。

本期AI TIME PhD直播间,我们邀请到中国科学院计算技术研究所数字内容合成与伪造检测实验室博士生——盛强,为我们带来报告分享《假新闻检测:观察新闻本身,更要观察它所在的新闻环境》。

19aa97bdc4290bfabc0f22de30d2cc80.png

盛强:

中国科学院计算技术研究所数字内容合成与伪造检测实验室博士生,导师为曹娟研究员。主要研究方向为面向社交媒体数据的虚假新闻检测与事实核查。

01

背景

本研究中,我们首次将环境信息引入了虚假新闻检测之中。互联网上,广泛流传的虚假新闻已经影响到了现实中人们的生活。

a894dab8604e824cb78321c96cb650c5.png

现有的虚假新闻检测方法大概可以分为两个流派,其中一种是基于信息中的相关语义信号来判断其是否与其他新闻不同,好处在于可以立即检测,缺点在于可依赖的信息量只有这条网络帖子本身。为了获得更多有效信息,大多数研究者选择凭借外部信息的帮助,推近观察(“zoom in”)帖子的内容。这种方法大致分为两类:一类挖掘帖子所引发的社交上下文信息,另一类依靠外部的知识资源。

基于社交上下文的方法经常考虑从用户反馈(如评论、转发)中寻找线索,因为用户基于自身知识可能会发现帖子的异常描述,从而帮助区分真假新闻。除此之外,还有一些基于社交上下文的方法会利用传播网络信息,主要是考虑真新闻和假新闻的传播方式有差异,例如假新闻传播链路往往会更深,且网络中可能会有一些有组织的水军行为。基于社交上下文的方法具有一定的局限性,因为其必须等待充分的社交上下文出现,无法支撑即时检测。

基于知识的方法比较容易理解,它与人类事实核查员做的事情相同:根据帖子内容,到外部知识库中寻找事实证据,判断新闻真假。该方法的缺陷是其无法在真相未知的情况下工作。检测虚假新闻的初衷是能做到“早发现、早治理”,但很多突发事件中产生的新闻是无法通过已有知识进行核查的。我们只能根据经验去“猜测”,此时基于知识的方法也就不再奏效了。

是否有第三类方法可供我们选择呢?

ca32ec79694653f75e4e54dd7051d646.png

在本工作中,我们提出了新的 “zoom out”思路:不仅要去观察帖子,还要去观察帖子所在的新闻环境。这样做一方面可以支撑即时检测(因为新闻环境在新闻发布前就已经客观存在),而且也不像基于知识的方法那样对知识来源有严格要求。

02

新闻环境能提供什么信息?

本研究中,我们假设新闻环境对当时假新闻创作与伪造提供了一种激励与启发。

9b8cf59c2bfdba3711f717083cb85d1b.png

想要获得更多的利益,必须要让假新闻广泛传播。我们不妨代入造假者的视角:如何实现杜撰新闻的广泛传播?一种直接的思路是,看下当前的新闻环境中有哪些新闻在传,且传播得特别好。上图展示了2019年11月的新闻环境(由当时的主流媒体报道构成,仅展示关键部分)。

我们可以发现,当时中国男足和叙利亚男足的一场球赛吸引了众多目光。最终,中国男足2-1输给了叙利亚男足。为了蹭上这个热点(流行度驱动),同时吸引读者的注意力(新颖度驱动),造假者便创作了如下的假新闻:叙利亚各方决定停火48小时来庆祝球赛胜利。

e3a2f720f559b2f4bee6d926791b84c2.png

上述案例启发我们,在假新闻创作中,流行度和新颖度是两个很重要的指标(尽管未必像该例一样两者兼具),而假新闻发布时的新闻环境可以提供评估这两种的指标的参考信息。

具体而言,假新闻往往会为了更大的曝光而选择蹭热点新闻,同时会增加一些新颖信息来吸引读者关注。因此,在本文中,我们的新闻真实性预测不再仅仅基于内容本身,还会将新闻环境信息考虑进来。

bb75918f290aa00a6a69f61c9424b7bf.png

03

新闻环境感知框架(NEP)

cf0c638dd7d4685fd216a3231f9d89fa.png

我们提出了News Env Perception (NEP)框架。

NEP框架主要分为三部分:第一部分是环境的构建,第二部分是感知,第三部分是基于感知到的环境信息进行预测。我们将感知到的信息与假新闻检测器提取的信息进行了融合,完成最终的真实性判断。

  • 环境构建阶段

怎样才能构建一个合理有效的新闻环境?首先它要包含很多的新闻条目,而且这些条目要包含当下主流视角关心的内容。因此,我们选定了部分主流媒体(如央视新闻),从他们的微博账号抓取新闻条目。

由于抓取量往往不小,考虑到下一阶段对流行度与新颖读的评估需求,我们构建了两种不同的环境:宏观环境与微观环境。宏观环境是目标帖子发布前T天内的主流新闻集合,而微观环境是宏观环境中与目标帖子最相关的k条构成的子集。

6430c6c22d7af81af1f671493887af58.png

  • 环境感知阶段

dece4204d88a5d65d66d00446cb3c4bf.png

如何把帖子与新闻环境联系起来,来评估流行性与新颖性?这个关系本身是一对多的关系,因为新环境可能有非常多的新闻条目。我们提出将把上述一对多的关系转化为相似度计算问题。

例如,如果说一个帖子与新闻环境中非常多的新闻条目都非常相似,说明他们共享的话题应该比较流行。两种环境分开来看:

362d905bbf7597196c161a986cdc187d.png

在流行度引导的宏观环境感知中,我们通过语言模型将环境中的新闻条目和目标帖子都转化为语义空间中的向量,并计算了帖子与新闻条目向量之间的余弦相似度,这样我们就能得到一个相似度列表。

由于这个列表是不定长的,对后续计算不够友好,我们希望把它“凝练”为一个固定向量。这里我们引入了高斯核池化操作,通过在余弦相似度值域范围的“软计数”,得到了定长的核输出,作为“凝练”了相似度信息的表示向量。最后,我们对帖子向量、环境中心向量、核输出进行了聚合操作。

在新颖度引导的微观环境感知部分中,我们采取了同宏观环境一样的统计思路,不过我们不仅对帖子做了操作,还对微观环境的中心向量做了相同操作。这是因为新颖度是“比”出来的,通过两者核输出的比较,我们更容易找到代表新颖度的有用信息。最后我们同样进行了聚合操作。

a4dd6c6f4434c94a5380e47032958921.png

  • 预测阶段

由于新闻环境信息并不是假新闻的全部,我们并不期望该框架作为一种全新的方法运行。

因此,我们在预测阶段试图将环境感知向量融于已有的虚假新闻检测器中。

为此,我们利用门机制,对给宏观环境向量、微观环境向量和检测器自身抽取的特征进行了融合,最终将融合后的向量放进真假分类器,得到最后的真实性预测结果。

fafca74cb128b70c467c2c831761a03d.png

04

实验

4.1 数据集构建

由于现有数据集不包含新闻环境数据,且时间跨度不大、覆盖度不好。我们合并了一些主要的假新闻检测数据集,并从下面的一些主流媒体中采集了一些帖子或新闻标题作为新闻环境数据的基本要素。

6bb4bdbf784a03b770176f2758410a46.png

4.2 性能比较

c3f8b074dff7e7d4fc4a12935f8b220f.png

观察发现:

  • 基于我们框架的帮助,六组基模型的准确率和宏F1值都实现了提高。

  • 一般而言,假新闻比真新闻的宏F1值提高更为明显,这也是假新闻检测系统乐于见到的特性。

4.3 统计分析

根据门向量的权重,我们观察了更依赖宏观环境或微观环境的前1%的假新闻样本。下图展示了我们手工分类的结果。我们发现:

  • 宏观环境对自然灾害或事故类假新闻更有效。这符合我们的直觉的,因为上述事件往往是爆炸性的,所以假新闻只要蹭上这个热点,就乘上了传播的“东风”;

  • 微观环境对日常生活的时间更有效。这可能是因为在常见事件中,假新闻创作者更需要绞尽脑汁,提高假新闻的新颖度。

10afddbd7720bec530abcbfa148cb732.png

4.4 案例分析

4ad90df31a04688d206810b482969add.png

在案例分析中,我们选取了宏观环境与微观环境各自之中发生的一些新闻进行比较分析。这些例子从直观上为我们展示了新闻环境的感知是如何去应对不同场景的。

4.5 实用性讨论

  • 在不平衡的在线数据集进行评估

我们对其中一个基模型和它引入NEP框架后的版本进行了线上系统数据测试。测试数据来自“睿鉴识谣”系统。与离线数据集不同,真实世界的数据集高度不平衡:该数据集有30,977条真新闻和309条假新闻,比例约为100:1。从下图可以看到,我们的框架对宏F1值和spAUC(适用于数据高度不平衡场景)均有明显提高。

086d0cf525c26b31a3fb94c8cb285ba2.png

  • 该方法对实用系统的友好性

• 及时性。该方法可以实现基于外部信息的即时虚假新闻检测。

• 兼容性。该方法可以与各种已有的虚假新闻检测器兼容并联合训练。

• 数据的易获取性。我们需要使用的主流新闻媒体数据是比较容易获取的。

05

总结与展望

我们提出利用新闻环境信息来辅助虚假新闻检测,并设计了对应框架NEP。据我们所知,这是第一篇考虑新闻环境在虚假新闻检测中作用的工作。我们同时构建了一个新的数据集,在线上和线下的测试都证实了其有效性。未来我们在考虑引入更多类型的环境信息或将该模式扩展到更丰富的场景下。

论文链接:

https://arxiv.org/abs/2203.10885

论文题目:

Zoom Out and Observe: News Environment Perception for Fake News Detection

点击“阅读原文”,即可观看本场回放

整理:林 则

作者:盛 强

往期精彩文章推荐

094264ccad2b717714e56ba2f594d596.png

记得关注我们呀!每天都有新知识!

关于AI TIME

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超150万人次观看。

dd213d3a30332a9597eff2ff800ffbde.png

我知道你

在看

~

18dd3f8c516f920bb578d762034bbffa.gif

点击 阅读原文 查看回放!

原文链接:https://blog.csdn.net/AITIME_HY/article/details/124464317?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277607816782425195378%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165277607816782425195378&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-1-124464317-null-null.nonecase&utm_term=%E6%96%B0%E9%97%BB

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
文明发言,共建和谐米科社区
提交
头像

昵称

取消
昵称表情图片