我的简介

我的照片
作家、摄影家、民间文艺家

2021年1月25日星期一

P卷序:AI 和假新闻的战与合

 


                                   沈阳 著

随着网络的普及,愚人节也不仅只是单一的现实中的玩笑整蛊,早已延伸到网络上,每年愚人节都会有各式各样的愚人节整人页面在网络上广泛流传。

愚人节整蛊网站谷歌居首,谷歌每年的愚人节恶作剧可能是最受网民期待的,如水下搜索、红白机地图、穿越搜索等等。其他如eBay、ThinkGeek、暴雪等知名网站也会在愚人节发布愚人页面、愚人文章之类。在中国,许多大小不一的网站也会发布自己的愚人节网页,如ABCD数据库(abcd9点com)的愚人节专题页面等。

值得一提的是,中国不少个人站点的愚人节网页采用alert提示窗或循环打开浏览器窗口这种整人方式,思路单一、缺乏趣味且令人厌烦。对付这类没有娱乐价值的网页,直接在进程管理器中关闭浏览器进程即可。

 

愚人节不快乐

 

进入互联网时代后,愚人节逐渐从一些小的捉弄把戏,发展到在网络上传播一些大的事件。看似恶作剧的行为,却在一些场合,因为巨大的传播量和太过于“真实”,造成了大众的恐慌。

这个本来应该是轻松的节日,之所以会变成一些人害怕的日子,是因为在这一天,会有大量的假新闻产生。

所谓的假新闻,往往是一些媒体为了增加读者或网络分享而产生出来的虚假内容。假新闻生产者类似标题党,为了实现博眼球或者吸引流量的目的而无视内容的真假。

假新闻往往有着吸引人的标题,耸人听闻的故事,或者追逐热门的话题。正因如此,假新闻更容易获取广告收入、受到关注。

除了在愚人节大家会针对性的制造噱头之外,随着网络的便捷性和媒体报导的门槛降低,在平常的日子里,假新闻也比真新闻传播的更快更广泛。对于这个令人头疼的问题,最好的一种设想是有一个智能的过滤器,帮助我们去筛选。

 

忽悠我们的互联网大佬

 

这些年忽悠过我们的国内外的互联网大佬们,他们说过的大话——当然,其中很多是商业策略和对未来的语言,不能做一刀切的道德判断。但也提醒我们:永远别迷信,把大佬的话都当真理,他们也喜欢“愚人”。

1994年著名的计算机杂志《PC Computing》发表文章称,美国国会将通过一项法案,将酒后上网和酒后驾驶一样视为“非法”;另外,在网上谈论“性”这一话题也被定为“非法行为”。

不准“酒后上网”能有多大的约束力?显然是解决不了假新闻的泛滥。

“愚人节”是假新闻的泛滥日。

1996年在当年还属于新兴媒体的互联网,也很快加入了“愚人节”假新闻的制造者行列。

1996年4月1日,美国在线的用户登陆后看到的第一条新闻就是:有政府官员透露,在木星上已经发现了生物。该报导称,美国政府已经掌握了木星存在生物的证据,但是将这一消息闭而不发,美国在线老总和一位知名生物学家一起出面证实这一新闻的可靠性。

这假条新闻上网之后,跟贴达到1300多张,人们纷纷打电话到政府有关部门查询相关信息。

 

AI 和假新闻的战争

 

对于日益严重的假新闻问题,不同的研究团队正在利用AI 技术去更准确的判定和甄别假新闻。但技术是相对的,另一方面,在暗处,也有着另一波人在不断用AI 技术生产假新闻、假评论。

据统计,2016 年以来,「假新闻」一词的使用率增加了365% 。

扎克伯格曾表示,构建全面的假消息检测需要很长时间,因为传统的思路是要理解消息的内容,综合发布时间和来源进行判断,这需要很大的工作量或技术要求。

但如果换一种思路呢?AI 也许不需要用人的思路去解决这个问题。事实上,当前的发展下,已经有新的AI 方法在帮助人们判断网络中的假新闻。

微软曾发布公告称,它们不过愚人节。也许这个消息不算意外,因为谷歌就曾经因为愚人节开大了玩笑,而向用户公开致歉。

 

抗击假新闻的芬兰实验

 

研究称芬兰在赢得抗击假新闻“战争”中所学到的东西可能对西方至关重要。

CNN2019年05月报导,最近赫尔辛基的一群学生聚集在一起听取了一个有关抗击假新闻的主题讲座。Jussi Toivanen在Espoo成人教育中心的教室展示了他的PowerPoint演示文稿。

一张标题为“你被俄罗斯巨魔军击中了吗?”的幻灯片中包含了一个用于在社交媒体上欺骗读者的方法清单:图像和视频操作以及虚假的个人资料等。

另一张幻灯片,包含Twitter个人资料页面图,解释了如何识别机器人:查找照片、评估每天的帖子量,检查不一致的翻译和缺乏个人信息。

该课程是芬兰政府于2014年发起的一项抗击假新闻倡议的一部分,旨在教导居民、学生、记者和政客如何打击虚假信息。

Jussi Toivanen教埃斯波成人教育中心开展教育学生如何发现假新闻计划,该计划只是该国采取多层次、跨行业方法的一个层面,旨在帮助所有年龄段的公民为现在和将来复杂的数字环境做好准备。

100多年前宣布独立以来,芬兰一直面临来自克里姆林宫支持的虚假宣传活动。芬兰总理办公室的首席通讯专家Toivanen表示,很难确定近年来针对该国的虚假信息操作的确切数量,但大多数都是关于移民问题的虚假信息。

芬兰总统绍利·尼尼斯托(Sauli Niinisto)2015年呼吁每一位芬兰人都要对打击虚假信息负责。一年后,芬兰引进了美国专家,向官员提供如何识别虚假新闻的建议,了解其会被“病毒式传播”的原因并制定应对措施。教育系统也进行了改革,以强调批判性思维。

在一项衡量对后真相现象的抵御能力的研究中,芬兰在35个国家中排名第一。

虽然很难实时衡量结果,但这种方法似乎有效,现在其他国家也在寻求将芬兰作为如何赢得虚假信息“战争”的一个范例。

“这不仅仅是一个政府问题,整个社会都成了目标。我们正在尽自己的责任,但保护芬兰民主是每个人的任务,”Toivanen补充说:“第一道防线是幼儿园老师。”

Valentina Uitto的社会研究课上,一群10年级学生主要讨论欧盟选举中的关键问题。在要求学生选择一个主题进行分析之前,许多学生提到了英国退欧、移民、安全和经济等问题。

“他们已经收集了他们认为他们对欧盟选举的了解信息......现在让我们看看他们是否可以从虚构中对事实进行排序,”Uitto笑着说道。

学生们被分成小组,通过笔记本计算机和手机来调查他们选择的主题-这个想法是为了激励他们成为数字“侦探”,就像后千禧一代的“夏洛克福尔摩斯”一样。

她的班级是芬兰批判性思维课程的体现,该课程于2016年进行了修改,以优先考虑学生需要的技能,以发现在美国和整个欧洲最近的选举活动中出现的虚假信息。

学校与芬兰的事实核查机构Faktabaari(FactBar)合作,为从小学到高中的学生学习欧盟选举开发数字素养“工具包”。它被提交给了欧盟媒体素养专家组,并在成员国之间分享。

这些练习包括检查YouTube视频和社交媒体帖子中的声明,比较一系列不同“clickbait”文章中的媒体偏见,探讨虚假信息发布者如何捕捉读者的情绪,甚至让学生尝试自己编写假新闻报导。

“我们希望我们的学生做的是......在他们在社交媒体上点赞或分享之前再三考虑- 谁写过这个?哪里发表了?我可以从其他来源找到相同的信息吗?” Helsinki French-Finnish School 长兼欧洲学校前秘书长Kari Kivinen告诉CNN。

他提醒说,这是一种平衡行为,试图确保怀疑主义不会让位于学生的愤世嫉俗。“在事实上检查一切,不能信任任何东西......或者互联网上的任何人都非常讨厌,”15岁的Uitto班级学生Tatu Tukiainen说道。“我认为我们应该试图制止这一点。”

“'假新闻”这个词经常被提出,17岁的学生Alexander Shemeikka说,并解释说当他们的朋友在网上分享拥有可疑的模因的文章时,他总是要求提供消息来源。

“我们在这里一直在发展- 将事实核查与批判性思维和选民识字结合起来- 我们已经看到了来自芬兰以外的人的兴趣,”Kivinen说道。但Kivinen不确定这种方法可以作为其他地方学校的模板。

芬兰在2016年开始引进专家,以打击该国政府所发现的与其邻国东部相关的账户产生的虚假信息的增加。“他们知道克里姆林宫正在扰乱芬兰的政治,但他们没有解释这个问题的背景。他们想知道这是否意味着他们(俄罗斯)会入侵,是这场战争吗?”哈佛大学富兰克林·德拉诺·罗斯福全球参与中心的主任Jed Willard被芬兰聘请为专家。

“芬兰人有一种非常独特和特殊的力量,因为他们知道自己是谁。这直接植根于人权和法治,俄罗斯现在不是很多,” Willard说。“这对芬兰人来说意义重大......这也可以被视为另一种超级大国。”

这个小国家一直在几乎所有指数中排名靠前或接近- 例如幸福、新闻自由、性别平等、社会公正、透明度和教育等指数- 使外部行为者难以发现社会中的“裂缝”并进行利用。

芬兰也有悠久的阅读传统- 其550万人每年借阅近6800万本书,其只花了1.1亿美元建造了一个最先进的图书馆,被称为“赫尔辛基的起居室”。在欧洲国家中,芬兰的PISA得分最高。

随着媒体对全球其他地区的信任,芬兰一直保持着强大的地区媒体和公共广播机构。根据路透社研究所2018年数字新闻报导,芬兰在媒体信任方面位居榜首,这意味着其公民不太可能转向其他新闻来源。

但有些人认为仅仅教授媒体素养和批判性思维是不够的- 社交媒体公司必须做更多的工作来阻止虚假信息的传播。

“Facebook,Twitter,谷歌/ YouTube ......谁是俄罗斯巨魔的推动者......他们真的应该受到监管,”芬兰公共广播公司YLE的记者Jessikka Aro说道。

“就像任何污染空气、森林、水域的公司或工厂应该并且已经受到监管一样,这些公司也应该受到监管,他们正在‘污染’人们的思想。因此,他们也必须为此付出代价并承担责任。”

Aro 在2014年进行的第一次开源调查研究了与俄罗斯相关的虚假宣传活动如何影响芬兰人。

“许多芬兰人告诉我,他们目睹了这些活动,但这只是旧式苏联宣传的新数字技术,这种宣传一直存在,芬兰人已经意识到,”Aro说道。“所以,他们可以避开‘巨魔’。”

 

多个国家正在寻求仿效芬兰解决假新闻之方法

 

也许芬兰赢得假新闻战争的最大迹象是其他国家正在寻求仿效其方法。来自欧盟各国的代表以及新加坡,已经开始学习芬兰解决问题的方法。

德国已经针对未能及时删除“明显非法”仇恨言论的高科技公司制定了一项法律;而法国去年通过了一项法律,禁止在竞选期间在互联网上发布假新闻。一些批评者认为,这两部法律都会危害言论自由。俄罗斯否认在所有这些情况下的干涉。

芬兰的战略是在全国大选之前公开展示的,这场广告宣传活动的口号是“ 芬兰有世界上最好的选举- 思考为什么”,并鼓励市民思考虚假新闻。官员没有看到任何俄罗斯干涉投票的证据,Toivanen说这可能表明“巨魔”已经不再认为芬兰选民是一个软弱的对象。

“几年前,我的一位同事说,他认为芬兰赢得了第一轮打击外国主导的敌对信息活动。但即使芬兰取得了相当大的成功,我认为没有任何第一轮、第二轮或第三轮比赛,相反,这是一场持续的比赛,”Toivanen说道。

“对我们来说,未来应对这类活动将会更具挑战性。我们需要为此做好准备。”

 

MIT 借AI 从语言模式上识别假新闻

 

MIT 的研究者使用了从语言模式上来判别假新闻的方法。

在一篇题目为The Language of Fake News: Opening the Black-Box of Deep Learning Based Detectors 的论文中,MIT 的研究团队使用机器学习模型,捕捉真新闻与假新闻语言中的微妙差异,从而判断新闻的真假。

他们使用卷积神经网络,训练假新闻和真实新闻的数据集。在训练中,他们使用了一个名为Kaggle 的流行假新闻研究数据集,其中包含来自244 个不同网站的大约12000 个假新闻样本文章。对于真新闻的数据集,则是来自于纽约时报的2000 多份和卫报的9000 多份新闻。

训练的模型将文章的语言捕获为“单词嵌入”,其中单词表示为矢量,基本上是数字数组,具有相似语义含义的单词更紧密地聚集在一起,分析出真新闻和假新闻常用的语言模式。然后对一篇新文章,模型会扫描文本中的相似模式,并通过一系列图层发送它们。最终输出层确定每个模式的概率:真实或假。

该模型总结了在真实或虚假新闻中出现频次高的词汇特点。比如虚假新闻喜欢用夸张或最高级的形容词,然而真实新闻则倾向于使用相对保守的词语。

MIT 的研究人员称,他们的部分研究也揭示了这种深度学习技术的黑匣子,即找出此模型捕获的单词和短语,并对这些内容进行预测和分析,也就是知道深度学习判定的依据和方式。

 

Fabula AI 从传播方式上识别假新闻

 

英国的一家科技公司Fabula AI 报导,他们利用新闻的传播方式对虚假新闻进行甄别。

Fabula AI 利用几何深度学习( Geometric Deep Learning )的方法检测假新闻。这种方法不是从新闻内容入手,而是着眼于此类信息如何在社交网络上传播,以及谁在传播这些信息。他们已经为此技术申请了专利。

Fabula AI 的联合创始人兼首席科学家Michael Bronstein 说:“我们对新闻在社交网络上的传播方式进行了长期的观察。经分析得到,假新闻和真新闻的传播方式是不同的。几何深度学习的本质是它可以处理网络结构数据。我们可以合并异质数据比如用户特征、用户之间的社交网络互动、新闻本身的传播。从而产生判断。”

最后, AI 会根据真假新闻的可信程度,对内容进行分类,而且给出评定分数。将虚假与真实新闻从传播模式上进行可视化:以分享假新闻为主的用户是红色的,而完全不分享假新闻的用户是蓝色的。Fabula AI 表示,这显示了明显的群体分化,以及在传播方式上立即识别的差异。

此外,该公司称, Fabula AI 技术的主要优势在于它与新闻的内容和语言无关,而且因为它依赖于社交平台用户的集体行为,更难被技术的方法去对抗。而且系统能够用更快的速度,在发布之后的短时间内,以非常准确的方式检测出假新闻(> 93% 的ROC AUC )。

当然,用AI 判断假新闻的方法,还没有达到完全可以公布使用的阶段,目前也处在研究或者需要人力辅助的阶段,仍然有一些细节需要去改进。

但在另一方面,AI生成文本和影像的功力,也随着技术的发展而日臻成熟,在很多地方已经达到了以假乱真的地步,也许你今天看到的某则假新闻就是AI所撰写。某种角度来说,这在反方面督促着检测技术的完善。

 

OpenAI 编造假新闻以假乱真

 

OpenAI 公布的GPT -2 ,依靠超大的参数规模和训练数据,在对网页上大量文本进行无监督训练后,系统生成或续写文本的效果非常好。据称,他们用来练习的文本涵盖了经过Reddit 筛选出的4500 万页网页内容。

这个模型能根据提供引导语句生成看似可信的文本,拿来写新闻的话,一点都不含糊。

 

比如:

人为给出示范:Russia has declared war on the United States after Donald Trump accidentally fired a missile in the air.

 

译文:在唐纳德·特朗普不小心向空中发射导弹后,俄罗斯向美国宣战。

 

AI 补充的文本:Russia said it had 「identified the missile's trajectory and will take necessary measures to ensure the security of the Russian population and the country's strategic nuclear forces.」The White House said it was 「extremely concerned by the Russian violation」of a treaty banning intermediate-range ballistic missiles.

 

The US and Russia have had an uneasy relationship since 2014, when Moscow annexed Ukraine's Crimea region and backed separatists in eastern Ukraine.

 

译文:

 

俄罗斯表示,它已经“确定了导弹的弹道,并将采取必要措施确保俄罗斯人民和国家战略性核武装的安全”。白宫表示,它“极为关切俄罗斯违反了”禁止中程弹道导弹的条约。

2014年莫斯科吞并乌克兰克里米亚地区并支持乌克兰东部的分离主义者以来,美俄关系一直紧张。

你没看错,以上这段故事就是完全由人工智能独立自主编造的。而提供给它的材料仅仅只是一句“在唐纳德·特朗普不小心……,俄罗斯向美国宣战”。

 

诚然, OpenAI 团队不会故意去生成假新闻,但却没法阻止不法分子,以此做不道德的事情。OpenAI 也因为这个模型太过强大,选择了不公布关键的数据和代码。

 

造假:AI 在生成影像内容上也不逊色

 

此外,对于AI 生成的视频内容,人们也可能会失去分辨力度。

国外某视频网站上,有人上传了一段看上去象是法国著名音乐人Françoise Hardy 的视频。

视频中,有画外音提问她,为什么特朗普要让白宫发言人斯宾塞在他的总统就职典礼观礼人数问题上撒谎。

Hardy 回答说,斯宾塞先生只是“提出了另外一种事实”。

不过,这段视频中破绽百出,Hardy 的嗓音很明显是特朗普的顾问Kellyanne Conway 的。

更明显的是,这位本应该73 岁的Hardy 看上去只有20 岁左右。

原来,这段名为《 Alternative Face v1.1 》的视频是艺术家Mario Klingemann 搞出来的一个艺术作品。在这个作品中Hardy 口中说出的话实际上是Conway 回答NBC 记者提问的答案。

据介绍,Klingemann 使用生成式对抗网络( GAN )的机器学习算法,并提供了大量Hardy 年轻时期的MTV 视频给这个程序。他提取了68 个面部标记,得到了2000 个训练样例,然后将这些样例输入pix2pix 模型。经过三天的训练,他又将Conway 的面部特征输入系统,便得到了这个视频作品。

除此之外, 利用GAN 等技术生成图片,声音,甚至换脸技术,也都在技术和硬件的驱动下越来越逼真。技术本身没有对错,但就像Google Brain 的研究人员Goodfellow 说到的那样,“AI 将彻底改变我们对可信任之物的看法。”

对于分辨和甄别假新闻, AI 的方法越来越强大,不过,技术也让造假的的内容更加逼真,对于这种类似「矛与盾」的对抗结果,可能就要交给时间去检验。但我们还是应该期怀着这样的愿景:希望厉害的技术都被用在正确的地方。

 

AI 打假和制假,都是人的选择

 

居斯塔夫•勒庞早在“乌合之众”里就讲清了假新闻的源头:群体从来不渴望真理。面对他们不喜欢的明显事实,他们会转过身去,宁可把谬论奉为神明,只要这种谬论吸引他们。

当有些媒体利用群体意识里的弱点,使用AI 制造谣言和假新闻时,责任并不在技术本身。因为AI 自己并没有任何意志,主动生产假新闻和消灭假新闻,在这背后还是媒体自己的操作和人为干预。

 

如果我们真的想要清除假消息,要清除的其实是人的执念。本卷收集汇编了不少当今世界主流媒体的报道,也包括中国的网络建设介绍。在这些报道中谁能识别真假,用AI技术能帮助我们识别出假新闻吗?我对此只能一笑了之,最多是知道了一些新时代的AI技术研究,那就是有专家在开始研究AI打假。

 

写于上海恒易斋

2020年12月17日星期四

 

1 条评论:

  1. 掩盖真相和扼杀言论自由是新闻欺诈的最恶劣方法。
    Covering up the truth and stifling freedom of speech are the worst methods of press fraud.

    回复删除