阿里开发AI谣言粉碎机谣言识别准确率达81% 判断一个新闻真假只需三步还可识别论文是否抄袭全球AI 人才分布情况[图]

AI 2019-04-01 01:40

昨天，一篇《为拯救爸妈朋友圈，达摩院造了“谣言粉碎机”》的文章，在朋友圈刷屏，引来一片鼓掌叫好：“这下终于不用费劲劝导爸妈了！”

文章说的是，阿里巴巴达摩院的科学家，造了一个谣言粉碎机，这是一个算法模型，可以识别真假新闻，未来也能应用在各大领域。

这是怎样一种算法？准确率高吗？真的可以终结谣言？记者联系到了正在大洋彼岸的“谣言粉碎机”的创造者李泉志。

“粉碎机”的前生功能

是为记者提供可靠线索

《速转！科学家发现：一味中药48小时可杀死60%癌细胞!》《晚上喝白开水的朋友，再不看就晚了！》《专家说了，这样东西千万别吃！》……

你有没有收到过父母发来的这些“关怀”？又有多少次是抱着“算了算了，你开心就好”的心态结束话题？

“不能保证百分之百准确，但基本可以判断是否为谣言。”李泉志，达摩院NLP团队的核心成员之一，毕业于清华大学，后在美国获得自然语言理解方向的博士学位，目前在达摩院的西雅图办公室工作。

在加入达摩院前，他曾是路透社重要的“情报官”：通过机器筛选成千上万的网络信息，为数千位一线记者提供可靠线索。

“AI谣言粉碎机”就是借助自然语言实现的。在刚刚结束的SemEval（自然语言处理领域的国际权威比赛，由国际计算语言学学会举办）全球语义测试中，“AI谣言粉碎机”创造了假新闻识别准确率的新纪录，达到了前所未有的81%。

判断一个新闻真假

要分三个步骤

“AI谣言粉碎机”要怎么去判断是否为谣言呢？李泉志说，分三步——

首先，该模型会找到最初的信息源，分析用户画像，包括：专业领域，此前传播或转发过什么，是个人还是机构，注册时间，活跃规律等，来判断发布者是否“可靠”。最后根据不同态度的人群比例、各自的信誉度等信息，计算出此新闻的可信度。

第二步，寻找网上所有的信息源，看看链接的域名，是否来自可信网站，比如新华社、政府医药管理局等。

第三步，将正文里关键的论证提炼为知识点，与知识图谱里的权威知识库做匹配验证。如果毫无联系、自相矛盾，减分。

李泉志解释，“AI谣言粉碎机”会考虑一部分人类的想法，更多的则是 AI的运用。人工智能有很多人类比不了的地方，比如当一个流言在社交网站上传播很快的时候，我们很难去判断真假，不知道谁接收到了，是出于什么原因转发，不同的人对此的评价是什么，而这些AI可以做到。“假如来一个流言，人可以通过网站去查证，但是AI可以快速把科学研究、新闻拉出来，加上后台知识库的对比，做一个验证。人脑中有基本判断，但是没有大型的知识库。”李泉志说。

就拿“AI谣言粉碎机”的训练样本来说，就要分至少两个层面：首先拿底层的2亿条信息，几百万条新闻，训练语言样本；再将模型进行谣言的真实性训练。“是一个复杂且费时的过程。”李泉志表示。

谁制造谣言，论文是否抄袭

未来粉碎机还有更多功能

其实，要建这样一个数据模型，并不容易。李泉志坦言，他在前一家公司就开始研究，到如今，也还需继续完善。他们有一个小团队专门在研究这一技术，因为，总体来说这不是一个单独能列出来的技术，是自然语言所有技术的综合。

目前，该模型也并未应用于阿里巴巴的任何业务中，李泉志坦言，数据模型需要不断被“训练”，也需要得到社会的认同，而这些，都不是短时间内能解决的。

可以想象的是，“AI谣言粉碎机”未来将被应用的多个场合。

比如，可以识别论文是否为抄袭，用技术从个人的写作风格、方法论、主题等多维度去判断是否为抄袭。过去有人说某年轻作家后期的作品由人代笔，以后用AI就能分析得出结论。

另一方面，可以协助警方找到真正谣言的制造者。通过AI去追踪传播路径，从传播路径中，将传播分解，可以发现规律，比如传播了哪些用户，用户是什么反应，是简单的转发，还是赞成、反对，还是进行了二次加工？

“当然，该模型也还是需要更多的语言训练。比如有些用户转发时，说的是反话、讽刺，有些是隐喻，不知是否是真实的情绪表达，这些作为机器很难对此做出判断，但是通过大量的训练，是可以实现的。”李泉志表示，他和团队会继续研究该模型。

目前，全球人工智能人才约30万人。其中产业人才约20万人，大部分分布在各国AI产业的公司和科技巨头中；学术及储备人才约10万人，分布在全球367所高校中。据统计，截止至2017年6月，全球人工智能初创企业共计2617家。美国占据1078家居首，中国以592家企业排名第二，其后分别是英国，以色列，加拿大等国家。其中，美国1078家人工智能企业约有78700名员工，中国592家公司中约有39200位员工，约为美国的50%。

目前，全球共有367所具有人工智能研究方向的高校，AI领域的人才数量约有10万人。其中，有6000多名AI领域的学者，以及7万余名AI相关专业在读硕博研究生以及其他。每年AI相关领域硕博毕业生约2万名。在这367所高校中，美国拥有168所，占据全球的45.7%，独占鳌头，加拿大、中国、印度、英国位于第二梯队。

人工智能领域学术能力排在世界前20的学校中，美国占据14所；排名的前八个席位都为美国所占据。雄厚的学术研究实力，帮助美国在人工智能领域取得了首屈一指的地位。而其他国家，在学术能力上与美国差距巨大，如何发展AI教育，是值得思考的问题。

人工智能领域20所顶级高校

序号	学校名称	国家	顶级学者数量	顶会论文数量
1	卡耐基梅隆大学	美国	111	638
2	加州大学伯克利分校	美国	48	285.1
3	华盛顿大学	美国	45	262.5
4	麻省理工学院	美国	48	235.2
5	斯坦福大学	美国	40	226.9
6	康奈尔大学	美国	46	212.8
7	佐治亚理工学院	美国	53	208.5
8	宾夕法尼亚大学	美国	29	184.4
9	多伦多大学	加拿大	39	164.1
10	伊利诺伊大学香槟分校	美国	44	161.6
11	南加州大学	美国	32	161.3
12	北京大学	中国	69	154.9
13	爱丁堡大学	英国	47	151.2
14	东京大学	日本	40	145.2
15	密歇根大学	美国	32	135.2
16	清华大学	中国	45	132.1
17	香港科技大学	中国	29	126.1
18	马萨诸塞大学阿默斯特分校	美国	36	122.4
19	马里兰大学	美国	26	112.6
20	新加坡国立大学	新加坡	33	102.3

注：

1.顶尖学者数目是指2006-2017年间在人工智能领域顶级会议上发表至少一篇论文的学者数目

2.顶会论文数目是指2006-2017年间该校学者在人工智能顶级会议上发表的论文总数目，论文数目由论文合作人数调整得出。顶级会议是指AI领域的最高国际学术会议，也是全世界科学家参与和关注最多的会议。

从国别来看，AI产业人才主要分布在美国、中国及其他国家的企业中。以在初创企业工作的AI人才为例来看。截至2017年6月，全球人工智能初创企业共计2617家。美国占据1078家居首，中国以592家企业排名第二，其后分别是英国，以色列，加拿大等国家。其中，美国1078家人工智能初创企业约有78700名员工，中国592家公司中约有39200位员工，只有美国的50%。美国人工智能初创企业主要以1-10人和10-50人的团队为主，这种小型团队共759个，占据全美的70.41%，是美国AI初创公司的主力军；中国人工智能初创企业主要是10-50人的团队，总量384个，占据全国的64.86%。可以说，美国的小型创业团队规模比中国小。在需要同等技术的情况下，美国团队的平均能力和可创造价值高于中国团队。

人工智能企业拥有数量TOP5