昨天,一篇《为拯救爸妈朋友圈,达摩院造了“谣言粉碎机”》的文章,在朋友圈刷屏,引来一片鼓掌叫好:“这下终于不用费劲劝导爸妈了!”
文章说的是,阿里巴巴达摩院的科学家,造了一个谣言粉碎机,这是一个算法模型,可以识别真假新闻,未来也能应用在各大领域。
这是怎样一种算法?准确率高吗?真的可以终结谣言?记者联系到了正在大洋彼岸的“谣言粉碎机”的创造者李泉志。
“粉碎机”的前生功能
是为记者提供可靠线索
《速转!科学家发现:一味中药48小时可杀死60%癌细胞!》《晚上喝白开水的朋友,再不看就晚了!》《专家说了,这样东西千万别吃!》……
你有没有收到过父母发来的这些“关怀”?又有多少次是抱着“算了算了,你开心就好”的心态结束话题?
“不能保证百分之百准确,但基本可以判断是否为谣言。”李泉志,达摩院NLP团队的核心成员之一,毕业于清华大学,后在美国获得自然语言理解方向的博士学位,目前在达摩院的西雅图办公室工作。
在加入达摩院前,他曾是路透社重要的“情报官”:通过机器筛选成千上万的网络信息,为数千位一线记者提供可靠线索。
“AI谣言粉碎机”就是借助自然语言实现的。在刚刚结束的SemEval(自然语言处理领域的国际权威比赛,由国际计算语言学学会举办)全球语义测试中,“AI谣言粉碎机”创造了假新闻识别准确率的新纪录,达到了前所未有的81%。
判断一个新闻真假
要分三个步骤
“AI谣言粉碎机”要怎么去判断是否为谣言呢?李泉志说,分三步——
首先,该模型会找到最初的信息源,分析用户画像,包括:专业领域,此前传播或转发过什么,是个人还是机构,注册时间,活跃规律等,来判断发布者是否“可靠”。最后根据不同态度的人群比例、各自的信誉度等信息,计算出此新闻的可信度。
第二步,寻找网上所有的信息源,看看链接的域名,是否来自可信网站,比如新华社、政府医药管理局等。
第三步,将正文里关键的论证提炼为知识点,与知识图谱里的权威知识库做匹配验证。如果毫无联系、自相矛盾,减分。
李泉志解释,“AI谣言粉碎机”会考虑一部分人类的想法,更多的则是 AI的运用。人工智能有很多人类比不了的地方,比如当一个流言在社交网站上传播很快的时候,我们很难去判断真假,不知道谁接收到了,是出于什么原因转发,不同的人对此的评价是什么,而这些AI可以做到。“假如来一个流言,人可以通过网站去查证,但是AI可以快速把科学研究、新闻拉出来,加上后台知识库的对比,做一个验证。人脑中有基本判断,但是没有大型的知识库。”李泉志说。
就拿“AI谣言粉碎机”的训练样本来说,就要分至少两个层面:首先拿底层的2亿条信息,几百万条新闻,训练语言样本;再将模型进行谣言的真实性训练。“是一个复杂且费时的过程。”李泉志表示。
谁制造谣言,论文是否抄袭
未来粉碎机还有更多功能
其实,要建这样一个数据模型,并不容易。李泉志坦言,他在前一家公司就开始研究,到如今,也还需继续完善。他们有一个小团队专门在研究这一技术,因为,总体来说这不是一个单独能列出来的技术,是自然语言所有技术的综合。
目前,该模型也并未应用于阿里巴巴的任何业务中,李泉志坦言,数据模型需要不断被“训练”,也需要得到社会的认同,而这些,都不是短时间内能解决的。
可以想象的是,“AI谣言粉碎机”未来将被应用的多个场合。
比如,可以识别论文是否为抄袭,用技术从个人的写作风格、方法论、主题等多维度去判断是否为抄袭。过去有人说某年轻作家后期的作品由人代笔,以后用AI就能分析得出结论。
另一方面,可以协助警方找到真正谣言的制造者。通过AI去追踪传播路径,从传播路径中,将传播分解,可以发现规律,比如传播了哪些用户,用户是什么反应,是简单的转发,还是赞成、反对,还是进行了二次加工?
“当然,该模型也还是需要更多的语言训练。比如有些用户转发时,说的是反话、讽刺,有些是隐喻,不知是否是真实的情绪表达,这些作为机器很难对此做出判断,但是通过大量的训练,是可以实现的。”李泉志表示,他和团队会继续研究该模型。
目前,全球人工智能人才约30万人。其中产业人才约20万人,大部分分布在各国AI产业的公司和科技巨头中;学术及储备人才约10万人,分布在全球367所高校中。据统计,截止至2017年6月,全球人工智能初创企业共计2617家。美国占据1078家居首,中国以592家企业排名第二,其后分别是英国,以色列,加拿大等国家。其中,美国1078家人工智能企业约有78700名员工,中国592家公司中约有39200位员工,约为美国的50%。
目前,全球共有367所具有人工智能研究方向的高校,AI领域的人才数量约有10万人。其中,有6000多名AI领域的学者,以及7万余名AI相关专业在读硕博研究生以及其他。每年AI相关领域硕博毕业生约2万名。在这367所高校中,美国拥有168所,占据全球的45.7%,独占鳌头,加拿大、中国、印度、英国位于第二梯队。
人工智能领域学术能力排在世界前20的学校中,美国占据14所;排名的前八个席位都为美国所占据。雄厚的学术研究实力,帮助美国在人工智能领域取得了首屈一指的地位。而其他国家,在学术能力上与美国差距巨大,如何发展AI教育,是值得思考的问题。
人工智能领域20所顶级高校
序号 | 学校名称 | 国家 | 顶级学者数量 | 顶会论文数量 |
1 | 卡耐基梅隆大学 | 美国 | 111 | 638 |
2 | 加州大学伯克利分校 | 美国 | 48 | 285.1 |
3 | 华盛顿大学 | 美国 | 45 | 262.5 |
4 | 麻省理工学院 | 美国 | 48 | 235.2 |
5 | 斯坦福大学 | 美国 | 40 | 226.9 |
6 | 康奈尔大学 | 美国 | 46 | 212.8 |
7 | 佐治亚理工学院 | 美国 | 53 | 208.5 |
8 | 宾夕法尼亚大学 | 美国 | 29 | 184.4 |
9 | 多伦多大学 | 加拿大 | 39 | 164.1 |
10 | 伊利诺伊大学香槟分校 | 美国 | 44 | 161.6 |
11 | 南加州大学 | 美国 | 32 | 161.3 |
12 | 北京大学 | 中国 | 69 | 154.9 |
13 | 爱丁堡大学 | 英国 | 47 | 151.2 |
14 | 东京大学 | 日本 | 40 | 145.2 |
15 | 密歇根大学 | 美国 | 32 | 135.2 |
16 | 清华大学 | 中国 | 45 | 132.1 |
17 | 香港科技大学 | 中国 | 29 | 126.1 |
18 | 马萨诸塞大学阿默斯特分校 | 美国 | 36 | 122.4 |
19 | 马里兰大学 | 美国 | 26 | 112.6 |
20 | 新加坡国立大学 | 新加坡 | 33 | 102.3 |
注:
1.顶尖学者数目是指2006-2017年间在人工智能领域顶级会议上发表至少一篇论文的学者数目
2.顶会论文数目是指2006-2017年间该校学者在人工智能顶级会议上发表的论文总数目,论文数目由论文合作人数调整得出。顶级会议是指AI领域的最高国际学术会议,也是全世界科学家参与和关注最多的会议。
从国别来看,AI产业人才主要分布在美国、中国及其他国家的企业中。以在初创企业工作的AI人才为例来看。截至2017年6月,全球人工智能初创企业共计2617家。美国占据1078家居首,中国以592家企业排名第二,其后分别是英国,以色列,加拿大等国家。其中,美国1078家人工智能初创企业约有78700名员工,中国592家公司中约有39200位员工,只有美国的50%。美国人工智能初创企业主要以1-10人和10-50人的团队为主,这种小型团队共759个,占据全美的70.41%,是美国AI初创公司的主力军;中国人工智能初创企业主要是10-50人的团队,总量384个,占据全国的64.86%。可以说,美国的小型创业团队规模比中国小。在需要同等技术的情况下,美国团队的平均能力和可创造价值高于中国团队。
人工智能企业拥有数量TOP5
数据来源:公开资料整理
版权提示:智研咨询倡导尊重与保护知识产权,对有明确来源的内容注明出处。如发现本站文章存在版权、稿酬或其它问题,烦请联系我们,我们将及时与您沟通处理。联系方式:gaojian@chyxx.com、010-60343812。