DeepMind 给最厉害的 AI 测了 IQ,结果让人轻鬆不少

2020-06-06 作者: 围观:598 81 评论
DeepMind 给最厉害的 AI 测了 IQ,结果让人轻鬆不少

生活在 AI「氾滥」的时代,我们几乎每天都能看到 AI 研究的最新进展。昨天,AI 打 DoTA 战胜人类了;今天,AI 能自己找路了;明天,AI 能假冒人类打电话了。担心 AI 会灭掉人类的人眼中,AI 像一只怪物正野蛮生长,也像一支侵略军从远方大步逼近。 

实际上你看到的进展,只是不同 AI 在特定方向的进步。虽然当前基于深度学习的 AI 热潮已有 5、6 年了,还是没有一个独立的 AI,像一个独立的人,优秀地执行多种任务。

人们形容 AI 时,通常会用这种说法:这个 AI 的智商跟 3 岁小孩差不多。智商(Intelligence quotient)简称 IQ,是评价人类智商的普遍标準。你有智商,我也有智商,就连 3 岁小孩也有智商。接下来问题来了:既然说 AI 跟 3 岁小孩差不多,那幺它的智商到底有多少?

得帮 AI 测测智商了。

DeepMind 要帮 AI 测 IQ

自 AlphaGo 横空出世,AI 解决複杂、策略性的问题上,能力已得到证明。但如果想要更像「人」,AI 必须也拥有像人类的抽象理解能力。

现在 AI 的计算能力不用说了,推理能力也很强,所以只剩抽象理解能力了。Google 旗下的 AI 机构 DeepMind 认为,「基于神经网路的机器学习模型取得惊人的成绩,但要衡量推理抽象概念的能力,却非常困难。」

为了搞清楚现在的 AI 抽象理解能力究竟如何,DeepMind 还真的设计了一套测试题给 AI:

DeepMind 给最厉害的 AI 测了 IQ,结果让人轻鬆不少

这套测试题,借鑒人类的 IQ 测试着名的瑞文推理测验:给一组图片,找到符合「演进」规律的图片。

DeepMind 给最厉害的 AI 测了 IQ,结果让人轻鬆不少

这种测试中,题目并不会告诉你要找到符合什幺标準的图形,而是根据日常生活学习或掌握到的基本原则,来理解和分析测试出现的简单图案。

要找到正确的答案,往往要借鉴生活中明白的「演进」规律。比如小树苗长成大树,比如从 0  到 1、2、3、4、5 的加法,再比如加减乘除。以上这些,就是我们生活提炼出的抽象「演进」(progression)意义,就是人类的抽象理解能力。

「但是,我们现在还没有找到办法,让 AI 也可以从『日常经验』学到类似的能力。」DeepMind 论文说。

简单翻译一下这段话就是:DeepMind 先给 AI 一组由三角形构成的图像视觉推理题库,等训练差不多了,再出一组由方块构成的视觉推理题,让 AI 去回答,看它是能随机应变举一反三,还是学会三角,换成方块就不灵了。

机器人仍需努力

对于担心 AI 取代人类的朋友来说,DeepMind 的一部分实验结果确实是好消息:一些最棒的 AI 模型,在这个 IQ 测试的表现并不怎样。

正如预期,当训练集和测试集採用的抽象元素相同,多个 AI 模型都表现出超过 75% 準确率。

然而,当测试集和训练集有变化,甚至有时只是把黑点换成较暗的浅色圆点,AI 就像无头苍蝇,失去了準星。

DeepMind 给最厉害的 AI 测了 IQ,结果让人轻鬆不少

一些知名 AI 模型的表现。

上面这些都是深度神经网路领域的当红炸子鸡,测起智商却没那幺灵光了。

ResNet(Deep Residual Network),即深度残差网路在其中一组测试仅得到 22.4% 的低分,它的提出曾被形容为 CNN(卷积神经网路)的里程碑式事件,它在网路深度比其他模型提升了 n 个量级,更重要的是它的残差学习方式,改良了模型架构,因此一出现就秒杀众前辈。

表现最好的 WReN 模型,则是 DeepMind 在关係网路(Relation Networks)模型基础上改良的版本。它增加了分析不同图像组合之间的关係,并可评估这类 IQ 测试的各种可能性结果。

不过,DeepMind 针对这个测试的​​逻辑,改良一些模型,改良后的模型表现明显有提升。

比如,在一些模型中,DeepMind 加入了标记(meta-targets)辅助训练法,让模型预测数据集背后体现出的形状、属性(形状的数量、大小、颜色深浅等)及关係(同时出现、递减、递增等),当这部分预测準确,最终回答的準确率就明显提升;预测错误时,回答準确率明显下降。一些极端情况下,模型回答的準确率更从预测错误时的 32% 提升至 87%。

DeepMind 给最厉害的 AI 测了 IQ,结果让人轻鬆不少

标记预测準确度与最终答案準确率的关係图。

DeepMind 表示,他们设计的实验,最终目的并不是让 AI 通过这种 IQ 测试,他们关注的是 AI 泛化能力。

泛化是指模型拟合以前未见过的新数据的能力,这是机器学习界的术语,你也可以粗暴理解成一个 AI 模型能否「通吃」各类场景。AI 的泛化能力越强,离什幺都能做的所谓「通用人工智慧」就越近。

DeepMind 部落格最后这样说:

至少现在看来,AI 还有很长的路要走啊。