机器与人类智能的差距

很多人误认为“人工智能”就快实现了,是因为他们混淆了“识别”和“理解”。现在所谓的“人工智能”,离真正的智能差的实在太远。有多远呢?真正的工作几乎没有开始。

语言

对于语言,人们常常混淆“语音识别”和“语言理解”,人工智能专家们很多时候还故意把两者混淆起来。所以你经常听他们说:“机器已经能理解人类语言了!” 这些都是胡扯。机器离理解人类语言其实差距非常远。

现在的机器可以知道你说的是哪些字,却不能理解你在说什么。即使加上所谓“知识图谱”,它也不能真的理解,因为知识图谱跟一本同义词反义词词典差不多,只不过多了一些关系。这些关系全都是文字之间的关系,它停留在文字/语法层面,而没有接触到“语义”。

要想有语义,系统必须拥有人的“常识”,而常识是什么数据,如何表示,如何利用,谁也不知道。所以理解人类语言是一个毫无头绪的工作,根本不像 AI 专家们说的“就快实现了”。

如果不能真的理解人类语言,什么“智能客服”,“智能个人助手”,全都只能扯淡。做成玩具忽悠小孩可能还行,真的要他们理解和处理事情,还是放弃吧。

视觉

对于视觉,AI 领域混淆了“图像识别”和“视觉理解”。深度学习视觉模型只是从大量数据拟合出的从“像素->名字”的函数,能从一堆像素“识别”出图中物体的“名字”,但它却不知道那个物体是什么。

更严重的问题是,从像素出发是没法像人一样准确的识别物体的。人的视觉系统并不是一个“拍照+识别”的过程,而是“观察+理解+观察+理解+观察+理解……” 的过程,是一个动态的反复过程。感官穿插着理解,理解制导着观察。

人和动物的眼睛都是会转动的,它跟踪着感兴趣的部分。人的视觉系统能够精确地理解物体的“形状”,理解“拓扑”关系,而且这些都是 3D 的。人看到的不是像素,而是一个 3D 拓扑模型。人能理解物体的表面是“连续”的,或者有“洞”。

这就是为什么人可以理解抽象画,漫画,玩具。虽然世界上没有猫和老鼠长那个样子,一个从来没看过《猫和老鼠》动画片的小孩,却知道知道这是一只猫和一只老鼠。

你试试让一个没有用《猫和老鼠》剧照训练过的深度学习模型来识别这幅图?

对于看到的事物,人的头脑里有一个 3D 模型,而且可以短暂模拟出这个模型的各种运动。这一切的理解都穿插在了识别物体的过程中,成为不可分割的整体。深度神经网络从来没有考虑过这些问题,又何谈实现人类级别的视觉能力呢?

现在的深度学习模型都是基于像素的,几乎没有抽象能力。缺乏人类视觉系统的这种“拓扑抽象理解”能力,可能就是为什么深度学习模型需要那么的多数据,而小孩子学习识别物体,根本不需要那么多数据。

如果没有真正的视觉理解,依赖于粗略的识别技术的“自动驾驶车”,是不可能在复杂的情况下保障人们的安全的。机器人等一系列技术,也只能停留在固定场景的“工业机器人”阶段,而不能在自然环境中自由的行动。

要实现真正的语言理解和视觉理解是非常困难的。真正的 AI 根本没有起步,根本没人关心,又何谈实现呢?我不是给大家泼凉水,初级的识别技术还是有用的。除非真正有人关心到问题所在,否则实现真的 AI 就只是空中楼阁。我只是提醒大家不要盲目乐观,不要被忽悠了。