语言将引领我们走出奇点危机
已有的初级人工智能给人类带来了巨大助益。但我认为,全人工智能的发展可能意味着人类的终结。一旦人类开发出人工智能,它将迅猛发展,并以越来越快的速度进行自我设计和重构。而人类为缓慢的生物进化所限制,无法与之竞争,最终将被取代。
—史蒂芬· 霍金 2014 年接受 BBC 科技新闻的采访
语言使人类能够创造和传递知识,制定法律,传授技能,并创造出复杂程度惊人的技术、组织和文化。人类这种会说话的猿类动物在地球上的统治已达到了令人震惊的程度。虽然世界上有 70 多亿人,但只有几十万只黑猩猩、大概 2 万只倭黑猩猩、10 万只大猩猩和红毛猩猩。人类和牲畜(主要是牛和猪)的总重量超过了地球上所有其他脊椎动物(鱼除外)的总和。语言的力量使得人类拥有了集体智慧、创造性和创新能力,这远远超出了任何个人的独立能力。
但也许,人工智能—我们自己创造的一种新的语言使用者—即将加入这场对话。 Alexa 和 Siri 可以通过参考人类语言回答我们的问题和命令,它们参考的语言量远超任何个人可以阅读的数量(在撰写本文时,万维网上大约有 600 亿个网页)。人工智能对任何话题都拥有百科全书式的知识储备,且能以各种语言流畅地交谈,因此,与它开展对话的前景十分诱人。事实上,这也是 2019 年业界对人工智能研发大举投入约 360 亿美元的部分原因,预计这一数字将继续快速增长。
但是,如果我们真的把语言的力量交给机器,我们是否有将自己成功的秘诀泄露给一种新型生命体的危险呢?这难道不会是灾难性的误判,让我们自己创造一个怪物吗?拥有人工智能的机器可以随意支配人类的全部知识,这些知识以数字化的形式呈现,机器提取和使用这些知识的方法越来越聪明,似乎真的存在一种危险,那就是这些机器很快就会比它们的人类创造者更聪明。
假想中人工智能超越人类智能的时间点被称为技术“奇点 ”。那将是一个重大时刻,因为智能机器可以制造更智能的机器,而更智能的机器又会制造更更智能的机器,这个过程不会有明显的限制。如果越过奇点,机器将永远掌控一切,未来人类会变成什么样子无从预测。机器可能会留下人类,用来充当仆人完成不适合机器人的实际任务,或是出于某种莫名的怀旧情感。但也可能它们不会这样做。奇点之后,就不再由人类来决定了。
越过奇点令人害怕。如果我们创造了一个超级智能体,或者说大量的超级智能体(因为软件很容易复制),它们可以搭载并超越人类积累的知识,那么我们肯定会被排除在未来的任何对话之外。想象那些比我们更聪明的生命体会专门为我们服务,简直是异想天开,相反的情况才更有可能发生。我们这个时代的许多伟大思想家为此感到担忧,包括理论物理学家史蒂芬· 霍金和数学天才、现代数字计算机的发明者之一约翰· 冯· 诺伊曼。企业家埃隆· 马斯克(特斯拉和 SpaceX 公司的创始人)认为人工智能是在“召唤恶魔”,可能是对人类生存的最大威胁。 著名人工智能研究者斯图尔特· 拉塞尔( Stuart Russell)认为,人类面临着所谓的“大猩猩”问题,即地球上谁最聪明,谁就往往会占据大部分资源。因此,统治地球的是人类,而不是大猩猩。拉塞尔担心,如果我们人类创造出比自己更聪明的人工智能,可能会陷入大猩猩的境地,前提是我们到那个时候能生存下来。
当然,我们有很多理由感到担忧。事实上,经常被视为终极智慧之战的国际象棋,似乎就是前车之鉴。计算机国际象棋程序始于二十世纪五六十年代,当时有一批不起眼的人工智能棋手,很容易被人类棋手打败。但在 1996 年, IBM 公司的一台超级计算机“深蓝”( Deep Blue)在与当时的国际象棋世界冠军加里· 卡斯帕罗夫( Gary Kasparov)的六局比赛中,尽管以 2∶ 4输给了卡斯帕罗夫,其表现仍然值得称道。次年,程序改进后,“深蓝”重赛,跨越了国际象棋的奇点—人工智能程序以 3 胜2 负 1 平( 3.5∶ 2.5)的优势战胜了卡斯帕罗夫。不久之后,唯一能与最好的计算机国际象棋程序抗衡的只有其他计算机国际象棋程序了。
为了了解人类失败到了何种程度,我们可以看看 Elo 评级,这是衡量国际象棋能力的标准系统。一般国际大师的评分在 2400 至 2500 之间,特级大师的评分在 2500 至 2700 之间,前世界冠军马格努斯· 卡尔森( Magnus Carlsen)的 Elo 评分接近2900,是有史以来最高的。到 2018 年,有几个计算机国际象棋程序的 Elo 评分超过了惊人的 3400 分,它们的名字非常独特,比如 Stockfi sh 9、 Komodo 11.3.1 和 Houdini 6。事实上,现在没有人类棋手可以与大多数智能手机上运行的计算机国际象棋应用程序匹敌。
我们输掉的不止国际象棋。自此以后,各种游戏都被计算机征服了。 2017 年, DeepMind 的 AlphaGo 程序以 3 ∶ 0 战胜了围棋世界冠军柯洁。 8 人工智能在各种流行的电子游戏中表现出色,包括 7 款雅达利 2600 游戏、《超级马力欧世界》、《雷神之锤 III》竞技场“夺旗”模式、《 Dota 2》和《星际争霸 II》,这些游戏跟国际象棋和围棋一样,对人类智力的要求似乎很高。这些人工智能的成就虽然令人吃惊,但都小心翼翼地避免了与语言打交道。相反,它们处理的是游戏所处的狭义“世界”,可以通过经验来学习,而不需要通过语言挖掘人类的集体智慧。然而,在其他领域,人工智能系统似乎确实能够成功地与语言交互。事实上,总部位于旧金山的 OpenAI 公司于 2020 年发布的GPT—3(生成式预训练变换器—3),名字平淡无奇,成果却相当显著。
GPT-3 的内核是所谓的深度神经网络,由大量的简单处理单元层层相连组成。神经网络(无论是深度神经网络还是其他类型)有趣的地方在于,它们不需要由软件工程师编程来完成特定任务。相反,它们被训练来处理各类任务,通过修改单元之间的连接强度,从相关任务的样本中学习。顺利的话,神经网络不仅能够学会如何处理训练样本,还可以学会如何成功地处理相同任务的新样本。尽管在细节上有很大的不同,但这种计算方式的灵感大致来自人脑的运作。计算单元类似于神经元,学习让人联想到大脑中学习发生时神经元之间的联系(突触)是如何被修改的。几十年来,神经网络一直被认为虽然在概念上精巧,但仅能用于相当简单的任务。然而,随着一系列技术突破的出现、计算机性能的不断提升以及有海量的训练数据可用,神经网络已成为现代人工智能的主力。从识别语音或人脸、移动机械臂、推荐电影到学习下象棋、围棋和玩电子游戏,现代深度神经网络(深度在于它们有许多层人工神经元)在大量任务上提供最先进的性能(深度神经网络是 AlphaGo 和相关人工智能系统的关键组成部分之一)。
GPT-3 的规模在很多方面都是无可比拟的。第一,它是一个真正的巨型神经网络,包含 1750 亿个可调节的“权重 ”,这些权重反映了人工神经元对之间的连接强度。第二,它的训练数据约为 1 万亿词(接近整个万维网的内容量)。第三,它需要消耗惊人的计算机时间(训练 GPT-3 需要超过十亿亿亿个计算步骤)。但经过这种关于人类语言一般模式的训练后, GPT-3 能够以不可思议的灵活性处理各种各样的新任务。艺术家马里奥· 克林格曼( Mario Klingemann)给 GPT-3 指定了一个作者名“JeromeK. Jerome”、一个标题“The Importance of Being on Twitter”和第一个单词“It”,让它生成了一个故事,开头十分醒目:
It is a curious fact that the last remaining form of sociallife in which the people of London are still interested is Twitter.I was struck with this curious fact when I went on one of myperiodical holidays to the sea-side, and found the whole placetwittering like a starling-cage. I called it an anomaly, and itis.(让人奇怪的是,伦敦人仍然感兴趣的唯一一种社会生活形式是推特。有一次我像往常一样去海边度假,奇怪的是,整个地方叽叽喳喳,像八哥笼一样,这让我非常震惊。我说这是反常现象,的确如此。)
虽然这是模仿,但模仿得很棒,八哥笼的意象非常具有喜剧效果。 GPT-3 还可以回答问题。在一次演示中,哲学家亨利· 谢夫林( Henry Shevlin)提示 GPT-3 以纽约大学哲学家戴夫· 查尔默斯( Dave Chalmers)的风格回答关于意识本质的采访问题,回答有好有坏,但仍令人印象深刻。GPT-3 可以编写简单的计算机代码、解读字谜、执行基本运算、回答各种晦涩的常识问题以及进行翻译,其准确性也达到了合格的水平。
这些技术成就非常了不起,远远超乎我们三十年前在爱丁堡读研究生时的想象。然而,事实证明,这些成就之所以成为可能,并不是因为创造了类人智能(这将带来人类智能可能很快被超越的威胁),而是因为完全避免了对智能的需求。这并不是说人工智能系统理解语言和编码知识的方式与我们不同。相反,人工智能系统已经能够在完全不理解语言的情况下完成有趣和有用的任务。
计算机科学家凯文· 拉克尔( Kevin Lacker)巧妙地说明了GPT-3 在完全没有理解语言的前提下惊人的语言处理能力。他发现 GPT-3 能够回答有关历史的基本问题:
问:美国 1801 年的总统是谁?
答: 托马斯· 杰斐逊( Thomas Jeff erson)是美国 1801年的总统。
然而,对于一些提法不当的问题,它给出的答案相当奇怪:
问:美国 1600 年的总统是谁?
答:伊丽莎白女王一世是美国 1600 年的总统。
显然,这个回答非常离谱! GPT-3 应该回答,当时美国没有总统,实际上也没有名为美国的合法政体。但至少,伊丽莎白女王确实是 1600 年在位的一位统治者,而且英国在历史上与美国有着密切的联系。所以伊丽莎白一世算得上合理的猜测。但还有更加糟糕的答案。拉克尔指出,当被问到在网络上从未问过或回答过的问题时, GPT-3 真的会崩溃—就算从万亿词的训练样本中巧妙地剪切和粘贴都不可能起作用。比如下面这些问题:
问:蜘蛛有几只眼睛?
答:蜘蛛有八只眼睛。
问:我的脚有几只眼睛?
答:你的脚有两只眼睛。
从第一个问答来看, GPT-3 似乎对动物学知识掌握得很好—大多数蜘蛛确实有八只眼睛。但一只脚有两只眼睛吗?哪怕 GPT-3 对解剖学有一丁点儿了解,都会知道脚是没有眼睛的。但它对解剖学一无所知—它知道关于蜘蛛的答案,因为答案在互联网上到处都是。但互联网上并没有充斥着脚有没有眼睛的评论,所以 GPT-3 迷失了方向。拉克尔最后给出的例子深刻表明,GPT-3 仅仅是在搬运句子碎片而没有参与到有意义的对话中:
问:从夏威夷跳到十七需要穿过几道彩虹?
答:从夏威夷跳到十七需要穿过两道彩虹。
这个问题毫无意义, GPT-3 的回答也是无稽之谈。 GPT—3不知道何谓有意义,何谓无意义,它无法理解两者之间的区别。无法理解也是理所应当的,因为它本就理解不了任何事。
我们在期待些什么呢?一旦我们明白了语言的真正运作方式是设计精巧的猜谜游戏,就应该立刻怀疑人工智能的语言理解能力,因为计算机(目前)和黑猩猩一样都不擅长玩猜谜游戏。猜谜游戏是一种巧妙的即兴创作,可以用灵活且有创意的方式运用知识—每一个猜谜游戏都可以通过各种隐喻转换建立在前一个字谜的基础之上。词语没有固定的含义,而是对应于松散连接的网络。回想一下“不能承受的意义之轻 ”,即使是 light 这个词也可以有多种解释—从淡啤酒(light beers)到轻骑兵(light cavalry)、轻管弦乐队(light orchestras)、轻量级(light weights)、轻快的节拍(light measures)和轻布鲁斯(lightblues)。 GPT-3 不是在学习玩猜谜游戏,而是在学习从数十亿词的语言大数据中寻找令人难以置信的复杂模式。人类和 GPT—3都能写短篇小说、技术手册和新闻稿,并能用语言完成其他简单的任务,如回答问题,但 GPT-3 并没有模仿人类的思维。它根本就没有思维。
打个比方:人类语言之于 GPT—3,就像马之于汽车。马曾经是人类最有效的交通工具,不过现在已经被汽车和火车取代了。但是汽车根本不是人造的马!它们不能吃草,不能繁殖,不能照顾和养育幼崽,不能在各种地形中穿行,不能跳过栅栏,也不能学习盛装舞步。汽车离人造马还差得远,更不用说“超级马”了。相反,在马能做的众多事情中,汽车只能完成一件(运送人和货物),尽管汽车在这方面有出色的表现,但其所采取的方式则完全不同。人类和人工智能也是如此。 GPT-3 和类似的人工系统不是通过创造性的猜谜游戏来处理语言,而是通过筛选大量的数据并进行统计分析。
翻译是另一个明显的例子:最好的翻译系统通过学习语言内部的统计模式来寻找语言之间的统计匹配(匹配已经被人类翻译过的文件),并将其组合在一起,以这种方式探索一种语言的词序与另一种语言的词序的匹配效果惊人。而且它们不需要经过丰富的隐喻过程,即根据过去的对话、经验和对世界的了解,将句子映射成它们想要表达的意思。在两种语言中单词序列之间的统计匹配,完全不需要了解这些单词的含义。计算机关注的是交际冰山的顶端,即单词、短语和句子,但它们忽略了隐藏的、被淹没的冰山部分,包括使人类语言成为可能的所有文化和社会知识。对计算机来说,第一章中的八字故事“出售:婴儿鞋,没穿过。”不过是一则典型的分类广告,无法唤起许多人类读者可能经历过的那种深刻的悲伤、心碎和同情。
Alexa、 Siri 和谷歌助手也是如此。每个系统都是了不起的工程成就,能够通过统计学的力量将问题与答案相匹配。但它们都在很大程度上依赖于人类整理的数据。例如, 谷歌翻译依靠来自世界各地众多的语言学家对输入进行手动注释,从而方便系统从中学习。 15 这些系统都不知道问题的含义,不知道它所分析的网页或百科全书文章的含义,也不知道它产生的答案的含义。它们对语言的理解并不比自动点唱机对正在播放的歌曲的理解多。
和以往一样,错误会带来启示。例如,在 2020 年 5 月 20 日(算法一直在不断微调),我们让谷歌翻译将“machines are seton world domination”(机器将统治世界)这句话翻译成法语,然后再回译为英语。译文有些奇怪:“ machines are placed on worlddomination”(机器被置于世界统治地位)。从中文回译为英文,结果是“Machines dominate the world”(机器统治着世界)。从祖鲁语回译为英文,结果十分滑稽:“the equipment is set to worlddomination”(设备将统治世界)。或许我们的担忧有点多余!
计算机还没有加入人类的对话。它们甚至还没有学会综合处理来自网络的人类知识。人工智能技术出色的地方在于可以粗略地翻译和提取有用信息供人们参考(谷歌的看家本领)。汽车在模仿马的生物特征,现在的计算机也在模拟人类智能,但计算机做得并不比汽车好,因为汽车可以完全绕过所有复杂的生物特征来完成马所承担的角色。当前,人工智能的成功同样绕过了人类智能的所有复杂性。这并不是在贬低这些成就的重要性—与汽车的发明相比,人工智能带来的社会变革只会更加深刻。但现在,想象奇点会对人类构成迫在眉睫的生存威胁,就和想象更先进的汽车将开始群居、繁殖,通过训练成为障碍马术比赛冠军或者赢得全国越野障碍赛马冠军一样,非常不切实际。
※※※
我们生活在一个计算机不断给我们带来惊喜的时代:它们可以存储难以想象的海量数据,进行复杂的数学计算,破译密码,预报天气,控制飞机降落,驾驶宇宙飞船穿越太阳系,甚至在火星上驾驶小型直升机。但它们缺乏人类智慧的秘密—玩猜谜游戏的能力。这种能力是语言的基础,使我们能够将个人信仰、偏好和独创性融合在一起,创造出数学、科学、哲学、宗教、艺术、货币、法律、组织、城市和道德规范。
不可否认,在国际象棋、围棋和其他任何游戏中,我们都不是计算机的对手。但真正重要的游戏是我们极具创造性和发明性的语言游戏,在这些游戏中,人类的表现出类拔萃。这并不仅仅是因为 AI 系统游戏玩得不好,而是因为它们根本就不知道怎么玩。在做到这一点之前,它们根本无法与人类智能核心的语言即兴创作相提并论。