当联邦机构发放研究资助时,他们从未能确定这项投资是否会为社会带来回报。在20世纪70年代末和80年代初,美国国家科学基金会和海军研究办公室资助了 James “Jay” McClelland 、David Rumelhart 和 Geoffrey Hinton 的项目,以模拟人类认知能力时,这一点几乎可以肯定。
然而,这项投资引发了一系列研究进展:一个关于人类如何感知字母和单词的神经网络模型;1986年出版的两卷书,描述了该团队关于我们大脑中的神经网络如何作为并行分布式处理系统运作的理论;以及由Rumelhart、Hinton和一名叫Ronald J. Williams的学生在《Nature》上发表的一篇开创性文章,展示了所谓的反向传播算法的威力——这是一种通过错误学习来训练神经网络模型的方法。
这项研究反过来又催生了现代AI的许多成果。“今天,反向传播算法构成了自那时以来开发的所有深度学习系统的基础,并且几乎所有成为现代科技行业驱动力的AI系统都依赖于此,”McClelland说,他是斯坦福 人文与科学学院 的Lucie Stern社会科学教授,也是斯坦福吴采神经科学研究所 心智、脑、计算与技术中心 的主任。
这一成果为三人赢得了2024年 金鹅奖 ,以表彰他们的基础科学研究对世界产生的影响。
McClelland——就像NSF和ONR一样——从未预料到这样的结果。作为一名认知科学家,“我从未想过要构建一个AI,”他说。但现在AI的进步已经形成了一个完整的循环。“我从AI和深度学习中学到的东西中汲取灵感,帮助我思考人类心智,同时也在询问心智和大脑能教给AI什么。”
从字母感知到神经网络
在20世纪70年代,当McClelland和Rumelhart开始合作时,他们对大脑如何工作的想法与主流观点不同。像Noam Chomsky和Jerry Fodor这样的研究人员认为,语言处理本质上是一个符号过程,涉及根据明确的规则操纵有组织的符号排列。
McClelland有不同的看法。凭借在感觉神经生理学和动物学习方面的背景,他无法将Chomsky和Fodor等人谈论的抽象概念与他在动物实验中看到的现象相协调。例如,测量猫皮层中单个神经元对线段反应的实验表明,感知似乎并不遵循明确的规则。“它是连续的,不是以离散步骤发生的。而且它对上下文很敏感,”他说。McClelland想要构建一个能够捕捉这种敏感性的模型。
与此同时,Rumelhart在1977年发表了一篇论文,提出每当我们试图理解一个字母、一个单词、一个短语或一个句子中的单词含义时,我们都是在同时使用所有可用信息来约束问题。再次强调:上下文很重要。
在McClelland阅读了Rumelhart的论文后,两人见面并很快意识到他们可以在计算神经网络模型中形式化他们的想法——一组分层的简单计算元素(有时称为“神经元”),它们相互接收输入(即考虑上下文)并相应地更新其状态。
“我们想要开发一个神经网络模型,能够捕捉大脑在不同上下文中感知字母的一些特征,”McClelland说。例如,我们在单词中识别字母的速度比在随机字母串中更快;即使部分被遮挡、扭曲或掩盖,我们也能直观地判断一个单词可能是什么,他说。
他们的初始模型产生了与人类受试者语言实验中看到的类似结果——这是McClelland的主要目标。这表明神经网络模型,作为并行处理系统,是人类认知的适当模型。
但该团队的初始模型将字母和单词视为离散单元(“神经元”),它们之间有连接。当Hinton在80年代初加入团队时,他建议团队应该放弃每个单元或神经元代表一个字母、单词或其他人类可识别或有意义的符号的想法。相反,他提出,字母、单词或其他符号的符号表示应该被认为仅存在于模型网络中许多神经元的联合活动中。1986年出版的《并行分布式处理》两卷书阐述了这些理论。
接下来是关键的一步:Rumelhart、Hinton和Williams在1986年《Nature》上提出的反向传播算法。
在此之前,神经网络模型的学习能力相当有限:错误仅在网络的最终输出层进行调整,限制了经验如何有效地塑造模型的性能。为了克服这一限制,Hinton建议Rumelhart将最小化错误设定为一个特定目标或“目标函数”,并推导出一种优化网络以实现该目标的程序。受到这一灵感的启发,Rumelhart找到了将错误信号向后发送的方法,以教导模型中较低层次的神经元如何调整其连接的强度。他和Hinton展示了这样的网络可以学习执行无法通过单层可修改连接解决的计算。“其他人在大约同一时间开发了反向传播,”McClelland指出,“但正是Dave和Geoff展示了反向传播的能力,引起了共鸣。”
当时,Rumelhart使用反向传播的网络只有很少的输入单元和输入与输出之间的一层单元,McClelland说。相比之下,今天的模型可能有成千上万的中间层神经元以同样的方式学习。
尽管反向传播算法优雅,神经网络模型并没有立即流行。事实上,直到25年后,Hinton和他的学生利用Fei-Fei Li的ImageNet数据集——使用比Rumelhart当时可用的计算机强大许多倍的计算机——展示了卷积神经网络在图像分类方面的惊人能力。“在此之前,很难训练足够深的网络或拥有足够的训练数据,”McClelland说。
从大脑到AI再回到大脑
与此同时,McClelland继续使用神经网络来模拟人类认知,始终发现这些模型能够有效地捕捉人类实验的数据。他对人类认知与计算机化神经网络的相似性和差异性仍然充满兴趣。“我们大脑中的神经网络使我们能够运作、说话和用连续的句子交流,显然在某些方面与这些AI系统相似。”
他说,今天的语言模型使用分布式表示并通过反向传播进行训练,也实现了类似人类的翻译流畅性。“它们能够以任何符号、基于规则的系统无法做到的方式进行语言间的翻译。”
此外,与之前的模型不同,依赖所谓的transformer架构的大型语言模型表现出一个有趣的类脑特征:它们能够在提供新信息时保持上下文中的信息。“这些模型使用上下文中的信息,就像它们在心中悬挂一样——就像别人对你说的最后一句话,”McClelland说。
这一发展激发了McClelland与Google DeepMind的合作者一起探索神经网络模型是否像人类一样,在拥有先前的上下文知识时比在给定完全抽象的需要符号逻辑的主题时推理更准确。
例如,人们在回答“如果一些A是B,所有B是C,是否有任何C是A?”这样的问题时会感到困难。但如果在使用熟悉概念的特定上下文中表述同样的问题(“如果一些牛是赫里福德牛,所有赫里福德牛是哺乳动物,是否有任何哺乳动物是牛?”),他们更有可能给出正确答案。“我们的研究发现,这也是这些模型的表现,”McClelland说。“它们不是纯粹的逻辑机器。人类和模型都在思考中融入了他们的先验知识和信念。”即使在不符合给定前提的情况下,它们也倾向于偏向于事实真实或广泛相信的结论,他说。这些结果发表在 2024年PNAS Nexus 的一篇论文中。
“这项研究帮助我说服他人,我们人类的思维方式不那么严格逻辑化,而更多地基于通过调整神经网络连接强度获得的直观知识,”他说。
尽管有这些相似之处,McClelland指出仍然存在差异。将人类与机器区分开来的一个方面是我们能够快速且以少量数据进行学习的能力。“这些语言模型需要大约比人类多10万倍的数据来学习一门语言。这是很多!”他说。“因此,我们对理解生物大脑如何能够以远少于今天AI系统的数据进行学习感兴趣。”
Rumelhart的反向传播算法是问题的一部分:“这就是为什么这些AI系统如此缓慢且需要如此多数据的原因,”他说。神经网络有几乎无数的连接——与人类相比——它们需要大量额外的数据来确定哪些连接最重要。
例如,如果一个大型语言模型在预测句子“John喜欢加奶油和蜂蜜的咖啡”的最后一个词时出错,它可能会学会在一般情况下减少“糖”这个词的可能性,而不是学会只是John有不寻常的口味。
“所有这些连接都在进行小的调整以试图减少错误,但要弄清哪些是重要的,你必须包括许多训练句子,其中保持对糖的普遍偏好——这效率不高,”McClelland说。
这也不是大脑的工作方式。“反向传播是一个计算问题的绝妙解决方案,”McClelland说。“但没有人曾认为它捕捉了大脑如何工作的准确视图。”在反向传播中,网络在一个方向上被激活,错误在同一网络上向后传播,McClelland说。相比之下,在大脑中,激活本身是双向的,许多不同的大脑部分在相互作用——包括多种感官同时感知世界——以提供对世界的综合感知体验。
Hinton很清楚反向传播未能捕捉大脑的工作方式,他继续开发了几种更接近生物学合理性的算法,McClelland说。而现在McClelland正在以不同的方式承担同样的任务:通过回到对动物和人类神经元激活的研究。
“我受到启发,想要找到理解我们的大脑如何如此有效地定位正确连接以进行调整的方法,”他说。
本文 最初由斯坦福HAI发布 。