更新时间:2025-05-16 22:45作者:佚名
大型语言模型很有用,但是它们无法解决人工智能的基本问题,包括推理。 |撰写Wang Pei(美国坦普尔大学计算机科学系)自两年前出生以来,各种大型语言模型一次又一次地刷新了人们的认知,因此,即使是“通用人工智能也来了”,也从Madman的狂欢到陈词滥调,这也不再足以用作“震惊的震动”标题。即使是那些*惯了这个世界上改变的人,也不可避免地会觉得他们彼此不同。今年的诺贝尔奖已经授予了背后两次的人造神经网络技术,可以说是“用火和盛开的花朵的食用油”。但是与此同时,学术界中始终存在的怀疑声音也开始增加数量。最新的《人工智能杂志》(世界上最大的人工智能学术组织AAAI的成员出版物)的封面文章直言不讳地说,对“可解释的人工智能”的研究已陷入困境,“无法解释”是对深度神经网络的一种批评。苹果研究人员最近的一份研究报告称,大型语言模型根本没有逻辑推理,这引起了轰动。双方就深层神经网络是否可以推理他们是否有推理已经进行了几年的辩论。苹果研究部的文章评估了数学领域中大语言模型的推理能力。这些材料“微调”了许多“数学应用问题”,这些问题已经很容易被大型语言模型解决。以我们在小学中非常熟悉的那种问题为例。修改包括(1)替换其中的专有名词(例如更改有关“小米”的问题为“小米”),(2)更改其中的数字(例如,将问题中的“ 3.5小时”更改为“ 2.8小时”),(3)添加了无关紧要的信息(例如,添加了“ Xiaiaoming fishing fish the Xiaia of the Xiaia”)。尽管这种修改不涉及这些数学问题的逻辑结构,但它导致答案的准确性急剧下降。本文的结论是,大语言模型既不理解这些问题中的数学概念,也没有执行逻辑推理,而只是比较培训数据中的问题所面临的问题。因此,即使这些正确的答案也只反映了系统的内存和匹配能力,而不是其逻辑推理能力。当我去年对Chatgpt发表评论时,我说它没有提出逻辑推理,因为结论的质量取决于相关培训数据的数量,因此只能将其视为人们大规模推理过程的摘要。 [2]中的评估结果也支持这一点。但是,这种评估结果不足以为这场辩论做出最终决定。那些认为大语言模型可以在这个问题上推理的人的推理过程大致是这样的:“人们通过推理解决了一些问题,因此他们的解决方案需要推理能力。现在,大型语言模型解决了这些问题,因此他们推理了推理。”根据这种观点,大型语言模型在许多问题上表现出远远超出普通人的推理能力。目前,不可避免地说,它不能以一些错误的结论来理解,这是涉嫌“通过偏见概括”和“狭窄”的理由。随着相关技术的快速发展,您怎么知道以下版本无法填补这些漏洞? Openai是否还没有将“推理”列为当前的主要攻击方向?在迄今为止的辩论中,正面和负面方面的主要证明手段仍然是在推理中找到大型语言模型的各种成功或失败案例。这种方法的优点是证据是具体且可验证的,但总是感觉像是豹子的瞥见。
这些成功和失败在多大程度上揭示了系统的一般推理能力,以及以后的研发可以克服当前的缺陷?什么是“推理”?有人曾经说过,许多辩论实际上是源于对基本概念的不同理解,这就是为什么我以前的许多文章始于概念分析的原因- 这并不是我喜欢对单词感到耐嚼,而是我无法达到辩论的核心。通常说“推论”是“从已知判断(先决条件)发起新的判断(结论)的过程,但是如果“输出”并没有进一步限制,显然它太广泛了。互相读取前提。绝对不考虑推论。当然,“释放”当然是“在这里启动的”,但是在这里进行了两个跨性别的研究:是否有一个差异,或者是正确的。推理。结论,与[3]中提到的内容无关。 “尽管这两种理论有一些相似的结论(如果它们完全不同,这将是一个大问题),但它们之间的差异长期以来已被广泛知道。一个典型的例子是我在[4]中引入的“沃森选择任务”,在这里不会重复,这两个传统在人工智能研究中是基于人工智能的研究。为了接近人类的真实思维,它也取得了一定的成功逻辑,心理学,一个推理过程被视为一系列推理步骤,每个步骤都有自己的定律可以识别和研究。句子的顺序)以“端到端”的方式,中间步骤被跳过,其正确性的标准是“人们是否从给定的前提中推断出相同的结论”,他们不太在乎这些结论是如何逐渐得到的,而这些结论是如何逐渐支持的,这是由计算机强大的信息处理能力和大规模的培训模型。放弃了中间步骤的控制,因此很难理解过程和结果。

对培训数据的依赖会在一般结论中引起“偏见”和“过度拟合”等问题。当训练数据不足时,在猜测与样本的统计相似性的答案时,很难保证正确的性质。由于这些问题取决于神经网络模型的“性质”,因此无法通过技术手段完全解决它们。例如,最近流行的“思维链”反映了填补中间步骤的努力,但是“链”中的大多数“链接”是可以进一步分解而不是基本推理步骤的推理过程。此外,他们的正确性标准仍然是通过培训数据确定的,因此它们不是通用的(无关紧要的)。这次,苹果研究部的评估要求这种描述性模型来解决规范理论(MATH)中的推理问题,因此其性能较差也就不足为奇了。在推理的规范和描述性模型之间存在各种表面差异的背后,反映了对智力的先天和获得因素(或“认知”,“思维”等)的不同观点。尽管每个人都同意两者是必不可少的,但它们各自的角色仍然非常不同。规范模型中的推论规则基本上是天生确定的(尽管可以获取所使用的推理前提),而描述模型中的推理规则可以来自获得的培训(尽管算法遵循培训的算法是天生的)。具体而言,神经网络模型将“推论”视为问题的“已知”和“结论”之间的关系,而不会限制从已知到结论的生成过程。这种方法*简化了该模型的构建和应用过程(仅提供培训数据而不解释解决问题的解决方案),因此是其成功的重要原因,但它也是上述问题的根本原因。除推理模型外,语言模型中对先天和获得因素的这种不同的处理也发生了。在对自然语言理解的研究中,开始统治的“规则学校”(乔姆斯基学校)认为,语言能力(尤其是语法结构)基本上是天生的,而获得的学*仅在“刺激潜在”中起作用,而“统计学校”(使用神经网络作为主要的实施方法)目前会训练的能力,并且可以将所有内容均能训练。算法)。如果我们进一步追踪根源的根源,则可以对不同领域的先天和获得的因素(不限于上述的推理和语言)进行反映,这可以反映每个反映哲学中的理性主义和经验主义。两者之间的关系既不像谁是对的或谁错的那样简单,也不能被“有机统一”所欺骗。对于人工智能系统设计师来说,最重要的决定包括区分应提前设计的机制和内容,以及应将哪些机制和内容进行培训和教育。遵循纯粹理性主义的系统通常太僵化了,无法应对环境的复杂性,而遵循纯粹经验主义的系统通常仅限于过去经验的碎片,因此很难确保判断的普遍性。将推理规则作为隐喻,前者就像通过演绎推理完全解决问题。它的优势在于准确性和可靠性(“保真度”),但它超出了预设前提的范围,而后者就像通过类似推理完全解决了问题。它的优势是灵活性和灵活性(如果您不关心推力,可以比较一切),但是您经常处于矛盾的情况下。
在与人类智能相比时,我认为人工智能系统的(先天性)设计应遵循与人类接近的理性原则,但是他们的特定行为应基于他们自己的(获得的)经验,而不是试图完全复制人类的行为。实施我设计的推理模型“ NAS”(请参阅我的上一篇文章)是为了反映从设计中人类推理行为中抽象的推理规则,而无需期望系统本身学*它们。另一方面,让系统的信念,欲望和概念完全来自系统自己的经验(包括感知的运动经验和口头交流经验),而不依赖于预先植入的“真相”或“事实”。简而言之,NASS的设计是尝试使用类似于人类先天逻辑的一组推理规则来实现智力。我并不是说人脑中有一组象征性的推理规则,而是我们的自然推理过程有规则可以遵循,并且可以将这些规则分为符号推理规则而不会失去其基本特征。在这里,必须区分一般意义上的“逻辑”和特定的“逻辑系统”。逻辑研究从一开始就一般而有效的推理和辩论规范,这通常是我们通常判断陈述是否是“逻辑”的意思。至于将“推理有效性”定义为“忠诚度”,并以象征性语言将其描述为规则系统,这是对推理规范的特定理解。即使所有现有的逻辑系统都不令人满意,“人类的推理是犹豫不决的”也不是不可避免的结论。如果是这样,为什么我们仍然有可能在一定程度上了解大规模推理过程及其其他人的结果(包括古人和外国人)?基于“智能系统的推断遵循普遍规则”的信念,NATH的推理机制被设计为一种规范模型,其结论的正确性是基于NATH所基于的理性原则,而不是基于流行的人类观点作为对和错的标准。但是,与传统的规范模型不同,NASS的设计预设是该系统需要在相对不足的知识和资源下适应环境。因此,判断特定结论的正确性的基础是系统的过去经验,而不是客观的事实或未来的经验。通过这种方式,NASS在知识内容方面是一种描述性模型,但总结的是它自己的经验,而不是人类的经验。结果是NATH和各种传统推理模型都有相似之处,但它们都有根本的差异。与大型语言模型相比,NASS的推理规则是在设计过程中确定的,与系统体验无关,并且与应用程序领域无关。由于这些规则来自“在相对不足的知识和资源下适应环境”,而人类推理机制已经发展以满足这一需求,因此NATH的推理过程和结果与人类具有很多相似之处,因此在原则上是可解释的(尽管对于复杂问题来说并不容易)。由于NATH的推理结论来自系统经验,因此其经验局限性当然会导致偏见和错误判断,但是知识内容中的这种缺陷并不等于系统推理能力中的缺陷。由于“先天逻辑”(称为“非轴向逻辑”,请参见[5])后跟NATH与数学逻辑不同,不包括数学,因此该系统仍然需要通过学*来掌握这些理论,该理论使用其先天逻辑进行,这与人工神经网络的培训完全不同。如果NASS在研究相应的课程后不得不在数学应用程序问题上做数学应用问题,那么他可能会犯不同的错误,但是这些错误将比小学生所做的事情要比大型语言模型所做的更接近。
由于NATH的研发尚未达到可以衡量的地步,因此可以将其视为尚未测试的预测。根据上述分析,推理能力的来源可以将大语言模型视为一种特殊的描述性推理模型,该模型通过总结人类相应的行为来执行某些推理任务。称这种能力为“可以推理”不是完全错误的,但是说他们“无法理解,只有模式匹配”是更准确的,因为他们确实认为人类需要通过逐步推理完成的任务是端到端映射(从输入到输出到输出的函数),并通过与已知的映射关系匹配来完成任务。尽管这两个过程在解决问题的范围中具有很大的重叠,但不应忽略差异。如果我们坚持促进“推理”一词的应用范围,则还应说“大语言模型”可以推理,但不遵循任何逻辑”。有些人认为人工智能的逻辑与人类不同,但是为了说明这一点,有必要将其推理规则置于更基本的理性原则之上(例如“忠诚”和“适应”),我还没有看到这样的论点。并非所有解决问题的过程都可以称为“推理”。从直觉上讲,它需要逐步进行“推动”,每个步骤都必须是“合理的”。当然,这种“字面意义”不是一个定义,而是仅朗诵或查询解决问题的答案不能考虑推断,尽管这些答案可能是由上一代通过推理获得的。大型语言模型肯定不像记忆或查询那样简单,但是它们比传统对“推理”的理解要差得多,例如“逐渐根据合理的规则或模式从已知中产生答案”,这意味着它们难以解释或“无法解释或“仅是模式匹配”。对于实际应用,它们的“推理能力”足以满足某些需求,但根本不适合其他需求。特别是,我们不能认为这是实现智能系统的“推理”功能。即使是关于心理学推理的研究,也不能根据大语言模型的方法完全完成,更不用说逻辑和数学了。大型语言模型在这些学科中仍然很有用,但这是另一个目的(例如总结现有的研究结果)。这并不是说大型语言模型无法学*逻辑和数学知识。信息系统中的“知识”通常存在于两个层次上,通常称为“对象级知识”和“元级知识”。具体来说,在传统意义上,作为推理的前提和结论属于前者的知识,通常以陈述的形式添加,可以添加,删除和修改在系统操作期间,而推理规则中反映的知识属于后者,通常是以程序的形式,并且在系统操作过程中保持不变。在大型语言模型中,可以在训练期间进行调整的参数对应于对象知识,而完成此类调整的算法对应于元知识。与先前的讨论有关,可以说元知识基本上是固有的,而对象知识则是获得了。这两种知识可以相互影响,并在某种程度上相互替代或相互转化。我们可以基于这种逻辑学*逻辑和理由,但是这种获得的逻辑不能完全取代我们固有的“金属含量”,即人类推理活动中自然遵循的定律。即使没有接受过任何逻辑教育的人也对此逻辑有一般的了解。
另一方面,即使是逻辑学家和数学家也无法使用其理论知识(例如一阶谓词逻辑或概率理论)来完全调节其在日常生活中的推论活动。我们当然可以向大型语言模型教授任何一套逻辑,包括NASS遵循的那种逻辑,但这只是大语言模型的“对象知识”。它可以基于此回答查询,但不能完全调节其推理活动,就像人们可以记住某个理论一样,但不能总是使用它来指导行动。我们的经验会影响我们的思维活动,但无法确定其中的所有过程。主要原因是“元知识”的控制无法达到与“对象知识”相同的水平。同样,我们可以通过培训来教大型语言模型一组不同的学*算法,但是我们不能用它代替其固有的学*算法。即使我们无法按照自己的思维定律进行动作,为什么在我们设计的计算机系统中废除“对象知识”和“元知识”之间的区别?某些人工神经网络可以调整自己的学*算法,还是让NAS根据经验调整自己的推论规则?确实可以在一定程度上可以做到这一点,但这可能不是一个好主意(例如,它将破坏系统本身的一致性),也不能完全完成(例如,有必要通过依靠“元知识”来修改“元知识”)。由于该主题超出了本文的重点,因此不会进一步扩展。如果无法从自己的经验中总结智能系统的“固有逻辑”,那么这种元知识从何而来?尽管我认为可以设计智能系统,但这并不意味着我认为人类智能也是某些设计的结果。相反,在NASS中体现的“推理观点”(推断是概念上的替代,概念是经验片段的抽象,因此自适应系统可以利用过去的经验来通过推理解决当前情况下的问题)可以在动物智能中找到其原型。因此,智能系统的元知识可能来自设计和进化,但是我认为通过进化而不是设计它们比设计它们更可行(尽管值得考虑是一种补充手段)。 [6]中讨论了这个问题,因此我不会在这里谈论它。简而言之,我对大语言模型的基本评估与[3]中相同:它非常有用,但是它无法解决人工智能的基本问题,包括推理。参考文献[1] XAI陷入困境,Rosina O Weber等人,AI杂志,45:300-316,秋季2024 [2] GSM-Symbolic:了解大语言模型中数学推理的局限性Chatgpt及其继任者会成为通用人工智能吗? Wang Pei,《返朴》 2023年3月15日[4] AI是理性的,人类是非理性的,这真的是真的吗? Wang Pei,《返朴》 2021年7月14日[5]您在做什么逻辑? Wang Pei,《赛老师》 2016年8月10日[6] 《智能论纲要》,Wang Pei,上海科学技术教育出版社,2022年9月
资料来源:Budou编辑:Liang Jian