更新时间:2025-05-17 19:49作者:佚名
机器心脏报告
编辑:+0最近,Meta的首席AI科学家和图灵奖得主Lecun在纽约大学的同事Kyunghyun Cho转发了一篇文章:这是关于教授的教学大纲和2025年机器学*年度研究生课程的讲义。
Handout address: https://arxiv.org/abs/2505.03861 Teaching outline: https://docs.google.com/document/d/1OngR25IMEM5bJ458J8z4OCnTFG87KJ5ihgWojU1DD64 This course focuses on basic machine learning algorithms with stochastic gradient descent (SGD) as the core, and故意避免大型语言模型(LLM)内容。同时,鼓励学生在现场深入研究经典论文,并追溯机器学*的理论发展背景。在这个时代,每个人都关注LLM时,这种课程设计乍一看似乎很特别。但是,要比较其他大学的课程,将发现,主要大学研究生的机器学*课程通常仍以基本理论和经典模式为中心。例如,斯坦福CS229是一门经典的基本机器学*课程。在2025年冬季课程的介绍中,该课程系统地教授基本模型和方法,包括线性回归,逻辑回归,SVM,神经网络,聚类,降低维度降低,EM算法等,强调数学推导和优化的思想,并广泛用于跨层面研究中。

麻省理工学院的6.790课程是其研究生阶段的核心机器学*课程,以前称为6.867,已更新为6.7900。该课程从概率建模和统计推理的角度强调了对机器学*方法的深刻理解,适合那些希望在理论与实践之间建立牢固联系的学生。
Tsinghua电子部的研究生课程还拥有核心理论课程,例如《机器学*》和《统计推断理论和方法》。
最新的LLM内容主要出现在特殊的选修课程中,例如Stanford University CS25: Transformers United,这是一门针对LLM和Transformer Architecture的研究课程。有关详细信息,请参阅Machine Heart Report 《OpenAI、谷歌等一线大模型科学家公开课,斯坦福 CS 25 春季上新!》。可以看出,教育社区通常认为基础教学可以帮助学生的长期发展。 Cho引用了萨顿(Sutton)在撰写讲义时的“痛苦课程”,强调普遍的可扩展方法(例如SGD为核心)比特定的体系结构更为重要。他故意省略了复杂的系统(例如LLM),并专注于历史上的成熟耗时和数学直觉,认为“一个学期不足以渗透所有主题”,因此他只能首先奠定坚实的基础。此外,Cho在他的博客中提到,在2010年至2015年之间,深度学*尚不流行,许多ML课程仅简要提及神经网络。如今,通过强调经典方法和阅读经典论文,学生可以理解知识的来源和发展并培养批判性思维能力。总体而言,以基本为导向的教学使学生能够掌握算法背后的数学原理和优化方法,而不是“盲目应用”最新模型。
理论与实践,但我们无法逃脱的一个问题是:大学培训机制(尤其是研究生/博士教育)强调基础,原理和科学研究能力,而实际的工作环境通常需要快速响应,工程实施和产品迭代能力,尤其是在行业中。在某些情况下,对“必须理解深度原则”的盲目强调似乎确实有些“为什么不吃肉被切碎”。 “如何甚至不引起注意Q/k/v向量的情况下调整模型?”现实可能是:“我只想学*一种微调技术,并用骆驼编写客户服务机器人。”许多大学还积极探索解决方案。为了弥补科学研究和工程能力之间的断开连接,许多学校已经启动了“桥接”课程或实践项目。例如,基于CS229等理论课程,斯坦福大学还特别建立了CS329S 《机器学*系统设计》实用课程。本课程着重于如何构建实际上可部署,稳定和可扩展的机器学*系统,包括数据处理,功能提取,模型启动和监视。
CMU的机器学*博士生必须参加10-718 《机器学*实践》课程。在本课程中,学生需要完成学期项目,以从头到尾构建和部署完整的机器学*系统。该课程描述清楚地表明,学生将通过项目学*来处理实际场景中的数据问题,并掌握从清理原始数据到模型的最终启动的完整过程技能。
国内大学也开始关注实践教学。 Tsinghua大学电子系与企业合作,提供了许多实用课程,例如“大数据技术的应用和实践”,“高级机器学*”和“智能制造”等,将行业实践案例和编程实践引入教学过程中。
为什么高校仍然沉迷于“缓慢的工作”?在当今快速的技术发展的背景下,许多大学仍然强调“奠定坚实的基础并追求深刻的理解”,这不仅仅是“团结”。真正的技术能力不仅在于“知道如何使用工具”或“能够运行模型”,还在于理解方法背后的原理以及在面对新问题和新技术时独立分析,判断和创建的能力。在一篇文章中,NG曾经解释了通过个人经验不断学*基础知识的重要性。他强调,“基本知识可靠,及时更新是成为一名高产的机器学*工程师的关键”。
文章链接:https://www.deeplearning.ai/the-batch/issue-146/
这个概念的核心在于“抵抗改变”。从CNN到变压器再到LLM和多模式系统,技术趋势迅速更新,每个步骤都可能破坏现有的工程范式。为了适应这些变化,我们不能仅仅追求热门话题,而需要深入掌握诸如优化,概括和代表性学*之类的基本理论。只有了解“为什么设计是这样”和“背后的假设是什么”,我们才能在面对新技术时避免混乱。
此外,深层基础是科学研究和技术创新的起点。科学研究不仅在于调整参数或复制论文,还涉及提出问题,构建假设和设计新方法。这与坚实的数学工具,严格的逻辑培训和经典作品的积累是密不可分的。基本课程不仅培养知识点,还培养抽象思维和批判性思维能力。深度学*和图灵奖获得者的教父杰弗里·辛顿(Geoffrey Hinton)在接受麻省理工学院技术评论的采访时指出,这是对基本算法的长期持久性和深入研究,促进了深度学*的突破。 “我们花了数十年的时间来实现神经网络的基本原理,直到2010年代我们才真正爆发了应用程序的爆炸。对基本知识的积累和理解是AI领域每个主要进步的基础。”当然,这种教育道路并不忽略实践,而是强调真正的实践权力应该基于理解。您不仅应该知道如何使用工具,而且还应该了解来源和出口,适用的界限和改进方向。因此,“找工作”和“奠定基础”不是多项选择的问题,而是时间维度的权衡。在短期内,工具技能可以导致直接的工作匹配;但是从长远来看,基本功能是超越技术周期并继续增长的“护城河”。
现在,课程讲义让我们回顾一下这100页的PDF课程讲义,该课程为机器学*提供了全面的介绍,涵盖了基本概念和现代技术,而感兴趣的读者可以阅读原始文本。
每章的结构和内容总结如下:第1章:能量概念的能量功能介绍是机器学*中统一的主题。解释如何将不同的机器学*范式(监督学*,无监督的学*,分类,聚类等)构造为最小化的能量功能。讨论潜在变量和正则化在定义和学*能量功能中的作用。第2章:机器学*中的基本分类思想涵盖了基本分类算法,包括感知,边际损失,软磁性和跨熵损失。解释分类器培训中的反向传播,重点是线性和非线性能量函数。讨论了随机梯度下降(SGD)和自适应学*率优化方法。涉及概括和模型选择,包括偏置方差权衡和高参数调整。第3章:神经网络的基本构建块探索了神经网络体系结构中常用的构建块。讨论了归一化技术(分批归一化,层归一化)。引入了卷积块,圆形块和注意机制。引入了退化和不变性的概念,例如神经网络中的排列量。第4章:概率机器学*和无监督的学*解释了如何从概率角度解释能量功能。涵盖了变异推理和高斯混合模型。讨论了连续的潜在变量模型和变异自动编码器(VAE)。引入了重要性抽样及其方差。第5章:无方向的生成模型探索了无方向的生成模型,重点是受限制的玻尔兹曼机器(RBMS)和专家产品(POE)。讨论Markov链蒙特卡洛(MCMC)方法,以从RBMS进行抽样。引入基于能量的生成对抗网络(EBGANS)。涵盖自回归模型。第6章:进一步的主题概述了机器学*中的几个高级主题。讨论了一步强化学*和多步强化学*。探索了集成方法(包装方法,提升方法)和贝叶斯机器学*。元学*简介。探索混合密度网络和因果关系。
经典论文
最后,让我们看一下Cho提到的经典论文,其中一部分是在这里摘录的。
"Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning" ——Ronald J. Williams Paper Address: https://link.springer.com/article/10.1007/BF00992696 This paper proposes the REINFORCE algorithm, a reinforcement learning method based on strategy gradients, used to train connectivist models (such as neural networks).该算法通过直接优化预期的奖励,为现代政策梯度方法奠定了基础。
“有效的反向Prop” —— Yann Lecun,Leon Bottou,Genevieve B. Orr,Klaus-RobertMller(重点介绍第4节)论文地址:3https://link.springer.com/chapter/10.1007/978-3-3-3-642-642-642-35289-8_3初始化,激活功能选择等。第4节特别讨论了有效培训神经网络的实用方法。
“通过最小化对比性差异来培训专家的培训产品” —— Geoffrey Hinton纸张地址:3https://www.cs.toronto.edu/~hinton/~hinton/Absps/NCCD.PDF提出了对比度分歧(CD)algorithm,用于训练aLgorithm,以训练boltzmann Machine(RBM)和专家(RBM)。这是深度学*复兴之前的重要工作,并为随后的深度信仰网络(DBN)奠定了基础。
“自动编码变分贝叶斯” ——d。 Kingma,M。Welling Paper地址:https://arxiv.org/abs/1312.6114提出了一个变异自动编码器(VAE),以通过变异贝叶斯方法实现有效的生成模型训练。 VAE结合了神经网络和概率建模,成为生成模型领域的里程碑。
——Chelsea Finn,Pieter Abbeel,Sergey Levine纸质地址:——Chelsea Finn,3https://ARXIV.org/abs/1703.03400 MAML(与Meta-lemera-lymet node sop a a a a a a abbee a a abbeel a abbeel)样品。 MAML在几乎没有学*的领域是开创性的。有关更多详细信息,请参阅原始讲义和教学大纲。