每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Optimizers Qualitatively Alter Solutions And We Should Leverage This
2025年07月16日
由于深度神经网络(DNNs)的非线性特性,当使用仅依赖局部信息的优化器(如SGD)时,无法保证收敛到损失函数唯一的全局最小值。事实上,在该领域发展的早期,这曾是人们质疑DNNs可行性的主要原因之一。过去几十年深度学习的发展表明这种怀疑并不恰当,并且大量实证证据显示,遵循标准训练协议的足够大的DNN能够展现出良好的优化动态行为,并最终收敛到性能优异的解。 这一成功使研究社区倾向于将凸优化作为理解学习过程的心理模型,导致在改进优化器时的关注重点放在训练效率方面,比如所需的迭代次数、计算量(FLOPs)或实际运行时间。我们认为,尽管这种视角带来了极大的成果,但还有一个专属于DNN的独特视角却未受到足够重视:优化器不仅影响收敛速度,还会影响所学解的性质。换句话说,优化器会引入归纳偏置,并改变给定模型类别的实际表达能力。此外,我们相信优化器可以成为在学习过程中编码设计目标的一种有效方式。 因此,我们主张社区应致力于理解现有方法所带有的偏置,并且应以明确诱导解的特定性质为目标来构建新的优化器,而不仅仅依据其收敛速度来评判优化器的优劣。我们希望我们的观点能够激发相关研究,增进我们对学习过程如何影响最终收敛解类型的理解,并促使人们更广泛地认识到:优化器的设计是塑造模型结果的重要手段,它与架构和数据共同发挥作用,是一个不可或缺的关键杠杆。
430
热度
PDF
解读
Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
2024年10月27日
链式思维(CoT)提示已成为与大型语言和多模态模型交互的广泛使用策略。尽管研究表明CoT在许多任务中可以提高性能,但确定其有效性的场景仍是一个持续的努力。特别是,CoT在哪些情况下系统性地降低模型性能仍然是一个开放的问题。在这篇论文中,我们试图通过借鉴认知心理学,识别出CoT降低性能的任务特征,具体来看以下两种情况:(i) 人类在口头思考或深思熟虑时表现受损的情况,以及 (ii) 影响人类表现的约束条件是否适用于语言模型。我们研究了三种这样的情况:隐式统计学习、视觉识别和处理包含例外模式的分类任务。在所有这三种设置的广泛实验中,我们发现一系列最先进的模型在使用推理时的表现显著下降(例如,OpenAI o1-preview相比GPT-4o的绝对准确率下降了高达36.3%)。我们还识别了三个满足条件(i)但不满足条件(ii)的任务,并发现在这些任务中,虽然口头思考会降低人类的表现,但CoT保留或提高了模型的表现。总体而言,我们的结果表明,尽管模型的认知过程与人类的认知过程并不完全平行,但考虑那些思考对人类表现产生负面影响的情况,可以帮助我们识别出思考对模型表现产生负面影响的场景。通过将关于人类深思熟虑的文献与CoT评估联系起来,我们提供了一个新的工具,可用于理解提示选择和推理时思考的影响。
124
热度
PDF
解读