技术突�?/span> 2026-06-05

DeepMind 新论文：强化学习在复杂推理中的新范式

Google DeepMind 发表最新研究成果，提出结合强化学习与链式思维的新型训练方法�?/p>

Google DeepMind 近日�?Nature 发表重磅论文，展示了一种自主发现强化学习算法的新方法。该研究通过元学习（meta-learning）技术，让机器能够从大量复杂环境的累积经验中自动发现优于人工设计规则的强化学习算法�?/p>

研究背景

传统强化学习算法依赖人工设计，这在面对复杂任务时往往效率低下。DeepMind 团队提出了一种新范式：让 AI 自己发现最优的学习规则。这种方法模拟了人类和动物通过进化发现高效学习机制的过程�?/p>

该研究的核心是通过智能体群体在大量复杂环境中的经验积累，自动发现策略和预测的更新规则。在大规模实验中，发现的规则�?Atari 基准测试中超越了所有现有规则，并在未见过的挑战性基准上超越了多种最先进的强化学习算法�?/p>

"我们的发现表明，高级人工智能所需的强化学习算法可能很快就能从智能体的经验中自动发现，而不是手动设计�? —�?DeepMind 研究团队

返回新闻列表