DeepMind 新论文:强化学习在复杂推理中的新范式
Google DeepMind 发表最新研究成果,提出结合强化学习与链式思维的新型训练方法?/p>
Google DeepMind 近日?Nature 发表重磅论文,展示了一种自主发现强化学习算法的新方法。该研究通过元学习(meta-learning)技术,让机器能够从大量复杂环境的累积经验中自动发现优于人工设计规则的强化学习算法?/p>
研究背景
传统强化学习算法依赖人工设计,这在面对复杂任务时往往效率低下。DeepMind 团队提出了一种新范式:让 AI 自己发现最优的学习规则。这种方法模拟了人类和动物通过进化发现高效学习机制的过程?/p>
核心突破
该研究的核心是通过智能体群体在大量复杂环境中的经验积累,自动发现策略和预测的更新规则。在大规模实验中,发现的规则?Atari 基准测试中超越了所有现有规则,并在未见过的挑战性基准上超越了多种最先进的强化学习算法?/p>
"我们的发现表明,高级人工智能所需的强化学习算法可能很快就能从智能体的经验中自动发现,而不是手动设计? —?DeepMind 研究团队
技术细?/h2>
研究团队采用了以下关键技术创新:
- 元学习框?/strong>:让智能体群体在多样化的环境中学习,积累跨任务的经验
- 自动算法发现:通过进化和优化方法,自动搜索最优的更新规则
- 大规模并行训?/strong>:利用数千个并行环境加速学习过?/li>
- 泛化能力验证:在未见过的任务上验证发现算法的泛化性能
相关研究进展
同期,还有多项强化学习领域的重要研究发布。其中一项关于小?LLM 推理能力的研究表明,通过 Group Relative Policy Optimization (GRPO) 算法和精心策划的数学推理数据集,仅用 4 ?NVIDIA A40 GPU ?24 小时内训练的 1.5B 参数模型,就能在 AMC23 上将准确率从 63% 提升?80%,在 AIME24 上达?46.7%,超越了 o1-preview 的表现?/p>
行业影响
这一突破?AI 行业具有深远影响?/p>
- 降低研发门槛:自动发现算法减少了人工设计的需?/li>
- 加速创新周?/strong>:AI 可以更快地发现新的学习方?/li>
- 提升模型性能:自动优化的算法往往优于人工设计
- 推动通用智能:为 AGI 研究提供了新思路
未来展望
DeepMind 表示,这项研究是迈向自动算法发现的重要一步。未来将继续探索更复杂的环境和更高级的任务,验证这一方法的适用范围。同时,团队计划开源部分代码和数据集,推动整个领域的共同发展?/p>