
中国公司DeepSeek日前在国际权威期刊《自然》上发表了其开源大语言模型DeepSeek-R1的训练方法。这一方法以大规模推理模型为核心,首次尝试完全依托强化学习来增强大模型推理能力,从而显著减少人类输入工作量。研究结果表明,经过该方法训练的模型在多项测试中超过传统方式培养的大语言模型,但专家也提醒DeepSeek-R1在现阶段仍有改进空间。
科研成果登上《自然》,展示创新实力
作为国内专注于人工智能和大语言模型研发的前沿力量,DeepSeek(深度求索)在今年发布了开源模型DeepSeek-R1。北京时间9月17日晚,其团队的研究成果登上《自然》。论文通讯作者、创始人梁文锋表示,该方法为提升人工智能推理能力提供了新思路,证明了强化学习可在减少人类干预的同时增强大模型表现。
任务测试突出,成绩领先传统模型
通过该方法训练的DeepSeek-R1及其零样本版本,在数学、编程竞赛和研究生水平的STEM问题测试中均展现领先优势。在数学基准测试中,DeepSeek-R1-Zero与DeepSeek-R1的得分分别达到77.9%和79.8%,显著超越常规模型。此外,在物理、生物及化学领域的复杂任务中,模型同样交出亮眼答卷。
训练机制独特,简化成本与流程
与传统方法不同,DeepSeek-R1依靠强化学习生成推理路径,而非依赖人工示例。团队介绍,模型在接触优质问题案例后,会形成推理框架,并通过问题求解获得奖励信号,进而不断优化自身。这种方式有效降低了训练的成本与复杂度,为后续大规模应用提供了可能。
国际评论客观,未来研究方向清晰
《自然》同期发布的“新闻与观点”文章指出,DeepSeek-R1目前仍存在局限,包括对提示词工程的依赖较强、仅对中英文进行优化、在软件工程等任务上未展现明显优势。DeepSeek团队回应称,未来将着力改进奖励机制,以确保模型的推理能力和结果稳定性进一步提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...