
近日,非营利机构FutureHouse正式推出AI超级科学家系统“科斯莫斯”,迅速成为科研界和产业界关注的焦点。这套系统在12小时内可完成相当于研究团队半年才能积累的科研任务,准确率达到79.4%,并凭借七项重要发现迈入商业化应用阶段。与此同时,它也引发了舆论争议,并对现行AI评估体系提出新课题。
科研性能跃升,“科斯莫斯”展现强大算力优势
相较于FutureHouse早期的AI科研工具“罗宾”在数据规模处理上的不足,“科斯莫斯”借助“结构化世界模型”实现关键突破,能够同时整合数百个智能体轨迹,形成动态演化的知识框架。其自主循环系统可同步执行任务、更新知识图谱并规划研究进程。数据显示,它一次运行可完成166轮数据处理、36次文献链更新,在12小时内阅读约1500篇论文,自动生成并执行4.2万行分析代码,最终产出具备可审查性的科研报告。实测表明,它半天完成的内容相当于科研人员六个月的工作成绩,准确率维持在79.4%,综合效能领先现有AI系统。
七项前沿成果落地,商业化路径全面铺开
目前,“科斯莫斯”已与多家科研机构合作,并在神经科学、材料科学、统计遗传学等方向取得七项实质性进展。系统不仅复现了三项未正式发表的研究成果,如核苷酸代谢在低温脑活动中的作用、钙钛矿太阳能电池的失效阈值;同时在四个领域取得原创突破,包括心肌纤维化的关键证据和2型糖尿病风险机制的新线索。随着成果积累,FutureHouse正式宣布商业化,每次运行约200美元;学术机构可申请免费额度,创始用户还能以1美元/积分的价格体验,未来价格将随算力成本变动。
深度科研平台特点鲜明,使用门槛更高
“科斯莫斯”的使用方式区别于传统问答型AI,它是一套覆盖科研流程的深度交互式平台。用户需掌握结构化提示方法,明确研究目的、数据路径与分析模式,方能释放系统潜能。由于其探索过程非线性显著,约三成运行会陷入局部最优,难以产出高价值结果。因此FutureHouse建议用户在核心课题上进行3至5次并行运行,并通过交叉验证寻求最优科研路径。
能力验证坚实,传统AI测试体系难以适配
在研发阶段,研究人员发现“科斯莫斯”单次运行的科研产出相当于博士或博士后六个月的工作量,而且产能会随运行深度增长。团队邀请测试学者评估人工完成相同内容的耗时,七名科学家平均给出的结果为6.14个月。此外,其复现的三项成果,原研究平均耗时四个月,而系统的整体工作量相当于研究者4.1个月的全职投入。这些数据表明,当前依赖简单任务耗时作为指标的AI评估体系,已无法衡量复杂科研任务中的智能系统能力,构建新型评估框架刻不容缓。
网络讨论激烈,观点呈现积极与审慎并存
“科斯莫斯”发布后,许多网友将其视为“AI科研应用的最佳示例”,认为它将推动人类与智能体的协同创新进入新阶段,助力知识体系持续拓展。然而,也有声音认为,要称为“AI科学家”,系统必须在从理论推演到实验验证的完整链条上交出更具说服力的成果,未来科研类AI需要更加务实、更加扎实。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
没有相关内容!
暂无评论...





