谷歌AI惊现造假能力!Veo-3模型可生成逼真手术视频引担忧

Veo-3医学测试:当“视觉幻觉”掩盖AI认知短板

近日,国际研究团队对谷歌最新视频生成模型Veo-3展开医学场景测试。结果显示,该模型虽能合成清晰逼真的手术画面,却在医学逻辑理解上暴露出深层缺陷,提示当前AI视频生成技术仍难支撑医学培训的安全应用。

SurgVeo评测揭示“智能错觉”

研究者以50段真实腹腔与脑部手术录像为样本,构建了“SurgVeo”基准体系。测试中仅向Veo-3输入单帧手术图像,让其预测未来8秒手术进展。四位外科专家从四个维度对生成视频打分——包括视觉真实度、器械操作合理性、组织反馈表现及手术逻辑。
Veo-3在前1秒的视觉真实性评分达3.72分,部分医生称其画面“几乎可乱真”,但在操作逻辑上得分仅1.61分。尤其在脑外科场景中,模型无法维持医学动作连贯性,器械使用得分跌至2.77分,最终逻辑得分仅1.13分。

模型缺乏医学语义理解,九成错误源于逻辑失真

错误分析表明,超过93%的问题来自模型的“医学幻觉”。它会凭空创造手术器械、捏造组织反应,甚至进行违背生理规律的“手术动作”。
研究者尝试通过补充背景信息或手术阶段提示来改善模型表现,但效果有限。原因在于:Veo-3并不具备医学推理能力,只能模仿视觉变化,而非理解操作因果。

警示:AI医学视频生成不能替代临床知识

研究指出,AI生成视频的“逼真”是一种表象,而非知识的体现。若未经验证的视频被用于手术培训或机器人学习,可能导致严重误导。
医学领域的AI应用需要在科学监管与伦理框架内推进,防止“技术幻觉”掩盖风险。正如研究团队所言,“当前将视频模型视为‘世界模型’的设想仍过于超前”,现阶段AI仅能再现运动表象,却无法掌握解剖、生理与操作逻辑。

推动开源协作,迈向AI医学理解

团队计划将SurgVeo数据集公开,鼓励全球科研机构共建AI医学评测体系,以推动视频生成模型的安全演化。
这项研究再次提醒:人工智能要从“看起来聪明”迈向“真正懂医学”,不仅需要算法突破,更需知识注入与伦理约束。科技发展唯有在安全与责任的轨道上前行,方能造福生命健康。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...