
苹果正在研发一款名为Manzano的新图像模型,尽管尚未正式发布,但已通过预印本论文展示了一些初步成果。该模型兼具图像理解和生成能力,在内部测试中表现卓越。苹果认为,Manzano有潜力推动多模态AI的发展,但其能否减少对外部模型的依赖仍有待验证。
Manzano的研发进展与现状
目前,Manzano尚未正式发布,也没有提供演示Demo。只有一篇作者绝大多数为华人(包括已跳槽到Meta的庞若鸣)的预印本论文,展示了部分低分辨率图像样例,涵盖了较复杂的提示场景。
Manzano的功能特性与优势
Manzano的目标是同时具备图像理解和图像生成的能力。苹果指出,这种双重功能长期以来一直是技术挑战,许多开源模型在综合表现上落后于OpenAI和Google等商业系统。Manzano采用混合图像分词器,其共享编码器可以输出连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于这两种标记源自同一编码器,任务冲突显著减少。在与DeepSeek Janus Pro等AI模型的对比中,Manzano的表现不逊于OpenAI GPT-4o和谷歌的Gemini 2.5 Flash Image Generation。
Manzano的架构与训练
Manzano的整体架构包括混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为9亿、17.5亿和35.2亿,支持256像素至2048像素分辨率。训练过程分为三个阶段,使用23亿对图像-文本样本(来自公开和内部数据),以及10亿对文本-图像样本,总计处理1.6万亿标记。部分训练数据来自合成生成,如DALL-E3和ShareGPT-4o。
Manzano的测试表现
在内部测试中,Manzano在ScienceQA、MMMU和MathVista等基准上表现优异,特别是在图表和文档分析等文字密集型任务中,300亿参数版本的成绩尤为突出。扩展测试显示,模型性能随着规模的提升而持续改善,例如30亿参数版本在某些任务中的得分比最小模型高出10分以上。将统一模型与专业化系统进行对比,差距仅为个位数分值:在30亿参数版本中,差距不到1分。在图像生成测试中,Manzano同样表现出色,能够执行复杂指令、风格迁移、图像叠加与深度估计等任务。
Manzano的潜力与局限性
苹果认为,Manzano是现有模型的有力替代方案,其模块化设计支持各部分独立更新,并借鉴了不同研究领域的训练方法,有潜力推动未来多模态AI的发展。然而,目前苹果的基础模型整体仍落后于行业领先者。即使推出了新的端侧AI框架,苹果仍计划在iOS 26的Apple Intelligence中引入OpenAI GPT-5。Manzano虽然展示了技术上的进展,但其能否减少对外部模型的依赖,还需通过未来版本进一步验证。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...