
开源动作引发行业关注
美团LongCat团队近日宣布开源全新图像生成模型 LongCat-Image。这一动作让开源图像生成领域再次出现“6B 参数规模能否挑战大模型”的讨论。LongCat-Image以紧凑架构为基础,通过训练策略和数据工程的融合,实现了文生图、图像编辑两项核心能力的全面提升,成为当前开源体系中颇具竞争力的作品。
技术进展:统一架构带来的协同优势
LongCat-Image采用文生图与图像编辑同源架构,通过渐进式学习策略,使模型在指令遵循、内容生成与文字渲染之间做到协同优化。特别是在图像编辑任务中,模型对局部结构、光影变化与细节纹理的把控更加可控、稳定。这一表现来自团队构建的成体系训练范式,使模型在保持参数规模紧凑的同时,具备高精度视觉理解与编辑能力。
用户侧产品同步升级:LongCat APP增加更多创作可能
面向终端用户的 LongCat APP 同步迎来更新,上线图生图功能和 24 款零门槛模板。用户通过简单的提示词或示例图像,即可完成海报设计、形象生成、人像修图等专业内容。在“人人都能创作”的趋势下,这一版本更新进一步降低了 AI 创作的整体门槛。
性能测试中的亮眼成绩
在国际常用的图像编辑测试集 GEdit-Bench、ImgEdit-Bench 中,LongCat-Image均达到开源SOTA。其文字渲染能力通过课程学习策略实现突破,在ChineseWord评测中获得90.7分,领先所有参评模型。
在文生图能力上,模型在 GenEval、DPG-Bench 中取得 0.87 和 86.8 的成绩,在大规模主观评分中,其真实度与文本对齐质量同样表现强劲。虽然在与部分商业闭源模型的对比中尚存在差距,但其在开源体系内的领先地位已得到验证。
开源生态意义:平衡性能与可获取性的范例
LongCat-Image的推出进一步丰富了中型参数量模型的选择,为开发者、研究者提供了更高性价比的基础模型。此外,LongCat APP 的升级,使美团在模型研发与应用落地之间形成了更紧密的联动。未来,LongCat 体系或将成为开源模型生态中具有示范意义的案例,为AI图像生成在研发效率和用户体验上的同步提升提供新的路径。
© 版权声明
本内容由 AI 生成,仅供参考,不构成新闻报道。
相关文章
暂无评论...





