当前位置:主页 > 业界 > 正文

Skywork UniPic开源了!从零预训练打造生成、理解和编辑一体化模型,生图效果达SOTA

发布时间:2025-07-30 已有: 位 网友关注

  」,在单一模型中深度融合图像理解、文本到图像生成、图像

  秉持开放协作、共享创新的理念,昆仑万维面向社区全面开放 Skywork UniPic 的核心资源:

  01 Skywork UniPic:统一自回归模型实现生成、

  GPT-4o的迅速走红,标注着人工智能领域多模态统一预训练模型的成熟。Skywork UniPic 延续了 GPT-4o 的自回归范式,在单一模型中深度融合图像理解、文本生成图像与图像

  传统多模态统一模型多依赖 VQ 或 VAE 编码器来压缩

  为此,SkyworkUniPic 团队借鉴 Harmon 架构设计,并在表征方式上做出关键调整:采用 MAR 编码器作为图像生成路径的

  该结构设计的核心洞察在于:能否构建一个轻量级统一模型,在保持实际部署可行性的同时,在理解、生成与

  图文理解:基于 token 预测完成文本的自回归建模

  图像生成:采用掩码自回归方式,逐步生成图像 patch

  图像

  此外,Skywork-UniPic完成端到端优化流程,能够实现生成、理解、

  这一架构设计不仅保持了自回归模型的简洁高效,更通过共享编码器实现了跨任务的深度协同,为多模态统一模型的实用化部署奠定了坚实基础。

  用户只需要输入提示词,Skywork-UniPic 既可以像 VLM 一样理解图像、像 T2I 模型一样生成,还可以像美图工具一样,一键实现风格转绘/吉卜力化的

  02 模型优势:1.5B 轻量级规模性能逼近同类大参数统一模型,诠释了“小而美”的技术美学

  团队在追求模型能力极限的同时,也坚持效率重要性的设计理念。Skywork UniPic 以 1.5B 的紧凑参数规模,真正诠释了“小而美”的技术美学:术亮点

  指令遵循能力媲美大型模型:在 GenEval 指令遵循评估中取得 0.86 的优异成绩,超越了绝大多数同类统一模型,在无 CoT 的情况下取得了 SOTA 分数,逼近较大模型 BAGEL带 CoT 的 0.88 分;

  复杂指令生图能力领先:在 DPG-Bench 复杂指令生图基准上达到 85.5 分的行业 SOTA 水平;

  参数效率优势显著:相比同类大参数统一模型,Skywork UniPic 以 1.5B 的轻量级规模实现了接近甚至超越大参数模型的性能表现;

  部署友好,真正可落地:模型在 RTX 4090 消费级显卡上均可流畅运行,为广大开发者和研究者提供了真正可落,地的统一模型解决方案,大幅降低了技术应用门槛。

  数据构建:亿级高质量语料库支撑统一模型预训练

  首先,SkyworkUniPic 的卓越性能,并非源自数据堆叠的蛮力,而是得益于一套高度精炼、系统优化的数据构建体系。

  团队突破了“更大即更强”的传统认知边界,通过约亿级规模的精选预训练语料与数百万级任务精调样本,成功构建出一套面向理解、生成与

  这一构建体系产生的语料库不仅显著压缩了训练资源成本,更在模型泛化能力与任务迁移表现上展现出惊人的性价比,充分验证了小规模、精筛选、高质量数据对统一多模态模型训练的可行性与潜力。

  奖励模型构建:数据质量驱动的智能评估体系

  其中,Skywork-ImgReward是基于强化学习训练的Reward Model,相比于其他T2I Reward Model,Skywork-ImgReward在多个文生图场景下的偏好选择表现都更接近人类偏好。它不仅被用来作为文生图数据质量的筛选,也可以在后续被用于图像生成能力强化学习训练中的奖励信号,以及作为生成图像的质量评估指标。

  同时面对图像

  训练体系优化与策略提升

  MAR训练优化体系:为提升模型表现,我们采用了两项关键优化策略:首先,在数据层面引入覆盖更广

  HARMON训练优化体系:为进一步提升模型性能并兼顾训练效率,我们设计了多阶段分层分辨率训练机制。在第一阶段,模型在512×512分辨率下进行微调,聚焦基础特征提取的稳定性与收敛性。随后逐步提升输入分辨率至1024×1024,促使模型更好地捕捉纹理、边缘等高精度细节信息。

  同时,我们采用分阶段参数解冻策略,逐步释放模型能力。在初始阶段,仅训练Projector模块以实现

  渐进式多任务训练策略:为解决理解、生成和

  训练初期,模型先专注于单一任务,待其收敛后再引入理解与

  整体来看,以上策略在训练过程中实现了结构合理的能力释放和任务适应,显著提升了模型在理解、生成和

  过去半年,昆仑万维已经开源了多个SOTA大模型,涵盖奖励模型、推理、软件工程、多模态、空间智能等领域。今天,Skywork-UniPic正式加入开源大家庭,让AI真正成为每个人触手可及的创意伙伴。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。