联通数据智能有限公司重磅开源首个完全在国产昇腾AI基础软硬件平台上实现训练和推理的中文原生文生图模型——联通元景文生图模型,实现多项自主创新突破:
在架构上,通过在SDXL架构中融合复合语言编码模块,实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解,对应图像的生成效果得到了极大提升。
在昇腾AI大规模算力集群上,实现了中文原生文生图模型的训练和推理,并将模型和代码对业界开源,以推动文生图领域的国产化进程。
引入复合语言编码模块,支持中文长文本输入
在架构创新上,原始SDXL的语言编码器仅使用了英文CLIP模型,导致其一方面仅支持英文文本作为输入,另一方面在输入长度上也存在严重限制(最长77个token)。对此,元景文生图模型一方面将英文CLIP模型替换成中文CLIP,使得模型中文短文本输入具有更好的理解能力;同时,引入复合语言编码架构,将基于encoder-decoder架构的语言模型引入了语言编码器部分,这使得模型能支持超过CLIP长度限制的长文本,实现更准确的中文语义理解和判断。
元景中文文生图架构
引入海量中国图文训练和推理,支持中文特色图像生成
通过引入复合语言编码模块,元景文生图模型实现了原生中文语义理解,避免了传统的利用翻译插件等作为中介调用英文文生图模型的方法所带来的中文信息损失。同时通过引入海量中文图文对数据进行预训练,模型对中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,都能够准确理解并生成对应的高质量图片。
(在英文中均翻译成crane,易混淆)
(中文特色词汇)
|
|
支持国产全栈训推,打造数十个行业标杆案例
中国联通在国产昇腾AI基础软硬件平台上实现了元景文生图模型从微调训练到推理的一体化适配。在微调训练方面,用户可使用自定义数据集,实现从其它平台至昇腾的平滑切换;在模型推理方面,接口与Diffusers对齐,简单易用,支持单卡和多卡,单卡推理支持UNet Cache加速。
通过架构创新、中文原生语义支持、硬件适配等多项突破性成果,联通元景中文文生图模型为广大开发者提供了研发中文定制文生图模型和应用的全栈支持。该模型已在联通的多个内外部项目中赋能文创、服装、工业设计等诸多领域,支撑了中华器灵、服装大模型等数十个行业标杆案例,在生成和设计领域为企业降本增效贡献重要力量,并在全球数字经济大会、“数据要素X”大赛、白塔杯等赛事中获奖。
联通元景文生图模型赋能服装设计
联通元景文生图模型赋能文物活化
联通元景文生图模型在全球数字经济大会上获奖
中国联通积极布局战略性新兴产业和未来产业,落实“人工智能+”行动,依托算网基础设施与全国渠道覆盖优势,开展大模型基础和共性能力研发,构建元景“1+1+M”大模型体系。在基础大模型方面,已布局语言、多模态、视觉、语音等多类模型,形成一套自主可控、模态丰富、性能先进、性价比高、安全可信的元景基础模型,集约化赋能千行百业模型和应用打造,助力实体经济高质量发展。
未来,中国联通将在生成式人工智能技术上不断创新,升级模型能力,深化与国产算力的合作,为企业提供更多、更好、更智能的信息服务,持续推动国内人工智能和AIGC的国产化、智能化发展。
目前,元景文生图模型已在GitHub、Hugging Face、魔搭、始智等社区全面开源
联通你我
本文作者可以追加内容哦 !