中文文本生成技术大突破:国产昇腾AI平台引领下一代智能生成新时代
1月8日,联通数据智能有限公司今天宣布,在国产昇腾AI基础软硬件平台上完成了首个中文原生文生图模型——元景文生图模型的训练和推理,并决定将其开源。
在架构上,通过在SDXL架构中嵌入复合语言编码模块,实现了对中文长文本、多属性关联以及中文特有词汇的精准语义解析,从而显著提升了所生成图像的效果。
在昇腾 AI 大规模算力集群上实现了中文原生文生图模型的训练和推理,并将模型和代码对业界开源,以推动文生图领域的国产化进程。
联通数据智能有限公司指出,目前主流的文生图模型主要针对英文输入进行优化,而中文原生的文生图模型的研发进展较为缓慢,这使得这些模型在理解中文语义方面的能力较弱,生成具有中文特色的图片也存在局限性。
对此,元景文生图模型一方面将英文 CLIP 模型替换成中文 CLIP,使得模型中文短文本输入具有更好的理解能力;同时,引入复合语言编码架构,将基于 encoder-decoder 架构的语言模型引入了语言编码器部分,这使得模型能支持超过 CLIP 长度限制的长文本,实现更准确的中文语义理解和判断。
通过引入复合语言编码模块,元景文生图模型实现了对中文语义的直接理解,从而规避了以往借助翻译插件等中介方式调用英文文生图模型时导致的中文信息丢失问题。
通过引入大量的中文图文对数据进行预训练,该模型能够精准理解中文特有的词汇,例如“鼠标”与“老鼠”、“仙鹤”与“吊车”等英文模型容易混淆的概念,以及中文菜谱中的专有名词等,英文模型通常难以理解这些内容,但该模型可以准确理解并生成相应的图片。
中国联通在国产昇腾AI基础软硬件平台上成功实现了元景文生图模型从微调训练到推理的一体化适配。在微调训练方面,用户可以利用自定义数据集,实现从其他平台到昇腾的无缝迁移;在模型推理方面,接口与Diffusers保持一致,支持单卡和多卡模式,单卡推理还支持UNetCache加速功能。
联通数据智能有限公司宣布,当前,元景文生图模型已在联通内部及外部的多个项目中实现成功应用。
目前,元景文生图模型已经在GitHub、HuggingFace、魔搭、始智等多个社区全面开源。这一举措无疑为开发者和研究者们提供了极大的便利。开源不仅能够促进技术的交流与共享,还能够加速相关领域的创新和发展。这个模型的开放对于推动人工智能在图像生成方面的进步具有重要意义。 该模型的开源使得更多人可以参与到这一前沿技术的研究中来,有助于构建更加丰富和多元的应用场景。同时,这也反映出当前开源文化在科技领域的重要性日益增加,越来越多的企业和机构开始重视通过开源方式促进技术和知识的传播。这对于整个行业的健康发展来说是一个积极的信号。
GitHub:https://github.com/UnicomAI/UniT2IXL.git
HuggingFace:https://huggingface.co/UnicomAI/UniT2IXL
魔搭:https://www.modelscope.cn/UnicomAI/UniT2IXL.git
始智:https://wisemodel.cn/models/UnicomAI/UniT2IXL
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.010323秒