巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

同板块主题的 前一篇 同板块主题的 后一篇
开启左侧
查看: 97|回复: 0
1# 贡嘎山
跳转到指定楼层
 尖山 发表于: 2024-5-27 02:22:08|只看该作者回帖奖励|倒序浏览|阅读模式

[2023年腾讯混元文生图大模型 全面开源

 [复制链接]
  : 媒体滚动
  科技日报讯(记者:崔爽)记者5月25日获悉,腾讯近日宣布旗下混元文生图大模型全面升级,并对外开源。
  这是业内首个中文原生的DiT架构文生图开源模型,具备原生中文理解能力和双语编码能力,参数量15亿。此次开源的模型包含模型权重、推理代码、模型算法等完整模型,供企业与个人开发者免费商用,目前已在专注于自然语言处理的开源机器学习平台HuggingFace及面向软件开发者的代码托管平台Github上发布。
  腾讯混元文生图技术负责人芦清林介绍,升级后的混元文生图大模型采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为文生视频等多模态视觉生成的基础。
  过去,视觉生成扩散模型主要基于U-Net架构。随着模型参数量增加,DiT架构展现出更好的扩展性,有助于提升模型生成质量和效率。
  记者了解到,混元文生图大模型是业界最早探索并将大语言模型结合DiT架构的文生图模型之一。2023年7月,腾讯混元文生图团队明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型全面升级为DiT架构。
  评测数据显示,最新腾讯混元文生图模型效果相比前代提升超20%,远超开源的StableDiffusion模型。
  目前,主流文生图开源生态基本围绕英文建设,StableDiffusion等主流开源模型虽一定程度支持中文输入,但其核心数据集仍以英文为主。建设中文原生大模型以及相应的开源生态对国内大模型产业有重要意义。
  混元文生图大模型以中文原生为基础,支持中英文双语输入及理解。其文生图能力已被广泛用于素材创作、商品合成、游戏出图等业务场景。
  “腾讯混元文生图大模型的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源,是希望与行业共享实践经验和研究成果,加速大模型行业发展。”芦清林表示,目前开源的混元文生图大模型版本,也是腾讯内部正在使用的版本。基于该模型,开发者和企业无需从头训练,可直接将其用于推理,并可打造专属的AI绘画应用及服务。
  此外,目前文生图开源社区主要还是以StableDiffusion等为主的英文开源社区。混元文生图大模型的开源,将丰富以中文为主的文生图开源生态,推动中文文生图技术研发和应用。
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 尖山 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 尖山 的书面同意;
  4. 本帖子由 尖山 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,尖山 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 尖山 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 尖山 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
西安大力扶持“个转企” 山西大学团队用图调控网络 实现高性能点云分割
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-6-25 01:06, Processed in 0.156000 second(s), 8 queries, Gzip On, MemCache On
同板块主题的 后一篇 !last_thread! 快速回复 返回顶部 返回列表