会理石榴,欢迎助农支农,收获阳光自然果的您!

巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 150|回复: 0
 白河 发表于: 2023-4-23 12:13:59|显示全部楼层|阅读模式

[2023年] 160亿参数,新增多项能力,复旦MOSS开源了

 [复制链接]
源自:机器之心Pro
  今年 2月份,机器之心报道了复旦大学推出中国版 ChatGPT 的消息,引起了广泛关注。当时,邱锡鹏教授就曾表示将于四月份开源 Moss。
  昨天,开源版的 Moss 真的来了。
b6b3-6c456837b6c397a1639feaab39cc3b38.png
  项目地址:https://github.com/OpenLMLab/MOSS
  MOSS 是一个支持中英双语和多种插件的开源对话语言模型,但参数数量比 ChatGPT 少得多。在 v0.0.2 之后,团队持续对其进行调整,推出了 MOSS v0.0.3,也就是目前开源的版本。相比于早期版本,功能也实现了多项更新。
  最初的测试中,MOSS 的基础功能与 ChatGPT 类似,可以按照用户输入的指令完成各类自然语言处理任务,包括文本生成、文本摘要、翻译、代码生成、闲聊等等。
  开放内测后,团队继续加大中文语料的预训练:「截止目前,MOSS 003 的基座语言模型已经在 100B 中文 token 上进行了训练,总训练 token 数量达到 700B,其中还包含约 300B 代码。」
  在开放内测后,我们也收集了一些用户数据,我们发现真实中文世界的用户意图和 OpenAI InstructGPT 论文中披露的 user prompt分布有较大差异(这不仅与用户来自的国家差异有关,也跟产品上线时间有关,早期产品采集的数据中存在大量对抗性和测试性输入),于是我们以这部分真实数据作为 seed 重新生成了约 110万常规对话数据,涵盖更细粒度的 helpfulness 数据和更广泛的 harmlessness 数据。
  内容源自:https://www.zhihu.com/question/596908242/answer/2994534005
  目前,团队已将 moss-moon-003-base、moss-moon-003-sft、moss-moon-003-sft-plugin 三个模型上传到 HuggingFace。后续,还有三个模型将会开源。
8111-ae79c7890a8acf1a5ec313be145180ec.png
  根据项目主页介绍,moss-moon 系列模型具有 160亿参数,在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。
  团队同时表示,由于模型参数量较小和自回归生成范式,MOSS 仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用 MOSS 生成的内容,请勿将 MOSS 生成的有害内容传播至互联网。
  新增能力
  在 MOSS v0.0.3 中,团队加入了多项新能力。
  团队构造了约 30万插件增强的对话数据,包含搜索引擎、文生图、计算器、方程求解等。关于插件版 MOSS 如何使用,后续团队将在 GitHub 公布。
e76a-91388a36187d20a77e3b602004e53049.png
  MOSS v0.0.3 现已引入使用多种插件的能力。
  下图展示了调用搜索引擎的能力:
c32c-ad10e72a3dc98c3845cc9866b4ff2852.png
  下图展示了调用方程求解器的能力:
f6e5-f6a656f784c8f872bb4cb0f454de41eb.png
  下图展示了从文本生成图片的能力:
bf45-1880564d6fd7bca3419bf3966e35cbef.png
  项目作者孙天祥补充说,MOSS 003 支持启用插件的能力是通过 meta instruction 来控制,类似 gpt-3.5-turbo 里的 system prompt。「因为是模型控制的,所以并不能保证 100% 控制率,以及还存在一些多选插件时调用不准、插件互相打架的缺陷,我们正在尽快开发新的模型来缓解这些问题。」
  下载安装
  下载本仓库内容至本地/远程服务器:
git clone https://github.com/OpenLMLab/MOSS.gitcd MOSS  创建 conda 环境:
conda create--name moss python=3.8conda activate moss  安装依赖:
pip install-r requirements.txt  其中 torch 和 transformers 版本不建议低于推荐版本。
  根据协议,开源的 MOSS 可用于商业用途:
d0fe-49e855c4daeadfb2f604bfc9bd4cb38a.png
  此外,开发者也可通过 API 调用 MOSS 服务,团队将根据当前服务压力考虑通过 API 接口形式提供服务,接口格式可参考:https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf
  目前,已有开发者根据开源内容进行而创,比如通过 VideoChat 进行视频问答。
  VideoChat 是一款多功能视频问答工具,结合了动作识别、视觉字幕和 StableLM 的功能。该工具可为视频中的任何对象和动作生成密集的描述性字幕,提供一系列语言风格以满足不同的用户偏好。它支持用户进行不同长度、情绪、语言真实性的对话。
4807-7748e03742489b197a04e0a2f002cc44.png
  项目地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 白河 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 白河 的书面同意;
  4. 本帖子由 白河 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,白河 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 白河 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 白河 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-9-9 02:41, Processed in 0.093601 second(s), 11 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表