巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

同板块主题的 前一篇 同板块主题的 后一篇
开启左侧
查看: 66|回复: 0
1# 贡嘎山
跳转到指定楼层

[2023年中文互联网语料库CCI 2.0发布,涵盖1.25亿个网页

 [复制链接]
  : 红星新闻

    4月25日,2024中关村论坛年会开幕。4月27日,在作为本届中关村论坛活动之一的数据安全治理与发展论坛上,北京智源人工智能研究院正式发布了中文互联网语料库CCI 2.0(简称CCI)。
  智源研究院副院长兼总工程师林咏华介绍,经过严格的清洗和筛选后,CCI的规模约为500GB,涵盖1.25亿个网页。
  智源研究院牵头建设的数据集“共建-共享”平台 受访者供图
  林咏华介绍,中文互联网语料库CCI是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集,于2023年11月首次开源,当时为CCI 1.0,旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。
  据介绍,在中国网络空间安全协会人工智能安全治理工作委员会等的推动下,智源研究院与多家企业经过四个月的努力,共收集约8TB互联网数据,通过严格的清洗和筛选,形成了超过500GB的高质量“中文互联网语料库”CCI 2.0,数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。
  红星新闻记者了解到,为保障CCI 2.0的合规性和高质量,智源研究院对总量为8TB的原始互联网数据进行了严格的清洗、过滤等处理。例如会对原始数据进行去除表情符号、去除控制字符与特殊字符、去除个人隐私等处理。
  林咏华介绍,数据是生成式人工智能发展的重要生产要素,数据的质量与安全也是下游人工智能模型的性能与应用安全性的决定性因素之一,智源研究院将持续与多家单位共同为中文领域增添更多高质量、符合安全要求的数据集。一方面联合共建单位扩充数据来源,另一方面创新数据处理方法与流程,提升数据清洗与过滤的效率和可靠性。
  红星新闻记者了解到,目前智源研究院联合多家企业单位成立数据集工作组,打造的是“贡献-共享”的数据运营方式。例如制定数据“共建-共享”积分机制,推动数据集工作组可持续发展。林咏华说,智源研究院与数据集工作组成员单位共同探讨并制定了数据“贡献-共享”积分机制,对贡献数据的20余家单位进行初步评分,对普通互联网数据、稀缺数据进行分类评价,涵盖格式合规、来源可信、覆盖站源等评分维度。
⊙记者:付垚 实习生:史子潇 北京报道 编辑:郭庄 责编:李彬
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 瞒子山 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 瞒子山 的书面同意;
  4. 本帖子由 瞒子山 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,瞒子山 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 瞒子山 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 瞒子山 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
“第二公诉人”?猥亵儿童案辩护人要求加重处罚被告人,法院认定其违反“律师职业规范” 清华大学成立人工智能学院 姚期智任院长
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-5-17 03:48, Processed in 0.140400 second(s), 10 queries, Gzip On, MemCache On
同板块主题的 后一篇 !last_thread! 快速回复 返回顶部 返回列表