千龙网讯 6月14日,2024北京智源大会正式开幕,智源大会“人工智能+数据新基建”论坛同步召开。大会现场发布了“北京人工智能数据运营平台”。北京智源人工智能研究院理事长、北京大学教授黄铁军表示,构建大模型生态首先要建立数据流通机制,推动从数据到智能的正反馈。
据介绍,北京人工智能数据运营平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。
支持三种数据使用模式
本次论坛上,智源研究院联手京能数字产业有限公司(下简称京能数产)发布了北京人工智能数据运营平台。北京人工智能数据运营平台是在国家发展改革委、国家数据局指导下,北京市发展改革委主导,市委网信办、市科委、市经信局、海淀区政府、中国网络空间安全协会人工智能安全治理专委会等单位支持推动,由智源研究院牵头与京能数产等单位共建。数据平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。
目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。
开源超大规模高质量数据集
本次论坛上,智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus 1.0 ,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。同时,智源选取医疗行业数据集,完成了示范模型训练,取得了优异的模型行业能力提升,为行业模型训练提供高质量范例和参考。
启动千万级指令微调数据集
高质量的指令数据是大模型性能的“养料”。本次论坛上,智源研究院发布的千万级高质量指令微调数据集开源项目,包括基于开源数据集进行高质量筛选的数据和通过数据合成方法构造的高质量指令数据。智源对现有开源数据进行领域分析确保合理类型分布,对大规模数据进行质量筛选保留高价值数据,针对开源数据缺乏的领域和任务,进行数据增广,并结合人工标注对数据质量进行控制,避免合成数据分布偏差。
构建通用数据集和行业数据集两大专区
今年以来,智源汇聚了海量可直接用于算法训练的通用数据集和行业数据集。本次论坛上,智源发布通用数据集和行业数据集两大专区。
通用数据集为用于通用基础模型训练的多种模态数据。当前已经汇聚在数据运营平台的通用数据集有116个,总数据量700.27TB,其中文本数据9.76TB,多模态图文数据量75.31TB,视频数据量615TB,音频数据0.2TB。 行业数据集包含了行业领域特有的知识和信息,用于训练各种行业模型,推动人工智能从通用向专业化、精细化持续发展。目前行业专区数据集28个,数据量4.33TB,其中文本数据集22个,数据量4.3TB,多模态图文行业数据集6个,数据量0.03TB。
全面升级数据处理工具FlagData3.0
数据质量直接决定了大模型的输出能力,使用数据处理工具不断提升数据质量变得日益重要。智源研究院长期投入数据建设工作,开发了一批数据处理的高效工具。FlagData数据工具·开源项目包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,为提升数据质量带来直接的便利。
本次论坛上,FlagaData2.0全面升级为FlagData 3.0,一方面提供了傻瓜式语言数据处理工具,支持一键式搭建数据处理工作流。另一方面,为专业的进阶用户提供数十种数据加工算子,支持自定义数据处理流程。