1月16日,由成都传媒产业集团旗下红星传媒联合中国人工智能产业发展联盟数据委员会主办的第三届“大模型 大未来”人工智能大模型基准测试发展大会暨人工智能高质量数据集炼金工坊生态行在成都高新区举办。
作为大会的重要环节,“人工智能高质量数据集炼金工坊生态行”首站活动于当天下午同步开展。中国电信、海天瑞声、四川长虹等多家企业代表齐聚现场,分享各自在高质量数据集和数据标注建设方面的实践成果,为行业提供宝贵经验。
当天下午,中国信通院人工智能研究所、中国信通院成渝分院、文心大模型数据生态中心、四川长虹、天津大学、海天瑞声、中国电信成都分公司、砺英数智8家单位携手,宣布启动“四川数据标注和数据质量评估能力共建计划”,该计划将汇聚各方力量,为大模型产业高质量发展注入强劲动能。

“生态行”落地成都,探索数据赋能路径
如果说大模型是人工智能产业的“核心引擎”,那么高质量数据集就是驱动引擎持续运转的“燃料与基石”。“高质量数据集炼金工坊”生态计划依托于中国人工智能产业发展联盟,由中国信息通信研究院人工智能研究所牵头,联合中国国家图书馆、高等教育出版社、中国科学院文献情报中心等多家单位共同发起。
作为西部重要的数字经济和人工智能产业集聚地,成都在数据资源管理、应用场景培育和产业生态建设方面具备良好基础。此次“生态行”落地成都,既是对区域数据要素发展实践的集中展示,也旨在通过跨区域、跨主体的交流协作,探索可复制、可推广的数据赋能路径,为大模型产业高质量发展夯实数据根基。
在“生态行”首站活动现场,中国人工智能产业发展联盟数据委员会主任、中国信通院人工智能研究所平台部副主任李荪在致辞中表示,人工智能高质量数据集从国家正式提出相应的概念,到现在大概一年多时间。整个高质量数据集在各地以及各行各业已经引起了强大的反响,成都也是国家的七大数据标注基地之一。希望让更多行业“沉淀在地下的黄金”,变成“流动的黄金”,通过人工智能炼金工坊的生态活动,极大地推动数据要素价值的更快释放,以及人工智能的快速应用落地。

模型的卓越能力源于优质数据的喂养,产业的高质量发展离不开坚实数据基础的支撑。四川省大数据发展研究会副会长、秘书长秦强子在致辞中表示,四川省大数据发展研究会凝聚了288家会员单位,联动超过3900家生态数据企业,超过3万名数据选手资源,初步构建了协同发展的良好生态。我们的核心业务紧紧围绕数字经济发展的关键环节展开,其中“三赛一行”成为服务数据产业创新,挖掘培育人才,促进数据要素流通的特色品牌与重要抓手。
“炼金”高质量数据集,专家分享前沿实践与思考
天津大学计算机科学与技术学院教授、深圳河套学院双聘教授、天津大学“语言智能与技术”中外联合研究中心主任熊德意在主题分享中表示,大模型首先是大量的数据,加上算法和算力,然后把模型炼成智能,再去完成任务。大量的数据、海量的数据,但是这个量不等于数据的“智”,所以我们国家要建高质量数据集。怎么样找到高质量数据集,这是在模型、在应用当中很重要的一个瓶颈问题。最近工信部提出了“模数共振”,引导人工智能模型与高质量数据集协同创新、深度融合。
中国信通院人工智能研究所专家樊威在主题分享中作出预判:2026年有四类数据集会爆发,一是世界模型的数据需求,像World Score里面有3000个样本涵盖静动态及室内外等多种场景;二是具身智能的数据需求,也就是真实世界机器人数据和仿真合成数据;三是智能体的数据需求,它需要的是与测试环境深度耦合的交互数据;四是行业模型数据需求,未来是三措并举来推动高质量数据集建设,包括数据工厂、体系建设、开发维护、合规可控等。
