高质量AI需要高质量数据供给
DeepSeek的出现彻底改变了固有的“高端算力优先”的人工智能创新技术路线,其以低廉的成本实现了与国外前沿人工智能产品相媲美的性能,“算法模型性能优先”也随之成为新的产业技术发展路线。
这种转变意味着要更加重视训练数据的高质量供给,因为“算法模型性能优先”技术路线更依赖高质量的训练数据对模型进行优化,而且已公开、可抓取的训练数据资源即将用尽,亟需能够反映行业特征的高质量训练数据资源。因此,训练数据供给机制的构建理应作为数据基础制度的立法重心之一,从而用法律规范训练数据的供给方式,提升训练数据的供给质量。
规范训练数据供给方式所要实现的目标,是市场以安全可靠且高效的方式提供训练数据资源。首先,训练数据的供给方式应当是安全可控的。算法模型训练属于数据处理行为,因而数据的供给方和需求方均应严格履行个人信息保护法、网络安全法等法律规定的数据安全保护义务。其次,训练数据的供给方式应当是合法且没有争议的。高质量供给的内涵之一便是确保训练数据没有显著争议,否则会增加法律风险,从而降低科技创新资源的供给效率。最后,训练数据的供给方式应当是多元化的。单一的数据供给方式不仅无法提供充分的训练数据,还可能间接提升人工智能市场的准入门槛。
提升训练数据供给质量所要实现的目标,则是数据资源供给活动应当满足“供给数量充分”和“供给质量符合要求”两个要件。一方面,当下的人工智能产业发展主要以大模型为基础,需要海量的训练数据作为支撑。另一方面,伴随着人工智能应用方式的场景化、专业化,其对训练数据质量的要求也有所提高。构建这种保障机制的重心,是兼顾科技创新主体的差异化需求以及训练数据获取方式的实质公平性,同时确保与现行立法体系有效整合。
第一,以科技创新主体为导向,构建人工智能训练数据公共服务平台。作为人工智能创新的数字基础设施,平台的职能之一便是发现和确认各类科技创新主体的需求,明确公共训练数据资源的分类标准。不过,由于政府部门难以持续性地对公共数据进行清洗、归集等,因此需要在协同治理模式下,按照市场需求,对公共数据进行去重、纠错、填补空值等管理,以提升数据使用质量。此外,由于平台与算力基础设施同属向市场提供的必要基础设施,二者共同作用并影响人工智能创新效率,为避免冗余建设造成浪费,更宜将二者一体化建设。
第二,以市场公平竞争为导向,构建训练数据供给生态保障体系。我国现阶段人工智能训练数据方面面临的困境,不仅仅是数据量不足、质量较低,还包括有效的产业生态尚未形成。为避免数据垄断等现象,确保中小企业实质性公平地获取训练数据,有必要对相关数据提供商设置义务规范。如对于训练数据提供商而言,应当严格禁止其采取强制或变相强制的方式出售捆绑性的训练数据产品,并不得采取“二选一”等业务模式,对需求方施加不合理的条件。对于数据标注服务提供商而言,不仅要依据《生成式人工智能服务管理暂行办法》规定,预防算法歧视等风险,还应当确保所提供的数据满足完整性、时效性、准确性等要求,且与事前约定的数据质量保持一致。
第三,以数据安全保障为导向,构建透明可信的训练数据供给机制。已公开的个人信息、包含他人著作权的作品数据能否作为训练数据等问题,是目前构建相关制度面临的障碍之一。此外,不安全、不可靠的数据交易活动同样会影响训练数据来源合法性的认定。因此,在制度层面确立训练数据来源合法性的判断标准显得尤为迫切。这既需要以典型案例、合规清单等方式指引产业实践,也需要在制度层面设置涵盖训练数据获取、使用等各个业务流程的数据安全保护制度。
用微信“扫一扫”,点击右上角分享按钮,
即可将网页分享给您的微信好友或朋友圈。
请进行滑动验证
x