百模征战,如何解决数据卡脖子问题?( 四 )


利用抓取技术破坏他人市场竞争优势,具有并存在为自己谋取竞争优势的主观故意,违反诚实信用原则,扰乱竞争秩序的数据抓取行为,可能构成不正当竞争行为 。同时也直接违反了《数据安全法》相关规定 。
尤其是针对合作方的数据,如果在合作协议中存在违约责任条款,应根据该条款处理 。如果合作协议未涉及该情况,则被视为侵权行为,相应的侵权责任将予以承担,包括但不限于赔礼道歉、停止侵权行为、赔偿损失等 。
数据和隐私的平衡是大模型应用面临的一个重要问题 。如何在保证数据安全的前提下,保护用户的隐私,是大模型应用需要解决的一个重要问题 。目前,隐私计算技术和产业已经成为了平衡数据流通与隐私安全的关键技术路径 。
面对这些挑战,应该如何解决数据集卡脖子问题?
一、国家及社会层面 。
首先是可以通过立法来保证数据安全 。目前日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况 。
6月14日,欧洲议会投票通过关于《人工智能法案》的谈判授权草案,意味着该法案将进入欧盟启动监管前的最后阶段 。该法案要求OpenAI、谷歌和微软等基础模型的供应商需要公开,他们在训练模型过程中,是否使用了受版权保护的数据 。
此前,国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》也明确,用于生成式人工智能产品的预训练、优化训练数据,应符合网安法等法律法规的要求,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”原则等要求,还应保证数据的真实性、准确性、客观性、多样性 。
对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示,《生成式人工智能服务管理办法(征求意见稿)》已对AI训练数据集的合规要求搭建了清晰的框架,在运用著作权和知识产权方式之外,还可以探索使用多种法律手段去实现 。
张欣分析,监管的落地,还存在事后难追溯等问题,尤其在算法复杂度日益攀升、出现“算法黑箱”等情况下,如果从事后去还原和追溯数据集是否合规,十分依赖大模型开发商提供数据处理记录和日志,很难从外部进行确认 。此外,从技术上来说大模型很难精确删除某个用户的个人信息,这就限制了个人信息保护中“删除权”的行使 。
其次,通过数据集的共建、共享,来让大模型企业拥有更加丰富的数据集 。
研究机构和开发者们开始意识到合作与共享的重要性 。建立数据集共享平台和合作网络,可以促进数据资源的共享和互补,从而减轻单个团队的数据采集和标注负担 。
通过共享数据集,可以获得来自不同来源和领域的数据,增加数据的多样性 。这有助于训练更具广泛应用能力的大模型,适应不同场景和任务的需求 。各方共享数据集,可以充分利用各自的数据资源,避免重复劳动和浪费,提高数据利用效率 。共建共享模式可以将各方的专长和资源进行有效整合,实现合作共赢 。在共建共享模式下,数据采集和使用的风险可以得到分担 。各方可以共同制定数据使用准则和合作协议,明确数据的权益和责任,减少法律和伦理风险 。
杨小东博士表示,共享共建数据机制能够对大模型的研究与落地提供持续助力 。当然首先需要平衡好各方的利益,通过行政以及技术等多方面的手段,保障数据的质与量,从而实现真正的价值,形成良性的发展生态 。
然而,共建共享模式也面临一些挑战和限制:首先,在共建共享模式下,数据的隐私和保护是一个重要的问题 。合作方需要确保数据的安全性,制定隐私保护措施,并遵守相关的法律法规,保护数据所有者的权益;多方参与的共建共享模式需要良好的合作协调机制 。合作方需要就数据采集、标注、使用等方面进行有效的沟通和协作,确保数据集的一致性和质量 。最后,在共建共享模式中,涉及到数据的权益和利益分配问题 。各方需要协商和达成共识,制定公平合理的利益分享机制,以确保各方的权益得到尊重和保护 。
二、对于大模型研发企业 。
对于大模型研发企业来说,解决数据纠纷问题是至关重要的 。首先应该确保在数据采集、使用和存储过程中遵守相关的法律法规,包括数据保护和隐私权规定 。制定明确的政策和流程,确保数据的合规性和合法性 。


推荐阅读