2023年9月16日下午,由中国政法大学法律硕士学院、中国政法大学数字社会治理研究院、中国政法大学知识产权创新与竞争研究中心主办的“人工智能训练数据的版权合规问题”学术研讨会在中国政法大学学院路校区图书馆综合楼七层719会议室以线上线下相结合的方式如期举行。会议由国家社科基金项目《人工智能生成内容的著作权立法研究》课题组承办。会议分为开幕致辞、主题研讨、会议总结三个环节。参与本次研讨会议人员包括相关理论学者和实务工作者30余人。
中国版权协会副理事长兼秘书长、《版权理论与实务》杂志主编孙悦作开幕致辞。孙秘书长首先对会议主办方,以及参加会议的理论界与实务界专家表达了感谢,并预祝研讨会取得圆满成功。
孙秘书长指出,当前全球正经历新一轮的科技革命,处于产业变革的历史交汇期。继工业化、信息化后,智能化已经成为时代的强音,引发了新一轮科技革命和产业变革的战略问题。人工智能是一把双刃剑,生成式人工智能的飞速发展给人类社会带来便捷的同时,也不可避免地产生一些法律问题。在我国,人工智能产品训练使用数据行为的法律认定需要紧密结合我国产业发展的实际情况,这也是召开本次研讨会的重要意义所在。中国版权协会连续三年受中宣部版权管理局的委托,开展了关于“新技术在版权领域运用”的研究工作。今年的研究重点正是生成式人工智能发展和运用中的版权问题。希望今天与会嘉宾的真知灼见,能给大家带来新的启发和认识,推动新技术在版权领域中的运用和良性发展。
中国政法大学法律硕士学院院长、中国政法大学数字社会治理研究院院长许身健教授做了致辞。许院长首先对与会嘉宾表示欢迎与感谢,并预祝研讨会取得圆满成功。
许院长介绍了生成式人工智能的应用场景,以及神经网络技术的应用带来的著作权法问题。他指出,数字技术与经济社会的深度融合已经成为当今社会发展的新趋势,数字产业飞速发展的同时,新的法律问题、伦理问题也会随之浮现。许院长指出,尽管刚刚过去的7月,国家网信办联合七部门发布了《生成式人工智能服务管理暂行办法》,规定生成式人工智能服务的提供者应当依法开展训练活动,不得侵害他人依法享有的知识产权,但对于数据训练这一行为的性质并没有给出清晰的立法指引。因此,急需理论界和实务界的同仁们集思广益,共同建构与数字技术发展水平相匹配的法律机制,探索如何在法律的规范和引导下,借助数字技术的力量为社会经济发展注入强大动力,这也是本次研讨会召开的目的和意义所在。
会议研讨
主题一
人工智能数据训练的技术解析与法律困境
主题一主要围绕三方面展开:一是生成式人工智能收集数据、学习数据的技术原理;二是确定和联系到权利人是否具有现实性、获得授权许可是否具有难度;三是经济学上的许可成本与效率的分析、法学上保护著作权与科技发展的利益平衡。主题一的研讨由中国政法大学法律硕士学院陶乾副教授主持。
百度集团技术管理部高级技术专家李轶夫以文心一言为例介绍了生成式大语言模型技术的原理和应用前景。他指出,预训练阶段的作用只是让生成式大语言模型具备了厚实的语言基础能力,要想将这些能力导出实用,还需要大量的其他技术手段。比如百度在文心大模型基础上开发的文心一言,除应用到了业界普遍采用的监督精调、人类反馈强化学习、提示工程等技术使其可以遵循人类指令并生成符合人们价值观的内容外,还采用了知识增强、检索增强和对话增强等独特技术,大幅提升其生成内容的准确性、时效性和对话流畅性。他强调,生成式大语言模型已经开始“渗透”千行百业,未来将不断为我国的经济社会发展“提速”,是具备很高商业价值和社会价值的人工智能技术应用。
百度法律研究中心主任陈晨立足产业角度,围绕人工智能数据训练分享了三个观点。首先,陈主任以蒸汽机、电力、集成电路的发明与应用为例,阐明大语言模型的应用落地需要时间,并非一蹴而就。他表示平台在对人工智能进行数据训练的过程中是否侵权,在法律上具有争议。其次,陈主任指出版权理论从来不是一成不变的,技术的创新发展会推动制度不断变化,例如在软件诞生之后,相应地出现了软件著作权。而随着人工智能技术的不断发展,或将颠覆现有的版权理论,促使新制度的产生。最后,陈主任表示产业界希望法律界能够给技术更多的发展空间,鼓励“先行先试”。
微软(中国)有限公司资深法律顾问丁倩回顾了人工智能的发展历史,并介绍了机器学习的常见方法。根据模型的目的不同,研究机构和产品开发团队对数据的格式、形式的需求以及获得数据的方式多种多样。目前,为了训练人工智能,在爬取公开数据时,存在着数据版权状态不明、版权状态明确但权利人不明确、权利人明确但过于分散、网站反数据爬取措施过于广泛、许可成本过高等问题。对于网络中的公开数据,由于无法一一获得授权,应当允许人工智能训练数据时进行合理使用,合理使用所覆盖的权利应当包含复制、改编、汇编以及数据集的信息网络传播。此外,人工智能的使用者在生成和使用生成内容时,应当具有较高注意义务,避免侵权。随着过滤技术的发展,人工智能技术开发者也需要采取积极、有效内容过滤措施。
中国司法大数据研究院社会治理发展研究部部长李俊慧首先介绍了司法大数据应用场景下人民法院大数据管理和服务平台中数据汇聚的方式和过程,此类数据的形成是法院工作人员履行工作职责中形成的数据,法院内部基于此类数据开展深入挖掘和分析,不涉及版权问题。针对此次讨论的问题,李俊慧认为,人工智能数据训练的法律困境主要有三个:训练数据来自哪儿或属于谁、用以训练是否需要获得许可或授权、是否需要支付相应费用等。当前市面上各类打着“大模型”旗号的生成式人工智能平台或应用,除去基于自身业务数据进行训练等场景外,使用其他来源的数据用以训练都面临上述问题该如何破解。急需从政策、法规层面予以厘清边界,以便促进基于大模型的生成式人工智能应用规范发展。
主题二
人工智能训练数据时其使用作品的行为性
主题二的内容围绕谁在使用作品、使用的是什么作品、作品来源于哪里、使用的方式是什么,使用行为落入著作权法规定的哪项权利的规制范畴两部分展开,由华东政法大学知识产权学院院长丛立先教授主持。
华东政法大学知识产权学院院长丛立先教授指出,数据和信息经过处理后形成知识,知识中的一部分是作品,人工智能训练数据的版权合规问题探讨的是使用作品的这一小部分数据。在机器学习训练数据的过程中,使用他人作品进行数据训练的学习行为其实是一种数字化学习和素材化学习,应当区分学习的是表达还是思想本身。著作权法仅保护表达而不保护思想,因此对于他人思想的学习并不会侵犯他人的版权。但人工智能对于思想表达的学习,涉及使用他人创作的作品,此类学习行为很难符合我国现行著作权法下对于合理使用的要求。此外,丛教授提到著作权法的终极使命是提高生产效率,当全社会都普遍需要一项技术的时候,如何提高生产效率值得我们思考。
同济大学上海国际知识产权学院刘晓海教授首先指出,大力发展人工智能是我国的既定方针,人工智能的发展离不开大语言模型,而海量的数据必然涉及著作权保护的作品和使用成本的问题。其次,他分析了目前欧盟做法的弊端,过高的保护成本会导致产生准确、安全、没有偏见的智能模型受限,尤其是大型语言模型。刘教授指出,为创建人工智能模型复制作品行为并非将受著作权法保护的作品按照通常理解的方式进行使用,而是以机器学习为目的,以适合机器学习方式使用作品,提取其中的要素和逻辑关系形成人工智能。最后刘教授提出:著作权只是人工智能立法问题中的一部分,主要涉及的是文本的输出的著作权问题,文本和数据获取行为,可以看成是著作权边界之外的问题,因为并不是著作权意义上的作品的使用。
北京知识产权法院审判监督庭庭长冯刚指出,人工智能生成内容立法问题非常重要,具有法律保护的必要性。冯法官提到了三个核心问题:首先,对于人工智能生成内容能否受到保护,这是立法层面上的问题,目前的争议较大。其次,对于著作权归属问题,如果符合作品特征,著作权归属于赋予作品独创性的人,这并没有改变著作权法的基本原则。对于人工智能训练数据合法性问题,冯法官认为应当对学习训练有所识别,判断是真正的学习训练还是以学习训练为名,把别人的作品作为自己的生成内容提供给客户。此外,要仔细辨认复制行为、使用行为,以及要区分著作权法上的使用与一般意义上的使用。
国家知识产权局知识产权发展研究中心首席研究员顾昕指出,目前探索构建的数据知识产权规则,并不是对现行知识产权制度的简单确认。
在保护对象上,数据知识产权规则的保护对象是经过一定规则处理后形成可流转利用的数据集合,体现了对数据处理者付出劳动或投入资本的保护。
在规制方式上,数据知识产权规则采用的是行为规制方式,仅针对不正当获取和利用数据的特定行为。
在发展路径上,在条件尚未成熟时不急于立法,而是通过制定政策文件的方式在地方试点开展规则探索。
中国政法大学法律硕士学院讲师张宪指出,对于Thaler v. Perlmutter (DDC2023)这个案件,美国版权局实际上保留了人工智能作为创造性辅助工具的可能,并没有否定其参与创作内容的可版权性。张老师提出,在人工智能训练过程中使用作品的行为是否能够被认定为著作权法意义上的复制,在正确认识行为性质的基础上,应考虑不同政策导向下各国立法需求的不同,我国的政策导向倾向于鼓励人工智能的训练与开发也应当被充分考虑。最后,张老师延伸探讨了和立法技术相关的问题。如何辨别人工智能生成的作品使用了哪些作品作为其训练内容,是否应当公开这些作品及作者,以及若公开在训练的过程中所使用的各类资源包括数据库等是否会涉及企业的保密问题。
主题三
人工智能数据训练阶段使用作品构成合理使用的可能性
主题三包括在我国现行著作权法下人工智能数据训练阶段使用作品构成合理使用的可能性;域外人工智能、数据以及著作权法领域相关立法研究;以及人工智能时代合理使用制度的立法完善与司法完善三方面内容,由西安交通大学法学院焦和平教授主持。
中国政法大学民商经济法学院李扬教授分享了四个观点。首先,从解释论角度来说,将人工智能作为人的创作工具并不存在法律上的障碍,对“人的参与”进行稍微宽泛一点的解释即可。这种解释方式与雇佣作品中,将雇员视为雇主的创作工具的逻辑没有本质区别。谁利用人工智能创作了作品,该作品著作权就应该归谁。人工智能工具开发者和利用者可以通过合同约定著作权归属。第二,对于人工智能训练过程中对作品的使用,日本经过多次著作权法修改后规定,非作品性利用为合理使用。日本立法者将利益的天平倾向于创新者。第三,立法需要考虑一个国家的具体经济、政治、文化、社会状态,并在此基础上进行价值选择。就我国当下的实际情况来看,应以促进人工智能产业创新为价值导向。最后,法官需要一定程度的自由裁量权,矫正立法中难免会存在的利益反映不均衡的现象,利用司法政策,将人工智能研发过程中对作品的“非作品性利用行为”,解释为合理使用行为。
厦门大学知识产权研究院院长林秀芹教授将人工智能学习训练简化为数据输入、学习训练与输出三个阶段。她指出,学习训练应属于合理使用而不是侵权行为。理由有以下四点:第一,回归合理使用制度跟保护著作权的本意来看,虽然学习训练表面符合侵权要件,以复制权为典型,但实际AI学习训练的使用逻辑是寻找语言模型的结构而不是使用作品的独创性表达层面,属于一种非表述性使用,不应归为侵权。第二,AI学习的前两个阶段,没有对公众进行传播,仅在公司内部流转,不会产生市场影响和影响市场价值。第三,从目的解释角度看,著作权法其最终目的是促进创新,可以类比专利法中为进行实验而使用不构成侵权的例外规定。第四,在全球竞争非常激烈的背景下,知识产权人工智能的竞争基本上在中美之间进行角逐。目前美国以OpenAI为首的高科技公司已经领先,我们应适当放宽对人工智能训练阶段数据使用的法律限制,有助于我国企业进行追赶。
中国人民大学法学院教授万勇指出,应从国家层面来思考人工智能产业的发展问题。第一,知识产权制度是国家经济与科技文化政策的重要组成部分。我们应当基于国家的总目标,正确处理保护知识产权和推动公共利益的关系、科技创新与科技运用的关系。在实现把人工智能产业蛋糕做大的前提下,再考虑如何把蛋糕分公平。第二,从法解释论来看,如果我们以人工智能产业发展为前提,那应有的基本判断就是从现行的法律当中寻找条款来为人工智能的数据挖掘寻求正当性依据。第三,从立法论来看,可以考虑在未来修改著作权法实施条例时,增加数据挖掘合理使用条款,以促进人工智能产业发展。
中国政法大学法律硕士学院陶乾副教授指出,在数据训练阶段,作品以数据形态为AI所用,其中包括复制和分析两个使用环节。从分析环节来看,AI的学习行为实质上为分析文本、元素之间的分布规律,故该规律本身是思想而非表达。所以,问题的焦点是解决复制这一环节所涉及的版权合规。引入文本和数据挖掘制度来作为这一环节版权保护的例外具有合理性。在制度设计上,需要考虑文本与数据挖掘对象来源的合法性、结果的独立性,并为文本与数据挖掘的实施目的附加适当条件。在规则的价值取向上,从文化繁荣角度,协调人类创作与机器生成的关系;从人工智能产业角度,区分对待大模型作为类基础设施对作品的使用和垂类行业小模型对作品的使用;从web 3.0 互联网生态的角度,处理AI生态治理与用户自由之间的关系。
西安交通大学法学院焦和平教授从立法论的视角阐述了AI数据训练纳入合理使用的五个考量:第一,许可模式难以满足数据规模化利用的现实考量。采用合理使用制度配置数据资源是实现社会福利和公共利益最大化的最佳选择。第二,促进文化艺术繁荣的公正政策考量。侵权风险引发的数据质量低劣问题不利于“促进文化艺术繁荣”目标实现,同时训练算法的数据集不充足、不完整也将加剧算法偏见对于社会公共利益的负面影响。第三,维护公平竞争的市场秩序。“以服务换取数据”的平台经营模式将进一步加剧大公司与中小型公司之间的竞争失衡,破坏正常的市场竞争秩序。第四,促进人工智能技术发展的国家战略。各国相关法律对于数据挖掘的包容度将直接导致该国内AI企业的发展与去留。第五,数据作品合理使用规则的比较法。欧洲“文本与数据挖掘著作权例外”条款、日本著作权法的修订、美国的“四要素标准”等立法现状均呈现出对AI数据挖掘的高包容度。
总结致辞
中国政法大学法律硕士学院副教授、中国政法大学知识产权创新与竞争研究中心主任陶乾对会议做了总结。陶老师总结了本次研讨会中各位嘉宾的发言,并对本次对前来参会的各位嘉宾表示感谢。她表示,本次研讨会的成功举办增进了专家学者与实务界的互动,碰撞出了智慧的火花,对推动理论研究与促进行业健康发展具有重要的意义。陶乾老师表示,本次会议的举办,将有助于其所承担的国家社科基金一般项目《人工智能生成内容的著作权立法研究》开展进一步的研究。研讨会在各位嘉宾的精彩分享后圆满结束。
编 辑:胡天翊
初 审:陶 乾
吴 荻
终 审:梁 敏