作者:李胜男
单位:上海德禾翰通律师事务所
职务:数据合规和网络安全业务委员会副主任
电话:19821851675(同微信)
邮箱:snli@dehehantong.com
一、法律法规概览
二、人工智能企业合规要点
(一)数据收集与使用
1、自行收集
目前,许多企业存在违法违规收集个人信息的问题,以滴滴公司为例,因违法收集或过度收集个人信息而被处以80.26亿的巨额罚款,相当于滴滴上一年度营业额的5%。人工智能企业通常通过APP、小程序等产品自行收集数据,涉及个人信息收集时,如何制定隐私政策?如何收集个人信息?参考目前通过合规整改的企业不难看出,对于人工智能企业若产品涉及APP、小程序或网站,必须制定隐私政策,并在首次运行时通过弹窗等明显方式提示用户访问并点击确认。在未获得用户同意之前,不得开始收集信息。收集的信息必须符合最小必要性原则,不得收集与提供服务无关的信息,也不得未经同意向他人提供或处理信息等。
2、爬虫收集
由于人工智能企业许多业务场景都依赖于大量的数据投喂,数据来源的途径之一就是通过使用爬虫技术从网络上抓取数据,企业依赖爬虫技术的合法使用边界在哪?
例如,Z公司是一家提供数字化转型服务的互联网大数据公司。其首席技术官和技术人员因使用爬虫技术非法获取某外卖平台数据而被起诉。他们采用了外爬(利用技术手段突破网络安全措施)和内爬(使用账号密码和浏览器插件违反用户协议)两种方式。这些数据虽非个人信息,但我国法律对此类商业数据同样提供保护。最终,Z公司因造成4万余元损失而被处理。无独有偶,摩羯科技为多家金融机构提供风险管理服务,通过爬虫技术非法获取用户敏感个人信息,包括通话记录、社保等,涉及数据量达2000万条。该公司及其法定代表人因侵犯公民个人信息罪被判处有期徒刑三年,并处罚金。
除了刑事风险之外,不当的爬取收集利用也会存在民事风险。民事风险更多体现为不正当竞争。被告万德技术公司未经高德公司许可,采用变换IP地址和伪造浏览器标识等不正当手段,非法抓取了高德公司‘拥堵延时指数’数据。虽然这些数据并非个人信息,但万德技术将这些数据存储在其终端软件中,并以商业目的向付费用户传播。高德公司因此认为商业用户可能因看到这些数据而选择使用万德技术的产品而非高德地图。因此,高德公司以不正当竞争为由起诉万德技术。最终,法院支持了高德公司的诉求,判决万德技术赔偿高德公司合理损失共计1250万元,也认可了‘拥堵延时指数’数据的法律性质。
在另外一则案例中,被告通过变换IP地址和微博用户账号等技术手段,规避微博的相关防护措施,非法获取微博的公开数据,并在自己的平台上进行售卖,非法所得高达2000多万元。被告通过欺骗性的技术手段非法获取微博的大量数据,并将其售卖给不特定用户,增加了微博平台被实质性替代的风险,可能导致个人隐私和敏感信息泄露等数据安全问题,并扰乱了市场秩序。因此,法院最终认定被告构成不正当竞争,判决其赔偿经济损失2000万元及维权合理费用。无论是抓取微博数据还是高德数据,我国法律都对相关平台自行生成的数据提供保护,并认可其价值。
在网络数据处理中,使用自动化工具爬取网络数据时,必须进行一项重要的评估工作。评估爬虫的行为是否会非法侵害他人的网络权益、干扰网络服务的正常运行。
经过评估之后,需要明确爬虫爬取数据的范围和合理性,主要评估内容为以下六个方面:
(1)爬取的数据应当是公开的。对于政府有条件公开的政务数据,不能绕过其权限设置进行非法爬取。如果需要获取这些数据,应当按照规定的程序申请。
(2)遵守网站的robots.txt协议或其他公开协议内容,避免爬取平台明确禁止的数据。如果平台已经发出了禁止爬取的通知,应立即停止爬取,并采取相应的对策。
(3)遵循三重授权原则,确保用户授权给平台,平台再授权给爬取方,以及用户授权给爬取方形成完整的链路,以保证数据爬取的合法合规性。
(4)爬取数据应在合理的限度内进行,避免短时间内频繁爬取,也不应破坏或侵入目标网站的反爬措施。
(5)建议不要收集个人信息和企业商业秘密,这些数据的爬取风险极高。
(6)尽量避免爬取与自己存在直接竞争关系的企业平台数据,以免对方依据反不正当竞争法提起诉讼。
3、第三方获取
在数据获取的过程中,还有通过第三方来获取数据的渠道。第三方数据可能来源于购买,也可能是第三方免费提供,或者是基于某种协议共同处理后提供。无论是哪种情况,当从第三方获取数据时,都需要对其进行充分的审核和评估。确保从第三方获取的数据合法合规:
(1)审核第三方数据来源的合法性。要求第三方提供数据来源的合法性证明,如果数据是第三方主动通过用户收集的,应要求提供用户同意的记录。
(2)查看第三方向用户展示的隐私政策和用户协议,确保符合相关法律法规的要求。
(3)要求第三方出具合法性承诺函,承诺其提供的数据满足合规的要求。
(4)与第三方签署数据提供或委托处理协议。根据双方的实际情况,包括数据的使用目的、范围和安全要求等因素来确定协议的性质和内容。
(5)核实第三方是否拥有相关的资质、许可、认证和备案。
4、训练数据管理
《网络安全管理条例》最新规定明确指出,提供生成式人工智能服务的企业必须加强对训练数据及其处理活动的安全管理,并采取有效措施以防范和处理网络数据安全风险。这一规定确立了AIGC相关处理者、数据处理者和企业在训练数据和处理活动方面的安全管理责任,是法律法规所明确规定的内容。另外,《网络安全管理条例》第24条明确规定,如果企业在利用自动化采集技术(如爬虫技术)时,不可避免地收集到非必要的个人信息,或者未依法获得个人信息主体的同意,企业必须及时删除这些个人信息或进行匿名化处理。再次强调了在爬虫技术使用过程中,如果涉及到个人信息,企业有义务进行删除和匿名化处理。如果从技术上难以实现删除和匿名化处理,企业应停止存储个人信息,并采取必要的措施以保护个人信息的安全。
(二)知识产权侵权
1、自身知识产权布局
人工智能企业在发展过程中,首先需要关注自身的知识产权布局。知识产权包括专利、软件著作权和商标等多个方面。尤其需要强调软件著作权和专利的重要性,建议人工智能企业应以软件著作权为主,同时注重申请高质量的发明专利。
专利和软件著作权作为知识产权布局中的关键要素,在进行投资并购项目时,可以将自身的发明专利和软件著作权转化为资本,投到其他企业里。知识产权的布局不仅有助于提升企业未来的价值,也对企业的长远发展具有重要意义。
2、知识产权侵权合规建议
国内外均有人工智能企业因知识产权侵权问题被提起诉讼,国外较为典型的是《纽约时报》起诉OpenAI案,《纽约时报》对OpenAI以及微软提起诉讼,指控后者未经授权使用该报版权内容训练AI模型,并在ChatGPT产品中呈现给用户。据《每日经济新闻》记者的不完全统计,截至今年6月底,已至少有13家新闻媒体机构对OpenAI和微软提起了侵权诉讼。目前该案件尚没有定论。
国内较为典型的是奥特曼案,原告A公司是“奥特曼”系列作品的著作权人独占性授权的权利人。被告B公司经营的网站通过调用第三方提供的大模型服务向充值会员有偿提供AI绘画服务。通过输入涉及“奥特曼”的提示词后,B公司经营的网站可以生成具有“奥特曼”形象的图片,可供会员查看及下载。A公司诉请法院认定B公司侵犯其著作权,要求B公司将奥特曼物料从其训练数据集中删除,并承担相应损失赔偿责任。该案法院判决如下:1.B公司侵犯原告的复制权、改编权,应立即停止侵权行为。停止侵权的具体防范程度应达到:“用户正常使用与奥特曼相关的提示词,不能生成与案涉奥特曼作品实质性相似的图片”。2.“关于原告将案涉奥特曼物料从其训练数据集中删除,因被告并未实际进行模型训练行为,本院对该项诉请不予支持。”3.关于损失赔偿的请求,法院认为被告没有依据《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》等规定采取建立举报机制、提示潜在风险、进行显著标识等行动,具有过错,故而裁定了1万元的赔偿。
从《纽约时报》起诉OpenAI案到奥特曼案中可见,无论是从事AI绘画的公司,还是其他具体应用的企业,通常会接入现有的大型模型,例如Kimi或其他广泛使用的模型。接入大模型时,企业应当对所接入模型的合法性及其内容管控进行适当的核查。在必要情况下,可以要求供应商提供相关的说明和承诺函,确保在前端操作中保持合法合规性。其次,企业应充分向用户告知使用相关模型时的注意事项,特别是提示用户可能存在的内容侵权风险及其法律后果。企业也应建立应急处置机制,为用户提供反馈和投诉的渠道,以便及时处理用户所遇到的相关问题。
3、开源软件知识产权风险
在业务开展过程中,企业开源软件的使用也会涉及知识产权风险。如果企业使用的软件没有开源许可证,有可能使用这些软件会构成侵犯开源权利人的版权,没有开源许可证意味着用户只能浏览软件而不能使用,如果未经许可随意使用,就可能侵犯著作权。其次,即使软件拥有开源许可证,如果企业没有按照许可证的要求使用软件,同样存在风险。例如,企业在自主研发软件时引入了遵循GPL许可证的开源软件。GPL许可证要求,基于GPL许可证的衍生作品也必须开源。但一些企业在自主研发后选择商用而不开源,这与GPL许可证的规定不符,同样会有侵犯知识产权的风险。
(三)资质备案
不同的人工智能企业根据自身的业务模式和具体情况,所需的资质也会有所不同。
常见的资质备案如ICP备案和许可。备案与许可的选择取决于企业的网站或产品服务是经营性还是非经营性的。但无论是经营性还是非经营性,服务器都必须部署在中国境内,境外服务器无法进行ICP备案和许可。
另外,如果企业的产品或服务是网络信息服务,就必须进行公安联网备案。有些网站或APP可能不想部署在国内服务器上,而选择部署在国外。但只要在中国内地可以访问这些网站和APP,就必须办理公安联网备案。如果人工智能企业涉及到区块链服务,还需要进行境内区块链信息服务备案。另外,还有大家非常关注的算法和大模型备案,目前上海地区比较鼓励大家做算法和大模型备案,还会给企业一定的奖金鼓励和支持,上述资质许可的内容也是未来监管会重点关注的内容。
(四)商业秘密
1、案例分享
商业秘密保护是各类企业,包括人工智能企业在内,都非常重视的问题。对于人工智能企业而言,由于其业务特性,某些数据可能具有特殊性。例如,一家专注于视觉人工智能处理器芯片研发的高科技企业,其机房存储了大量核心代码等保密数据,这些数据构成了公司的核心竞争力和商业秘密。该企业后来发现机房内多出一台未授权的电脑,经核查,这台电脑属于公司的另一位创始人。该创始人通过机房电脑将公司的核心数据上传至个人电脑。调查发现,这位创始人以另一身份参与了另一家公司的并购招商活动,意图在离开当前公司后,利用窃取的商业秘密在新公司进行融资。这种行为明显违反了商业秘密保护的法律规定,最终该创始人因涉嫌侵犯商业秘密罪被提起公诉,并被判处有期徒刑两年及罚金10万元。
除了刑事犯罪的保护手段外,商业秘密的保护还涉及民事纠纷。此前,一名公司员工在离职时获取了公司的客户名单,并利用这些信息向客户推销产品。客户向原公司举报了这一行为,法院随后认定这些客户名单属于商业秘密,因为它们包含了非公开的联系方式等特殊信息,能够为企业带来竞争优势。因此,法院判决该员工赔偿公司8万元损失。
2、合规建议
(1)建立完善的内部管理制度:企业应制定严格的保密规章,设立保密区域,并实施分散控制策略,以确保保密信息的安全。
(2)加强人员管理:企业应与员工签订保密协议,并对关键技术人员签订竞业限制协议。同时,应加强对离职员工的管理,以防他们泄露公司的商业秘密。
(3)利用技术手段保护商业秘密:企业应对商业秘密进行加密处理,使用技术手段进行保护,以防止未经授权的访问和泄露。
(4)提高法律意识:企业应定期对员工进行法律意识培训,确保他们了解商业秘密保护的重要性及相关法律规定。
(5)避免生成式AI的威胁:随着AI技术的发展,企业需要警惕生成式AI可能带来的风险。员工在不经意间可能将公司的商业秘密输入到如ChatGPT、Kimi等大型AI模型中,这些模型可能会将输入的数据用于学习和未来的输出,从而泄露公司的商业秘密。因此,企业应建议员工避免在外部AI模型中输入敏感信息。
(6)使用企业内部的AI模型:为防止商业秘密泄露,企业应开发自己的大型AI模型,并鼓励员工使用这些内部模型进行工作,以减少对外部AI模型的依赖,从而降低数据泄露的风险。
(五)网络安全与科技伦理审查
1、网络安全义务
《中华人民共和国网络安全法》第二十二条明确了网络产品、服务应当符合相关国家标准的强制性要求。网络产品、服务的提供者不得设置恶意程序;发现其网络产品、服务存在安全缺陷、漏洞等风险时,应当立即采取补救措施,按照规定及时告知用户并向有关主管部门报告。网络产品、服务的提供者应当为其产品、服务持续提供安全维护;在规定或者当事人约定的期限内,不得终止提供安全维护。网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;涉及用户个人信息的,还应当遵守本法和有关法律、行政法规关于个人信息保护的规定。此外,第二十五条要求网络运营者应当制定网络安全事件应急预案,及时处置系统漏洞、计算机病毒、网络攻击、网络侵入等安全风险;在发生危害网络安全的事件时,立即启动应急预案,采取相应的补救措施,并按照规定向有关主管部门报告。这是企业的强制性义务,也是其网络安全责任的一部分。
2、科技伦理审查义务
根据2023年10月1日实施的《网络安全审查办法》第二条,开展涉及以人为研究参与者的科技活动,包括利用个人信息数据等科技活动应进行科技伦理审查。高等学校、科研机构、医疗卫生机构、企业等是科技伦理审查管理的责任主体。从事人工智能等科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会。
(六)企业出海与数据出境
在企业向海外部署业务时,数据出境是一个不可忽视的议题。数据出境分为两种情况:将境内收集产生的数据直接传输到境外;或数据虽在境内存储,但境外组织机构和个人可以查询、调取、下载和导出。第二种情况常常被人工智能企业忽视,即数据虽在国内存储,但境外主体或分公司、母公司能够访问和下载,这同样被视为数据出境。常见的数据出境情形包括直接存储在境外、先存储在境内再同步至境外系统、港澳台地区共用等情形。
对于数据出境的具体监管路径,我们可以参考最新的规定和图表。
图表明确展示了不同数据类型和情况对应的不同义务,如果数据被认定为重要数据,则必须进行数据出境安全评估。对于属于非个人信息、非重要数据可以直接出境。
对于个人信息,存在履行合同所必需、人力资源管理所必需、紧急情况下必需等豁免情况时可以直接出境,涉及的个人信息数量非常少(10万以下),也不在监管范围内。对于关键信息基础设施运营者,也需进行数据出境安全评估。对于涉及香港、澳门的个人信息出境,需走标准合同备案;其他地区则根据数据类型和数量确定不同的监管路径。
除了数据出境,人工智能企业在拓展海外业务时,还需关注企业出海的相关规定和限制。国家出台出口限制相关规定的背景是保护核心技术不被外泄,例如特朗普政府曾要求Bytedance出售TikTok,否则将面临封禁。当月,我国商务部、科技部调整发布《中国禁止出口限制出口技术目录》其中将“基于数据分析的个性化信息推送服务技术”列为限制出口的技术之一。这意味着TikTok依赖的核心算法技术被纳入了中国政府的出口管制范畴。这也意味着将所涉及的上述技术转移到其他国家,需要经过我国政府有关部门批准。
此外,美国云计算限制也对人工智能企业构成影响。许多企业使用美国云计算厂商服务训练人工智能大模型,如亚马逊AWS。但2024年1月,美国商务部发布了IaaS云服务相关客户识别拟议规则向公众征求意见。该规则要求美国IaaS提供商通过实施客户身份验证程序,并在满足相关条件时向美国商务部报告外国客户的详细身份信息和人工智能大模型训练活动情况,来限制外国客户尤其是中国客户使用美国云计算厂商的服务来训练其人工智能大模型。该规则一旦生效,将影响中国企业在AI训练方面的算力获取。
(七)数据资产化赋能
数据资产化是指企业将数据资源转化为具有经济价值的资产,并对其进行管理运营。人工智能企业拥有大量数据和数据处理能力,未来可以更多关注数据资产化的具体路径,包括但不限于数据资源入表、数据产品上架数交所等不同的落地方式。数据资源入表可以提升企业信用和融资能力,增强企业的数据资产收益,提升数据创新能力。此外,企业还可以将自己的大数据产品上架到数据交易所进行场内交易,实现数据交易流通的同时,还可以进一步融资。
作者简介:
END.