第307章 风险与控制:论生成式人工智能应用的个人信息保护

【内容摘要】生成式人工智能的技术跃进架空了个人信息处理的告知同意规制和最小必要原则,引发了虚假信息生成和个人信息泄漏的广泛风险迭代问题。传统个人信息的权利保护路径面临认知和结构困境,无法应对生成式人工智能给个人信息保护带来极大挑战。以风险控制为导向的个人信息保护机制不强调信息主体对个人信息的绝对控制,旨在通过识别、评估、分配和管理将风险控制在最小范围内,可以灵活和实用地平衡生成式人工智能应用中的信息利用和风险控制,提供有效的解决方案。在风险控制理念下,对告知同意规则和最小必要原则进行风险化解释与调试,并建立从预防到识别再到控制的虚假信息生成风险的全过程应对机制,以及基于风险的个人信息保护合规管理体系,是当前的最优选择。

【关键词】生成式人工智能 ChatGPT 个人信息保护 风险控制

文章来源:《政法论丛》2023年第4期

因篇幅所限,省略原文注释及参考文献。

在2023年初,ChatGPT凭借其卓越的自然语言处理能力成为人工智能领域的重要里程碑,引起了社会生产生活和未来科技发展的颠覆性变革。然而,以海量语料库数据为基础的生成式人工智能在为社会带来积极变革和影响的同时,也引发了诸多个人信息保护层面的问题。2023年3月20日,ChatGPT发生了一起严重的信息安全事故,部分用户的聊天记录片段、用户信用卡信息(包括最后四位数字、到期日期)、姓名、电子邮件地址和付款地址等敏感信息遭到泄露。3月31日,意大利数据保护当局GPDP宣布,由于OpenAI未经同意收集、使用和披露个人信息,即刻对ChatGPT施加暂时限制,成为全球范围内第一道针对ChatGPT的政府禁令。而当前诸多迹象预示生成式人工智能应用即将迎来大规模普及。这意味着,生成式人工智能给个人信息保护带来的潜在风险可能伴随人工智能技术的发展而持续发酵。为促进生成式人工智能的健康发展与规范应用,国家网信办联合国家发展改革委、教育部、科技部等七大部门于2023年7月13日公布《生成式人工智能服务管理暂行办法》,并自2023年8月15日起施行。人类社会在迎接新兴人工智能科技发展同时,须直面与冷静审视生成式人工智能技术的正当性,须前瞻性思考、设计与配置与之匹配兼容的个人信息保护系统制度。

一、生成式人工智能开发凸显个人信息保护风险

以ChatGPT为代表的生成式人工智能产品首先于2022年底在美国推出,目前已被广泛用于智能办公、智慧科研等许多领域,或将成为推动第四次工业革命的关键因素。从生成机制来看,生成式人工智能本质上是一种“生成型预训练语言转换器”。生成式人工智能技术服务提供者通过各种方式收集海量数据来形成语料库,再通过连接大量的语料库来训练模型,以使其能够学习和理解人类语言,并进行交流对话和内容生成。这一过程中伴随着循环式的数据收集与分析,涉及大量的个人信息处理活动,无疑将给个人信息保护带来相应风险及多重挑战。

(一)告知同意规则被架空的风险

告知同意是我国个人信息处理的核心准则,这一规则要求信息处理者在处理个人信息时须履行告知义务,并征得信息主体明确同意,方可进行处理,其目的在于确保信息主体对其个人信息的处理过程具有充分的控制权和知情权。《网络安全法》一度将告知同意作为个人信息处理的唯一合法性基础,后来颁布的《个人信息保护法》尽管规定了更加多元化的合法性基础,但仍保留了告知同意基础性的地位。然而,在生成式人工智能的开发和应用过程中,尤其是语料库构建与更新的过程中,告知同意规则往往无法得到有效的贯彻。

生成式人工智能语料库的构建与更新可以分为被动和主动两种类型。被动的语料库构建与更新指大量用户通过对话框自行输入信息,系统自动将该类信息保存并纳入语料库。生成式人工智能技术的高度自动化和复杂性特点使得其难以在自动收录用户个人信息时向信息主体提供充分、全面的告知,让信息主体完全了解个人信息的处理过程和结果,从而造成对告知同意规则的违背。以ChatGPT为例,OpenAI的服务条款规定OpenAI可以广泛使用用户输入和输出的内容,将其纳入语料库并用于改进ChatGPT。ChatGPT用户在首次注册账号时将收到来自系统的个人信息收集提示,用户点击弹窗下方“下一步”即视为对其个人信息收集的同意许可。然而,从弹窗提示和OpenAI隐私政策具体内容来看,均只涉及到基本的信息收集事项,不涉及具体的个人信息处理方式和算法规则,而这恰恰是生成式人工智能个人信息处理中最为关键的内容。尤其是在语料库模型训练方面缺乏透明度和公开性,这导致用户无法全面了解其个人信息的处理流程、用途、保存期限等关键信息,从而无法判断自己的信息是否被合理使用和保护。可见,OpenAI在收集用户个人信息时未完全履行告知义务。同时,由于用户只能选择接受隐私政策并同意信息处理,否则将无法享受由ChatGPT提供的服务,用户的同意实际上并不是真正的自主选择,往往只是一个形式上的程序。

主动的语料库构建与更新则包括数据爬虫、图书数字化、收集学术文献数据等方式,其中以数据爬虫为主。OpenAI官方网站的“我们的方法”页面表明,为支持其人工智能系统的训练和发展,OpenAI使用数据爬虫技术来获取大量的文本数据。这些数据来源包括博客、Bing搜索引擎、维基百科等公共网站和在线资源,以及专业非营利性组织如Common Crawl通过其他渠道获得的数据。数据爬虫技术可以通过程序自动地收集互联网上的大量数据,这种收集方式的优点在于其能够快速、高效地获取大量的数据,使得模型的训练和表现更加准确和可靠。然而,这些数据中可能存在个人信息,其来源难以追溯和验证。生成式人工智能通过“灌入”这些数据,未经告知和征得信息主体同意,直接架空个人信息处理的告知同意规则。可见,在生成式人工智能语料库构建与更新的过程中,无论是被动的个人信息“输入-收录”还是主动的数据爬取,告知同意规则均在一定程度上处于缺位状态。

(二)最小必要原则被虚置的风险

最小必要原则要求信息处理者在处理个人信息时,必须有明确、合理的处理目的,并且该目的必须与个人信息的处理直接相关,同时采用对个人权益影响最小的方式进行处理。该原则包括三方面的内容,即最小化、相关性和合比例性。最小必要原则源自传统的比例原则,是国内外法律实践中被普遍接受的个人信息处理原则,我国个人信息保护法草案历次审议稿中均包含关于最小必要原则的规定。然而,在生成式人工智能应用实践中,存在着信息收集超出必要范畴、信息处理期限不明、信息用途不清晰等问题,这些问题导致最小必要原则难以得到有效的贯彻。

首先,最小必要原则中的信息处理最小化要求个人信息处理应限制在为实现特定目的所必不可少的范围内,即离开某项个人信息的处理,就无法合理地通过其他手段实现目的。信息处理最小化可进一步细化为最少数量、最少类型、最短存储时间、最小共享范围、最低处理频率等具体内容。生成式人工智能作为一个超大型语言模型,通常需要逾亿万单词的人类语言数据支持。海量训练数据的收集是其获取语言生成能力、上下文理解能力和世界知识能力的关键前提,但也可能因此在信息处理数量、频率、类型等方面违背信息处理最小化要求。例如,在生成式人工智能应用实践中,由于其数据处理方式的复杂性和不确定性,往往难以确定个人信息的处理期限。当生成式人工智能的应用场景发生变化或数据集需更新时,信息处理者可能需要重新处理之前收集的个人信息。这种情况可能会导致信息主体只同意了一次处理,却面临自己的个人信息被无期限处理的情形,这与个人信息处理的最小必要原则不相符。其次,根据《个人信息保护法》第6条第1款,最小必要原则中的相关性要求必须是直接相关,即实现处理目的与个人信息处理之间具有必然的、紧密的联系。在语料库构建过程中,生成式人工智能有时会收集与处理目的无关的个人信息,例如用户的搜索记录、设备信息、通信信息,用户的时区、地点、国家、日期和具体接触时间等。这些信息的收集与最终的文本生成服务之间缺乏必要联系,违背最小必要原则中的相关性要求。最后,最小必要原则中信息处理合比例性要求个人信息处理所带来的风险与特定目的实现所带来的利益相比须符合一定比例。然而,生成式人工智能语料库数据中包含大量敏感的用户个人身份信息,如姓名、电子邮件地址、电话号码等,而这些信息并非实现优化模型目的必不可少,一旦这些敏感个人信息泄露或被不当利用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害。因此,处理敏感个人信息所带来的风险与实现特定目的所带来的利益(优化语言模型)相比显着不合比例,不符合最小必要原则中最小化、合比例性两个子原则的要求。

(三)虚假信息生成与累积的风险

生成式人工智能强大的泛化和生成能力也为个人信息保护带来一系列负面影响,尤其是大量虚假信息生成与累积。根据《个人信息保护法》第8条,处理个人信息应当保证个人信息的质量,避免因个人信息不准确、不完整对个人权益造成不利影响。然而,据美国新闻可信度评估与研究机构NewsGuard测试,ChatGPT模型能够在极短时间内改变信息,生成大量令人信服但缺乏信源的内容。究其原因,生成式人工智能生成的内容是基于对语料库的学习和预测,是一种经验的再现,并非从语义和逻辑角度进行推理和判断的产物,对于生成内容本身的真实性和准确性,生成式人工智能无法进行判断。这一特点可能导致生成式人工智能产生大量虚假信息,从而侵害个人信息权益,甚至造成对公共利益和国家利益的危害。

事实上,虚假信息生成与累积、乃至泛滥已开始对社会和个人产生严重影响。近期,一起由信息来源不实引发的ChatGPT编造法学教授性骚扰丑闻事件,再次凸显生成式人工智能所带来的信息可信度和可靠性方面的潜在风险。这种看似中立可信的技术能力实则对判断能力不足的用户产生极大了误导性,同时也对相关信息主体的个人信息权益、名誉权、隐私权以及其他人格权造成损害。可以设想,如果虚假信息被误用于学术研究,将会严重影响科学研究的严谨性,并导致相关政策制定缺乏合理性。更为严重的是,恶意用户行为者或团体可能会利用该技术故意制造和传播虚假的新闻和信息,甚至生成不端或仇视性的信息,以操纵舆论。这将严重影响政治稳定,破坏公众对政治体系和社会价值观的信任。

在当今全球各种思潮、文化和价值观念相互碰撞的背景下,人工智能技术面临着被政治操纵、用作意识形态宣传的风险,我国在生成式人工智能开发与应用中应当重点关注防范。西方发达国家掌握大数据和人工智能核心技术,按照其自身价值观制定全球政治秩序和规则,裁剪符合自身意识形态标准的数据库,加剧全球信息体系和政治秩序中的不平等和垄断现象。在这种背景下,生成式人工智能技术服务提供者可以通过操纵算法或裁剪数据库的方式,在模型中植入某些价值观。如果开发者持有历史错解、文化偏见或种族歧视的价值观,这些观念可能会最终呈现为不实或仇视性的文本信息,并通过模型与用户的互动产生潜在的不利意识形态影响。在当今高度互联的社会中,生成式人工智能大面积生成虚假信息已经不再是单纯的个人信息权益问题,而是关系到国家安全和稳定的核心议题。2016年微软的聊天机器人Tay被黑客攻击,并被恶意操作,在网上传播种族主义和仇恨言论便是先例。Meta开发的聊天机器人Meta AI也有类似的经历。

(四)个人信息泄露频发的风险

个人信息泄露频发风险是生成式人工智能将给个人信息保护带来的又一大痛点。当前,生成式人工智能应用中的个人信息安全面临来自人工智能系统内在隐患与外部风险的双重考验。ChatGPT开发者OpenAI的首席技术官米拉·穆拉蒂率先表示,必须谨慎使用ChatGPT,切勿在其上上传敏感信息或核心数据,以免信息泄露,导致损失。为此,许多互联网公司纷纷向员工发出相关警报。微软基于预防商业机密泄露的考虑,已宣布禁止公司员工向ChatGPT分享公司敏感数据。同样,亚马逊公司律师也警告员工“不要与ChatGPT分享任何亚马逊的机密信息,因为他们有可能将其用于训练未来的模型。”事实证明,这种担心并非多余。近日,就在GPT-4最新发布之际,ChatGPT出现严重技术漏洞,用户在社交媒体上表示看到其他人的历史搜索记录标题。OpenAI随即立刻关闭ChatGPT,当用户再次打开该系统时,历史聊天记录侧边栏已被替换为“历史记录暂不可用,我们正在努力尽快恢复这一功能”。该事件正是由内部开源数据库错误所致,随后OpenAI首席执行官Sam Altman在社交媒体发文,宣布修复程序已验证完成,并对此“感觉十分糟糕”。可见,与其他人工智能技术一样,生成式人工智能模型本身存在着漏洞和安全隐患。诸如模型设计不当、存储系统错误、算法漏洞等都可能导致用户个人信息泄露频发。此外,黑客入侵人工智能系统的技术已催生出一个庞大黑色产业链,犯罪分子通过植入病毒性插件侵入数据库,也将对用户个人信息安全造成严重威胁。