主页 > Z生活图 >GDPR资料保护条例将对资料科学领域发展上造成严重影响吗? >

GDPR资料保护条例将对资料科学领域发展上造成严重影响吗?

2020-06-07

GDPR资料保护条例将对资料科学领域发展上造成严重影响吗?

欧盟于 2018 年 5 于 25 日出台资料保护条例 GDPR ,随之在资料科学领域引起了广泛的讨论,这是因为严格的资料条例,将对资料科学项目,尤其是机器学习领域产生巨大的影响。

目前,随着技术的进步,机器学习也在飞速发展,全球对这一领域的投资也日益增加,机器学习正在迅速成为企业资料科学的趋势。而随着严格的 GDPR 问世,对机器学习究竟会产生哪些影响?如何在 GDPR 的限制下继续资料科学及其研发项目?

刚刚颁布的 GDPR 还没有全面生效,大家对于如何执行这一法规的认识还是模糊的,仍在不断摸索中,但 GDPR 带来的关键问题和挑战已逐渐显现。资料管理平台 Immutable 的首席隐私官与法律工程师 Andrew Burt 撰写了一篇文章,一一解释了自己公司受到的关于对机器学习影响的三大问题。

问题 1: GDPR 是否会禁止机器学习?

当然不是。即使是 GDPR 生效后,在欧盟,机器学习也不会被禁止。但是,不可避免地,此后机器学习的应用都会涉及沉重的法规问题。

根据法规的要求, GDPR 将全面禁止没有人为干预、并会对资料主体产生重大影响的自动化决策。值得注意的是, GDPR 适用于所有使用了欧盟资料的情况,这些资料可能都能够辨识出一个资料主体,而对于使用了大量资料的资料科学计划,这意味着 GDPR 将适用于其所有的活动。

GDPR 对于「自动化决策」的定义是指,在没有人为直接参与的情况下自动作出决策的模型。这包括了对资料主体的自动「使用者画像分析」,例如将使用者分类为「潜在客户」或「40 -- 50 岁男性」,以确定贷款申请人是否有资格获得贷款。

因此,鉴别机器学习模型是否是属于「自动化决策」,首先是看模型是否是在没有人为干预的情况下自动部署的,如果是,那幺这样的模型默认为是被禁止的。而事实上,大量的机器学习模型都是这种情况。儘管许多律师和资料科学家反对过这一点,但参与起草和解释 GDPR 的欧盟官方——第 29 工作组对于这一条解释就是如此。

GDPR 禁止机器学习了吗?「禁止」这一词很具误导性。禁止自动化决策是可以存在特例的,使用「禁止」这一词太过强硬了。一旦 GDPR 生效,资料科学家应该期望的是,机器学习的大部分应用仍还可以实现,只是增加了他们不能忽视的合规负担。

下面会详述「禁止」以外的特例。

GDPR 法规明确了使用自主决策合法的三个领域:

事实上,最后一条是较为符合实际的,解决这一禁令的常用方法,就是资料主体明确允许他们的资料可以被模型使用。但是,让资料主体同意并不容易。资料主体可以同意许多不同类型的资料处理,并且他们也可以在任何时候撤销同意,这意味着在资料的使用上,需要精细化地管理资料主体对于资料使用的同意,允许资料主体选择不同类型的同意,动态以及要提供足够的使用者友好性,即让资料主体有能力理解他们的资料如何被使用的,并且给予使用者控制资料使用的权力。

GDPR 并没有完全禁止使用机器学习模型,但它会使得很多机器学习的模型及其输入资料的部署和管理变得越来越困难。

问题 2: 机器学习是否需要「可解释性」?

关于 GDPR 对机器学习的影响,我最常听到的问题之一,就是机器学习是否需要「可解释性」。去年作者特意写了一篇文章讨论这个问题。

这个问题源于 GDPR 本身的条例有些模糊不清。

「可解释性」这一点带来的风险是非常高的,可能会对企业资料科学产生巨大的影响。机器学习模型的複杂结构赋予了其神奇的预测能力,想要把其内在构成解释清楚是很困难的。

我们从 GDPR 条例的文本开始说。

在条例的第 13 -- 15 条中, GDPR 一再声明资料主体有权了解关于资料使用的「有意义的讯息」和自动化决策带来的「重要和可预见的后果」。然后,第 22 条中, GDPR 规定,只有在具备了上述影响类型的情况下,使用者才可以对决策提出反对。最后,第 71 条序言是该条例中包含的不具约束力一部分,它指出资料主体可以要求自动化决策给出合理的解释,并且资料主体能够质疑这些决策。总而言之,这三项规定给资料的使用带来了更複杂的场景。

由于文本的模糊不清,欧盟监管机构可能以最严格的方式去解释这些规定,例如要求机器学习的模型对内部结构做出完整解释,但这样的做法似乎是不合理的。

这些文本更恰当的解释可能是,当机器学习用于没有人为干预下做决策时,以及当这些决策对资料主体产生重大影响时,资料主体有权对正在发生的事情有基本的了解。 GDPR 中的「有意义的讯息」和「可预见的后果」或许可以这样解读。欧盟监管机构可能会将重点放在资料主体有权就资料使用情况作出决策上,而对于资料使用的透明度,则可能会依据于模型及对应的情况而定。

问题 3:资料主体是否有权要求删除他们的讯息后重新训练模型?

这也许是 GDPR 条例下最难回答的问题之一。换句话说,如果一个资料科学家使用某个资料主体的资料来训练模型,然后在这个模型中融入了新资料,那幺此前的资料主体对于之前用他们的资料训练出来的模型是否还有一定的权力?

据我所知,答案将是否定的,至少在实践中是这样的,只有非常少的特例。为了解释更清楚,我先从这些特例说起。

在 GDPR 下,所有资料的使用都需要在法律的允许下进行, GDPR 第 6 条规定了六项对应的法律依据。其中有两个最重要的「合法权益」的依据,并且资料主体明确同意使用该资料。这种情况下,当处理资料是依据于资料主体的同意时,资料主体将仍保留对该资料的重要控制权,这意味着他们可以随时撤回同意,处理该资料的合法性将不再存在。

因此,如果组织从资料主体收集资料,资料主体同意将他们的资料用于训练特定的模型,但随后又撤回同意,何时资料主体可以强制模型重新训练新资料?

答案是只有当该模型继续使用该资料主体的资料时才可以。

正如 29 工作组所指出的那样,即使资料主体撤销了同意,撤销前所发生的所有的处理仍然是合法的。因此,如果资料被合法地用于创建模型或预测,那幺无论这些资料的产出是什幺,都是可以被保留的。事实上,一旦用一组训练资料创建了模型,那幺训练资料的删除和修改都不会影响到之前的模型。

但是,一些研究表明,模型可能会保留关于训练资料的讯息,即使在训练资料被删除之后,仍然可以通过模型找到原始资料,正如研究人员 Nicolas Papernot 等人写的一样。这意味着在某些情况下,保留训练模型而删除原有资料,不能保证在以后原有资料不会被重现,或者说在某些情况下,原有资料还是仍可能在使用的。

但是从模型中复原原有的训练资料有多大可能呢?几乎是不可能的。

目前所知,这种研究只在学术环境中进行,企业的资料科学与学术环境相差甚远。正是由于这个原因,作者不认为模型会因为受到资料主体的要求而重新训练。虽然这在理论上是可能的,但已经是非常边缘的特例了,只有在特定情况下特例发生之后,监管机构和资料科学家才需要去处理。

儘管如此,所有这些问题都存在大量的细微差别,未来这些细微差别一定会出现。 GDPR 有 99 条正文和 173 条引言,注定是非常长且複杂的法规,并且随着时间的推移变得更加複杂。

但是,至少有一点是明确的:要感谢 GDPR ,在未来的大规模资料科学计划中,律师和专门负责处理隐私的工程师将会成为资料科学计划的核心成员。



上一篇: 下一篇:

行事高调、风格惹议的街口支付执行长胡亦嘉,再度因负面行为登上新闻版面。「街口网络股份有限公司」于20

「街口涉嫌违法解聘爱评网员工」风波已经延烧一个礼拜之余,相信许多读者都透过本站以及其他友业,对这起

街口收购爱评网事件有了后续发展,据了解,街口已向法院提告当初协助爱评网开设记者会的立法委员余宛如、台

经过几天的争议后,街口支付接管了Jello,也对贴图审核机制不周全表达歉意,除了下架Jello的Ap