知识图谱｜隐私计算中的差分隐私技术是什么？

2023-11-1711:00

论道 Web3 云服务

2023-11-17 11:00

论道 Web3 云服务

2023-11-17 11:00

收藏文章

订阅专栏

“Web3 云服务知识图谱”是我们针对 Web3 云服务从零到一的入门级文章，我们希望这个栏目能让大家全方位了解到 Web3 云服务的内容，也让刚接触这个领域的人能够快速掌握 Web3 云服务相关知识。今天是该栏目的第 7 期，我们将在本文中介绍隐私计算中的另一种技术：差分隐私。

什么是差分隐私技术

Web3 Cloud Service

在前面几期知识图谱中我们提到了隐私计算中的三大主流技术：多方安全计算、联邦学习和可信执行环境。这些技术都是基于密码学或硬件的方法，在不共享原始数据的情况下对数据进行加密或安全的计算。然而，这些技术并不能完全保证数据的隐私性。

在数据分析和数据挖掘的过程中，我们经常需要对数据进行发布或查询，以获取数据的一些特征或规律。但是，这些数据往往包含了一些敏感的个人信息，如身份、健康、财务等，如果直接发布或查询，就可能导致个人隐私的泄露或滥用。

为了解决这个问题，一些传统的隐私保护技术，如数据脱敏、数据匿名化等被提出来，它们通过删除或修改数据中的一些标识信息，来降低数据的可识别性，从而保护数据的隐私。

但即使是这样也不能完全防止隐私泄露，因为在数据发布或查询的过程中，还可能存在一些背景知识或辅助信息，如公开的数据库、社交网络、新闻报道等，这些信息可以与发布或查询的数据进行关联或比对，从而推出某些个体的隐私信息。

例如，有一个研究人员发布了一个匿名化的医疗数据集，其中包含了一些患者的年龄、性别、疾病等信息，但没有包含患者的姓名和身份证号等标识信息。然而，如果有一个攻击者知道某个患者的年龄和性别，并且从新闻报道中得知这个患者患有某种罕见的疾病，那么他就可以利用这些背景知识，从匿名化的数据集中找到这个患者的记录，导致这个患者的隐私被泄露。

为了克服传统隐私保护技术的局限性，密码学家提出了差分隐私（Differential Privacy）。这种技术可以在不泄露个体信息的情况下，从数据中获取有用的统计信息。

其核心思想是，如果一个数据分析或查询的结果，在数据集中添加或删除任何一个数据后，都不会发生明显的变化，那么这个结果就是差分隐私的，也就是说，这个结果不会泄露任何一个数据的存在或缺失。

为了实现这个目标，差分隐私采用的方法是，在数据分析或查询的结果上添加一些随机的噪声，使得结果的变化在一定的范围内，从而保护数据的隐私。