当前位置:首页 > 站长资讯 > 正文内容

火山引擎开源基于差分隐私的SQL *** 工具Jeddak-DPSQL

a811625533年前 (2023-05-30)站长资讯37

近日,火山引擎安全研究团队对外开源了Jeddak-DPSQL(项目地址:https://github.com/bytedance/Jeddak-DPSQL),这是基于差分隐私的SQL *** 工具,适用于数据管理者可信的场景模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。

据悉,火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:

●零改造、零感知:更大程度避免影响业务现有查询方式,更好做到业务零感知、零改造;

●良好、灵活的适配性:能够适配不同数据引擎的查询语法,以及能够处理包含多层嵌套、多重计算、多表连接等情形的复杂 SQL 语句;

●安全性与可用性平衡:能够根据业务数据质量要求,计算合理的隐私预算,在安全性和数据可用性之间保持平衡;

为更好解决数据安全和隐私合规治理相关问题,火山引擎安全研究团队进行了产品调研,目前市面上在SQL查询场景下加入差分隐私能力的产品,发现这些产品大多都没有提供SQL 的自动化分析能力,需主动调用 API 或是在 SQL 中调用 UDF 来引入差分隐私能力,接入成本较高。其中OpenDP产品限定了输入 SQL 的方言,仅支持 SQL 92标准,难以在 Hive、ClickHouse 等主流数仓引擎中透明应用。

同时,火山引擎安全研究团队也注意到云服务厂商在To B场景下会提供多款数据分析产品,部分产品的模式面临泄漏用户隐私、法律合规的风险,该类产品通常是通过数据库引擎使用面向实时分析的 clickhouse,计算逻辑用SQL查询的方式执行,因此考虑结合差分隐私技术提供隐私保护的SQL查询能力。

基于上述挑战,火山引擎安全研究团队自主研发了Jeddak-DPSQL ,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。

据了解,Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。同时,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。

一、全面了解 Jeddak-DPSQL

1、 Jeddak-DPSQL介绍

Jeddak-DPSQL采用中心化差分隐私(Centralized Differential Privacy,简称CDP,适用于数据管理者可信的场景)模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:

●首先,核心服务接受客户提交的SQL查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将AVG计算改为SUM/COUNT);

●然后,核心服务调用元数据管理服务,计算重写后的SQL查询所对应的数据表敏感度,同时在数据库上执行重写后的SQL查询,得到原始的查询结果;

●最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。

2、 Jeddak-DPSQL解决的问题

案例背景

假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。

查询需求

假设要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:

风险

如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:

通过执行上面的 SQL语句1 和 SQL 语句2,可分别得到两个查询结果:

那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008*49.3276 = 5919706.62,120007*49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)

以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。

因此,在上述SQL查询场景下,可以通过接入Jeddak-DPSQL对SQL进行分析和重写,最终执行重写后的SQL能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。

3、 Jeddak-DPSQL在火山引擎的应用验证

1.Jeddak-DPSQL已接入火山引擎的增长分析(finder)、A/B 测试等产品,间接服务300+外部客户,日均处理查询请求 200+。Jeddak-DPSQL服务不仅帮助业务满足了隐私保护和业务合规的需求,同时也成为创新型隐私计算技术应用的典范案例。

2.开放隐私计算OpenMPC对外公布了“隐私计算2021年度优秀应用案例TOP10”。火山引擎云安全凭借“融合差分隐私的火山引擎DPSQL服务”案例,成功入选TOP10。

二、如何使用Jeddak-DPSQL

GitHub 开源项目地址:https://github.com/bytedance/Jeddak-DPSQL

1. 下载

2. 快速部署

完成Jeddak-DPSQL下载后,按照README中的部署引导部分完成服务部署,整个部署过程包括以下步骤:

●服务依赖包安装:进入项目根目录,使用pip install -r requirements.txt安装服务所需完整pip包

metaData存储准备:在使用DPSQL时,需要维护源数据表的MetaData信息,为后续加噪计算敏感度作准备。Jeddak-DPSQL使用Mysql对相应元数据信息进行存储,因此需要用户提前在自己的Mysql数据库中创建相应的表

●隐私预算消耗存储准备:使用Jeddak-DPSQL系统过程,可以记录对表级别的数据查询时的隐私预算消耗。主要通过Mysql进行记录,因此需要用户提前在自己的Mysql数据库中创建相应的表

●数据库连接配置:Jeddak-DPSQL中使用数据库主要有Mysql和Redis,因此需要对这两个数据库连接地址进行配置

●服务启动:完成上述配置后可以在项目根目录运行bootstrap.sh脚本启动服务

3. 正式使用

完成Jeddak-DPSQL部署后,按照README中的快速开始部分可以进行功能体验,整个过程如下:

●选择要测试的数据源(Hive或ClickHouse),导入要进行查询测试的原始数据集

●初始化metadata和隐私预算

○生成 metadata

启动dpsql服务后, 调用接口 /api/v1/metadata/generate,生成metadata,可参考:

○确认metadata 生成完成

调用 /api/v1/metadata/get 接口,确认 metadata 生成完成

●调用隐私保护查询接口,获得经过差分隐私保护的查询结果

更多接口使用方式可以参考项目README中的API Documentation部分。

三、后续计划

火山引擎安全研究部门相关负责人表示,Jeddak-DPSQL会长期维护,欢迎大家使用。他也指出,近期开源的Jeddak-DPSQL是首个版本,因此还存在很多不完善的地方,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。(作者:谭宁浩)

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://2345hao.cn/blog/index.php/post/162.html

分享给朋友:

“火山引擎开源基于差分隐私的SQL *** 工具Jeddak-DPSQL” 的相关文章

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

  1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。   但是现代信息社会并不能避不开国与国之间的问题。   “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

  威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。   2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。   但这对投资者而言,可能并不是一件好事。   由于身在传统电力行业,科研步伐又...

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

  钱流不进口袋的企业,真的算是赚钱企业吗?   盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。   没有现金流入的盈利只是纸面数字,纸面数...

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

  作为“光伏、风电”等大热门行业上游关键零部件供应商的新风光,即将登陆科创资本市场。   2021年3月24日,以大功率电力电子节能控制技术为核心技术平台,构筑电气控制装备产品体系的新风光,在科创板开启招股环节。   招股资料显示,新风光本次共计将募资5.9亿元,其中1.5亿元用于变频器和SV...

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

  历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。   作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

  全球最大的丙氨酸生产商华恒生物,即将亮相科创资本市场。   2021年4月7日,以合成生物技术为核心,主要从事氨基酸及其衍生物产品研发、生产、销售的华恒生物,于科创板开启了路演询价环节,距离正式亮相科创板仅剩一步之遥。      图/Wind   目前,华恒生物拥有接近50%的市场占有率...