酷应用

【技术分享】数据共享安全架构-设计篇

百家作者：唯品会安全 2019-09-25 04:39:53

鸣 ?谢

VSRC感谢业界小伙伴——mcvoodoo，投稿精品原创类文章。VSRC欢迎精品原创类文章投稿，优秀文章一旦采纳发布，将有好礼相送，我们已为您准备好了丰富的奖品！

（活动最终解释权归VSRC所有）

一直以来，不同机构之间的数据协作和共享都困难重重，主要原因在于担心敏感信息泄漏。因此我们探索了一种信任模型，数据拥有方可以选择信任级别和数据输出方法，包括文本、匿名化、同态加密等。另外，这种数据合作可以由第三方来执行。

一

信任模型

模型设定3个基本级别：完全信任、部分信任、不信任。部分信任是指未必会泄漏，但会尝试获取原始内容，例如数据平台管理员可能会读取原始信息，但不会修改，也不会外传。由于相关方的增加，例如云平台、数据需方的信任级别不同，因此最终形成5级。

1级：完全信任：数据供方完全信任所有其他方，且愿意提供所需原始数据。

2级：完全信任云基础架构，部分信任需求方。完全信任云基础架构，因此愿提供原始数据，由云服务进行数据匿名处理等。

3级：完全信任云基础架构，不信任需方。提供原始数据给云服务，由云服务进行加密等高强度处理给需方。

4级：部分信任。部分信任所有其他方，但需要对敏感字段进行处理。

5级：不信任。完全加密后提供给云服务平台和需方。

因此在这个模型里，需要一个数据处理组件，数据处理组件在数据共享转移之前可进行匿名化、同态、数据删除等动作。对于：

1级：信任，置空，可共享原始数据。

2级：进行假名化或匿名化，云服务执行，匿名化的最终目标是完全删除该字段。

3级：同态加密字段，云服务执行。

4级：级别2的操作由供方执行。

5级：级别3的操作由供方执行。

数据匿名化和数据价值之间总是需要权衡，数据越匿名价值越低。例如对IP匿名化，假设该IP是个攻击者，则无法了解具体地址，也无法在防火墙上拦截。假名受到影响就小得多，假名化之后可以再次检索数据。

二

总体架构

架构是运作的主要组件，本地组件在信任级别4-5运行，也即对云服务商不信任。交换网关和门户设计在供方环境或云服务运行，无论数据如何生成，都可以通过可插拔组件MSS客户端提供给网关，用户通过浏览器访问。

2.1 ?云架构

框架保护4个子系统：数据共享策略管理、信息共享基础架构、信息分析基础架构和通用安全服务。

产消者：指定生产/消费者。生产者是数据供方，消费者是数据消费需求方。数据共享被数据共享策略管理规则来管理。

1、数据共享策略管理

负责数据管理生命周期，包括模板创建、策略实例化、策略执行和终止。策略模板是人为创建的，每个模板对应特定级别的特定目的，比如匿名化特定字段、删除某些字段、同态加密。消费者从其中一个模板实例化策略进行定制，比如指定消费者账号、可访问数据结果账号等，这些策略被保存，可审计。当生命周期到期后，消费者则无法访问数据，而数据也被清除，以减少可能的暴露面。

数据共享策略管理包括以下：

--数据操作策略，说明保护策略

--访问控制策略，定义允许谁访问什么目的，受何制约

--附加策略，对分析结果的访问控制继承

2、信息共享基础设施

对数据保护对象的管理，数据保护对象附加了数据共享策略管理，这个附加首先由数据共享策略管理编辑器加密，编辑器包含特定组件Bundle Manager来管理数据，然后再存储，这样确保存储受到攻击时，攻击者仅能得到秘文。

数据有很多不同格式，项目上我们使用了标准STIX格式存储。因此Bundle Manager里的格式转化将数据插入之前进行数据格式转换。

编辑器还在存储之前强制消费者执行数据共享策略管理，且每次都要从数据存储中匹配。数据共享策略管理的授权规则由编辑器里的授权引擎调用，如果授权许可，则执行相关操作。

3、信息分析基础架构

提供分析接口，消费者选择要分析的数据，并声明调用分析服务。分析执行结果在公共访问控制策略下计算。同时包括继承规则，分析结果和继承规则结合，作为新的数据提交给本地组件，可以由授权的消费者检索，也可以用作后续分析服务的输入。

4、通用安全服务

通用安全服务的功能包括：身份管理器对产消者进行身份验证，安全审计管理器跟踪操作，确保按规则运行，密钥和加密管理器对数据加密来提供计算和存储的保密性。

2.2 ?云混合架构

下图中的虚线组件都是可选本地组件，根据消费者信任级别和资源来选用。交换网关是最终用户和数据交换的接口/中间件，网关从不同数据源检索或收集数据。托管安全服务（MSS）客户端是一个根据用户环境定制的组件，负责收集数据并将其上传共享分析。用户则通过Portal到网关，在浏览器上管理任务、共享数据和选择控制措施等。协调器接受计划任务，定期收集数据自动运行。

本地组件功能相同，只有位置和类型有不同，在信任级别4和5上运行，对消费者完全不信任，当本地组件支持Move操作时（也即把数据从源移动到云），本地组件中的数据共享策略编辑器通过数据控制策略，在共享之前对数据清理，以达到保护敏感数据目的。

2.3 ?部署模型

部署模型用来匹配不同场景和信任级别，描述各子系统位置。一共有4种模型，在大多数情况下，网关和Portal在本地运行。

?完全集中：所有子系统仅在云中运行。此模型支持三个完全可信的信任级别。

?混合：本地组件在边缘设备和云上运行，所有框架子系统都是基于云的。该模型主要用于通过执行本地组件中的所有数据操作来支持信任级别4和5。

?分布式本地组件：本地组件仅在边缘设备上，信息分析基础架构和数据共享策略管理器在云中。此模型支持部分受信任和不受信任的信任级别。

?完全分布式：所有子系统都在边缘设备上运行。此模型仅支持不受信任的级别。存储，共享和分析以完全分布式方式完成，利用基于分布式哈希表（DHT）的模型进行通信、分发和计算。某些分析（例如基于安全多方计算的分析）特别适合此部署模型。

下图显示了部署模型中的信任与数据控制权衡：

通用安全服务子系统在整个方案可信度中起着关键作用，特别是在考虑分布式场景时。例如，用于身份管理的分布式通用安全服务可以利用身份联合技术，密钥和加密服务可以利用PKI来解决密钥分发问题。但是，审计最好应集中在可信的第三方，以解决职责分离和不可否认性问题。最简单的场景是通用安全服务的集中式云部署，并假设它完全受到所有人的信任。这个体系可在身份管理，密钥和加密管理以及审计领域中整合已有技术。

不同的隐私保护方法对数据分析的准确性和性能有影响，下表是对准确性和性能的影响评估。纯文本具有最高的准确性和性能，但无法保护隐私。假名（例如基于加密），同态加密技术和匿名化都提供了隐私，但是以性能为代价，同态加密性能最差。此外，匿名化技术会失去准确性。因此，只有在不信任分析服务或其他数据共享的情况下才应使用同态加密。