数据湖的各项安全实践
组织开始意识到,如果他们不被限制于预定义的模式、以及在事务或分析系统中的使用方式,那么他们可以从数据中获得更多的价值。
数据可以被用于开发、训练、分析机器学习(machine learning,ML)模型,或是针对在任何类型的数据库上,运行的现有工作负载,进行现代化的改造。
云计算能够以前所未有的速度和规模,快速配置现代化的工作负载。
使用Apache Kafka等数据流处理工具,近乎实时地处理流入数据湖中的数据。
使用Google BigQuery或Amazon Athena等高性能查询引擎,直接从数据湖中获取特定的数据洞见。
使用Elasticsearch等工具对大量结构化和非结构化的数据进行按需分析,对来自日志和运营的数据予以搜索、过滤和可视化。
访问控制:针对数据库表的访问权限控制,向来是灵活多变、且极具挑战性的。而针对数据湖的权限设置更是如此。我们往往需要基于特定的对象或元数据来予以定义。否则,整个组织的人员都可以访问数据湖的话,其中的个人数据、以及根据合规性要求保密的数据,就没有了安全保证。根据 Forrester Consulting 曾委托进行的一项研究,58% 的安全事件都是由内部威胁所引起的,如果不加以控制的话,员工对敏感数据的访问将是一场安全噩梦。
数据保护:数据湖通常充当的是组织内信息的单一存储库。因此,它往往成为了最有价值的攻击目标。如果没有适当的访问控制机制,不良行为者可以据此获得整个组织的敏感数据,甚至修改各种访问权限。
治理、隐私和合规性:由于数据湖的数据源多且杂,因此某些数据可能包含了在不同的系统和地域范围内属于隐私、甚至是违规的信息内容。由此产生的跨数据湖存储架构的定位、以及对不同层级数据的管控,将具有挑战性。
梳理标准化的数据访问流程:由于既可以给真实的用户使用,也能够供集成系统的调用,因此该流程应当能够跟踪数据的访问和使用的全过程。
创建数据的分类方案和目录:在数据湖中,数据应当按照内容、使用场景、类型、以及可能的用户群体进行分类,并提供相应的目录,以实现数据的搜索和索引。同时,我们还应该采取一种便利的方法,将需要保留的数据与待删除的数据分开。
启用数据保护:数据加密和自动监控等安全管控措施应被事先设置好。而当出现未授权的访问用户、及其可疑活动时,应能够及时发出警报。
加强数据的治理、隐私保护、以及合规性:我们需要通过明确的数据政策,向相关人员传达,该如何定位和使用数据湖,如何提高数据质量和敏感数据的使用,以及如何按照数据隐私标准去存储历史数据。
原文链接:
https://thenewstack.io/data-lake-security-dive-into-the-best-practices/
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平对高速塌方灾害作出重要指示 4981502
- 2 据说每个城市都来了1亿人 4925184
- 3 新一轮暴雨来了 返程提前做好规划 4882141
- 4 “五一”假期各地“烟火气”升腾 4718428
- 5 恒山景区落石砸中游客致1死5伤 4683765
- 6 昆明蓝莓12元1盒震惊外地游客 4588114
- 7 网友晒299元买朱珠价值5千二手包 4445398
- 8 TVB视帝郭晋安官宣离婚 4359504
- 9 广州地铁辟谣沥滘站漏雨 4274134
- 10 杭州西湖边连续第9年现最美人墙 4187695