酷应用

【活动预告】沪江技术沙龙魔都的小伙伴们看这里

百家作者：PingCAP 2017-09-21 10:00:52

本周末「沪江技术沙龙」将在上海举办，我司 TiSpark 项目负责人马晓宇将同来自沪江、点融网的资深工程师们围绕『后端架构』展开讨论。一起聚焦架构，共话架构实践！有兴趣的小伙伴们可以一起分享交流。沙龙具体活动议程请点击阅读原文了解。

沪江技术沙龙 - 不断演变的架构实践

马晓宇，TiSpark 项目负责人,曾在 Quantcast /网易大数据任资深工程师，SQL 平台/ Hadoop 内核团队 Tech Lead。现主要负责 TiDB 大数据生态的整合以及 MPP 引擎开发。

时间：2017-9-24 16:10-16:50

地点: 上海市 ·浦东新区博云路 2 号浦软大厦 8 层

演讲主题

《 When TiDB Meets Spark 》

演讲摘要

TiDB 是一款定位于在线事务处理/在线分析处理（ HTAP: Hybrid Transactional/Analytical Processing）的融合型数据库产品，模型参考了 Google 最新的分布式数据库 F1 / Spanner ，实现了自动的水平伸缩，强一致性的分布式事务，基于 Raft 算法的多副本复制等特性。部署简单，在线弹性扩容和异步表结构变更不影响业务，真正的异地多活及自动故障恢复保障数据安全，同时完全兼容 MySQL 协议，使迁移使用成本降到极低。

TiSpark 则是在原有 TiDB 存储引擎 TiKV 之上基于 SparkSQL 构建的数据处理和计算层。相对于简单的通过JDBC 与 SparkSQL 链接，TiSpark 引擎能够理解数据如何在 TiDB 上组织，进行更智能的优化例如 range pruning；和 TiKV 的协处理器整合则帮助 TiSpark 下推更多计算，例如谓词下推、聚合下推等；而 TiSpark 能理解 TiDB 的元数据则更好地帮助优化器进行查询计划选择，例如 TiDB 的统计信息能使 TiSpark 进行代价模型优化变成可能。

这个项目的意义有两部分。

首先对于 TiDB 而言，TiSpark 是从多样性方面对原有系统的一个补充。不仅 BI 用户得以通过 Spark 在原有系统进行 SQL 分析性查询，而且数据科学家和其他角色用户也能使用 Dataset 等 Spark API 在 TiDB 上工作。

其次，对于大数据生态圈来说，TiSpark 是一次对融合 OLTP 数据库和大数据平台的尝试，用户有可能通过一份数据／一个平台完成交易和分析两部分工作，而无需进行繁琐的数据同步和导入导出。

长按关注