【产业观察】布局湖仓一体 StarRocks引领数据库革新

软件 作者:新软件 2023-12-07 23:21:02

点击蓝字 关注我们

2001年11月,一部名为“反恐24小时”的美剧在美国Fox电视台首播。“反恐24小时”采用多线头叙事,各路故事线犬牙交错,一经播出广受好评,让无数影迷“废寝忘食”“欲罢不能”,但对于镜舟科技CEO孙文现而言,“反恐24小时”代表了另一种意义。

2009年8月,百度推出了统计系统“福尔摩斯”,提供流量统计、来访分析、搜索引擎关键字分析、访客分析等多种统计分析相关服务。在为用户提供这些服务的背后,是大数据工程师“苦逼”历程——“‘福尔摩斯’前台采用Apache+PHP模式,后台采用MySQL,随着日志量和数据量的逐渐增加,我们几乎每个月都需要进行数据恢复。有时,跑批任务要在凌晨三点完成,否则就会导致数据丢失,引起广告主们的投诉。后来,这一过程甚至演变到每周都要进行一遍,我们将数据恢复的流程称之为‘反恐24小时’。”孙文现回顾了自己在百度的经历。

图 镜舟科技CEO 孙文现

如痛定之人,思当痛之时。StarRocks正是基于孙文现的‘反恐24小时’经历诞生的。“镜舟科技很多的研发人员跟曾经与我在百度同一个团队,我们都经历过每周痛苦、睡不着觉的阶段。也正是由于这个经历才使得我们下定决心,一定要把后台的MySQL改造成标准的OLAP模式。”孙文现表示,“基于MPP架构,我们设计了StarRocks,StarRocks的兼容性更好,性能、适应度更高。可以说,正是由于当年的经历,企业数字化转型初期的‘阵痛’,才有了StarRocks的开源,才有了基于StarRocks进行商业化的镜舟科技,才有了这次创业。”

作为一款技术领先的开源OLAP数据库产品,近年来,StarRocks备受用户青睐,加速向各行各业渗透,用户阵容也在不断扩大,截至目前,已有超过300家市值10亿美元的企业使用StarRocks。

数据新范式:

StarRocks引领湖仓一体趋势

日前,由StarRocks社区发起、镜舟科技主办的StarRocks年度大型技术交流峰会StarRocks Summit 2023成功举办。作为一名在开源数据库领域耕耘多年的“老兵”,会上,StarRocks TSC Member、镜舟科技CTO张友东对数据库未来趋势进行了预判:“未来,数据演进的趋势是湖仓一体,用户无需关注是建湖还是建仓,不管是构建数据湖还是构建数据仓库,企业最终的目标是低成本、高效的解决数据分析问题。”

稳坐高谈万里,不如趻踔一程。2023年,StarRocks先后发布了2.5、3.0、3.1三个版本,其中,3.0版本推出的存算分离架构在行业内引起巨大反响。而在StarRocks3.1版本中,在开启本地缓存的情况下,存算分离架构下的性能表现已接近本地存储的水平。与此同时,StarRocks已经具备完善的湖仓分析能力,不仅支持网络连接、数据、Java数据库、ES搜索引擎等Catalog,还支持跨数据源的联邦分析。此外,StarRocks主键模型的能力在也在持续提升,已经同时支持全内存和持久化的索引,并具备部分更新、条件更新能力。在性能方面,针对批量更新的场景,StarRocks引入了按列更新的模式,性能相比按行更新提升10倍以上。

图 StarRocks TSC Member、

镜舟科技CTO 张友东

在本次峰会上,张友东介绍了StarRocks的优势:“在将StarRocks升级到存算分离架构后,用户的存储成本下降了80%,计算节点则可以通过快速弹性、跨可用区部署等方式提高计算的可用性,我们还实现了计算资源的物理隔离、按需独立、弹性伸缩。”

在纳入存算分离、湖仓分析、物化视图等能力后,StarRocks不断向Lakehouse进行升级,兼具了数据湖和数据库仓库的优势。目前,已有数十家企业采用了StarRocks湖仓新范式,取得较好的业务成果。其中,芒果TV采用StarRocks存算分离作为统一的Lakehouse,所有数据导入到StarRocks进行统一管理;微信将实时数据注入Iceberg,通过Iceberg直接分析;携程的数据统一存储在Hive,采用StarRocks加快用户查询速度。

触达新面孔:

StarRocks用户阵容持续壮大

在StarRocks Summit 2023峰会上,具有广泛的社会知名度和影响力企业代表发表了精彩的演讲,其中既有腾讯、阿里、京东等在去年峰会上分享过经验的互联网“老面孔”,也有不少来自金融、制造、零售等行业的新面孔如伊利、平安银行、芒果TV等。

在大用户的示范和带动下,中小企业用户规模同样在迅速壮大,StarRocks社区用户已突破1万,并保持着高速增长态势。从应用场景来看,嘉宾们分享的StarRocks应用场景包括金融营销、用户画像、自助分析、报表体验升级等,基本涵盖了当前实时数仓技术的经典应用场景。

“StarRocks开源社区为制胜场景的诞生提供了肥沃的土壤,各行各业、各种需求在社区中碰撞、交融,汇聚为StarRocks的制胜场景。”孙文现谈道,“硬核的产品质量是越来越多的用户选择StarRocks的原因——镜舟科技基于StarRocks打造的企业级产品全年经历了近百次POC(概念验证),成功率达到90%以上。”

开源新未来:

StarRocks持续进化

当前,镜舟科技的战略主要分为两个“引擎”——参与开源和商业化。“我们通过开源做大用户,通过商业化做大客户。”孙文现介绍了这两个引擎的分工,并表示,镜舟科技从开源中来,由商业化孵化,成长为商业化企业再回馈开源社区。当开源社区的用户提供了一个产品的Feature,镜舟科技会站在企业级视角设计打磨该Feature,完成后提供给客户使用。

当前,StarRocks开源社区由镜舟科技与腾讯、阿里云、小红书、滴滴等互联网公司共同建设,包括全局字典函数、同步物化视图增强、Paimon Catalog等在内的许多特性都由互联网大厂支撑,以后也还会从大厂生产环境中持续吸收灵感和助力,给业界带来更多惊喜。与此同时,围绕StarRocks形成的商业生态也越来越完善,以镜舟科技为代表的商业团队不断提升着产品的易用性、稳定性,将产品能力落地到复杂的需求环境中,创造更大价值。

谈到对于未来的技术产品规划,张友东表示:“一是StarRocks将会持续向云原生方向继续迈进,云原生能够让StarRocks变得更加降本增效,并具备弹性伸缩的特性;二是精简实时分析链路,帮助用户构建实时分析链路,构筑实时计算引擎Flink,通过流式数据处理技术抽取数据,然后导入StarRocks进行加工再分析;三是在湖仓统一后,增强支持ETL跑批任务的能力,让用户可以通过StarRocks应用大部分功能,通过ETL on lakehouse,all in one的作业模式,帮助企业低成本、高效率地发掘数据价值。“

END


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接