tencent cloud

弹性 MapReduce

动态与公告
产品动态
产品公告
安全公告
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
约束与限制
技术支持范围
产品发行版
购买指南
EMR on CVM 计费说明
EMR on TKE 计费说明
EMR Serverless HBase 计费说明
快速入门
EMR on CVM 快速入门
EMR on TKE 快速入门
EMR on CVM 操作指南
规划集群
管理权限
配置集群
管理集群
管理服务
监控告警
智能管家
EMR on TKE 操作指南
EMR on TKE 简介
配置集群
管理集群
管理服务
监控运维
应用分析
EMR Serverless HBase 操作指南
EMR Serverless HBase 产品简介
配额与限制
规划实例
管理实例
监控告警
开发指南
EMR 开发指南
Hadoop开发指南
Spark 开发指南
HBASE开发指南
Phoenix on Hbase 开发指南
Hive 开发指南
Presto开发指南
Sqoop 开发指南
Hue 开发指南
Oozie 开发指南
Flume 开发指南
Kerberos 开发指南
Knox 开发指南
Alluxio 开发指南
Kylin 开发指南
Livy 开发指南
Kyuubi 开发指南
Zeppelin 开发指南
Hudi 开发指南
Superset 开发指南
Impala 开发指南
Druid 开发指南
Tensorflow 开发指南
Kudu 开发指南
Ranger 开发指南
Kafka 开发指南
Iceberg 开发指南
StarRocks 开发指南
Flink 开发指南
JupyterLab 开发指南
MLflow 开发指南
实践教程
EMR on CVM 运维实践
数据迁移实践
自定义伸缩实践教程
API 文档
History
Introduction
API Category
Cluster Resource Management APIs
Cluster Services APIs
User Management APIs
Data Inquiry APIs
Scaling APIs
Configuration APIs
Other APIs
Serverless HBase APIs
YARN Resource Scheduling APIs
Making API Requests
Data Types
Error Codes
常见问题
EMR on CVM常见问题
服务等级协议
联系我们

StarRocks 简介

PDF
聚焦模式
字号
最后更新时间: 2025-01-03 15:02:25

StarRocks 是什么

StarRocks 是新一代极速全场景 MPP 数据库。
StarRocks 充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。
StarRocks 致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型(明细模型、聚合模型、更新模型),多种导入方式(批量和实时),支持导入多达10000列的数据,可整合和接入多种现有系统(Spark、Flink、Hive、 ElasticSearch)。
StarRocks 兼容 MySQL 协议,可使用 MySQL 客户端和常用 BI 工具对接 StarRocks 来进行数据分析。
StarRocks 采用分布式架构,对数据表进行水平划分并以多副本存储。集群规模可以灵活伸缩,能够支持10PB 级别的数据分析; 支持 MPP 框架,并行加速计算; 支持多副本,具有弹性容错能力。
StarRocks 采用关系模型,使用严格的数据类型和列式存储引擎,通过编码和压缩技术,降低读写放大;使用向量化执行方式,充分挖掘多核 CPU 的并行计算能力,从而显著提升查询性能。

StarRocks 特性

StarRocks 的架构设计融合了 MPP 数据库,以及分布式系统的设计思想,具有以下特性:

架构精简

StarRocks 内部通过 MPP 计算框架完成 SQL 的具体执行工作。MPP 框架本身能够充分的利用多节点的计算能力,整个查询并行执行,从而实现良好的交互式分析体验。 StarRocks 集群不需要依赖任何其他组件,易部署、易维护,极简的架构设计,降低了 StarRocks 系统的复杂度和维护成本,同时也提升了系统的可靠性和扩展性。 管理员只需要专注于 StarRocks 系统,无需学习和管理任何其他外部系统。

全面向量化引擎

StarRocks 的计算层全面采用了向量化技术,将所有算子、函数、扫描过滤和导入导出模块进行了系统性优化。通过列式的内存布局、适配 CPU 的 SIMD 指令集等手段,充分发挥了现代 CPU 的并行计算能力,从而实现亚秒级别的多维分析能力。

智能查询优化

StarRocks 通过 CBO 优化器(Cost Based Optimizer)可以对复杂查询自动优化。无需人工干预,就可以通过统计信息合理估算执行成本,生成更优的执行计划,极大提高了 Adhoc 和 ETL 场景的数据分析效率。

联邦查询

StarRocks 支持使用外表的方式进行联邦查询,当前可以支持 Hive、MySQL、Elasticsearch 三种类型的外表,用户无需通过数据导入,可以直接进行数据查询加速。

高效更新

StarRocks 支持多种数据模型,其中更新模型可以按照主键进行 upsert/delete 操作,通过存储和索引的优化可以在并发更新的同时实现高效的查询优化,更好的服务实时数仓的场景。

智能物化视图

StarRocks 支持智能的物化视图。用户可以通过创建物化视图,预先计算生成预聚合表用于加速聚合类查询请求。StarRocks 的物化视图能够在数据导入时自动完成汇聚,与原始表数据保持一致。并且在查询的时候,用户无需指定物化视图,StarRocks 能够自动选择最优的物化视图来满足查询请求。

标准 SQL

StarRocks 支持标准的 SQL 语法,包括聚合、JOIN、排序、窗口函数和自定义函数等功能。StarRocks 可以完整支持 TPC-H 的22个 SQL 和 TPC-DS 的99个 SQL。此外,StarRocks还兼容 MySQL 协议语法,可使用现有的各种客户端工具、BI 软件访问 StarRocks,对 StarRocks 中的数据进行拖拽式分析。

流批一体

StarRocks 支持实时和批量两种数据导入方式,支持的数据源有 Kafka、HDFS、本地文件,支持的数据格式有 ORC、Parquet 和 CSV 等,支持导入多达10000列的数据。StarRocks 可以实时消费 Kafka 数据来完成数据导入,保证数据不丢不重(exactly once)。StarRocks 也可以从本地或者远程(HDFS)批量导入数据。

高可用易扩展

StarRocks 的元数据和数据都是多副本存储,并且集群中服务有热备,多实例部署,避免了单点故障。集群具有自愈能力,可弹性恢复,节点的宕机、下线、异常都不会影响 StarRocks 集群服务的整体稳定性。 StarRocks 采用分布式架构,存储容量和计算能力可近乎线性水平扩展。StarRocks 单集群的节点规模可扩展到数百节点,数据规模可达到10PB 级别。 扩缩容期间无需停服,可以正常提供查询服务。 另外StarRocks 中表模式热变更,可通过一条简单 SQL 命令动态地修改表的定义,例如增加列、减少列、新建物化视图等。同时,处于模式变更中的表也可也正常导入和查询数据。

StarRocks 适合什么场景

StarRocks 可以满足企业级用户的多种分析需求,包括 OLAP 多维分析、定制报表、实时数据分析和 Ad-hoc 数据分析等。具体的业务场景包括:
OLAP 多维分析用户行为分析。
用户画像、标签分析、圈人。
高维业务指标报表。
自助式报表平台。
业务问题探查分析。
跨主题业务分析。
财务报表。
系统监控分析。
实时数据分析电商大促数据分析。
教育行业的直播质量分析。
物流行业的运单分析。
金融行业绩效分析、指标计算。
广告投放分析。
管理驾驶舱。
探针分析 APM(Application Performance Management)。
高并发查询广告主报表分析。
零售行业渠道人员分析。
SaaS 行业面向用户分析报表。
Dashbroad 多页面分析。
统一分析通过使用一套系统解决多维分析、高并发查询、预计算、实时分析、Adhoc查询等场景,降低系统复杂度和多技术栈开发与维护成本。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈