在大数据时代,大家越来越注重数据探索的灵活性、准确性、快速响应和高并发。为此,阿里云数加团队在结合多年应用经验的基础上,推出了分析型数据库。
分析型数据库(Analytic DB,原名ADS),是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。分析型数据库对海量数据的自由计算和极速响应能力,能让用户在瞬息之间进行灵活的数据探索,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。
推出分析型数据库,是希望带来什么?
四个“More”总结一下:
首先,数加团队希望数据能够More Accessable——希望海量数据不仅仅用于给少数人的决策报告,而是让更多的业务人员能够使用到数据,甚至将数据开放成在线数据产品或者大数据SaaS服务,提供给广阔的用户群体。
其次是More Data:互联网和物联网的高速发展,带来了海量的用户和行为数据,同时也让数据的价值密度大幅变低,如果再使用抽样的方式,则更不容易探索到有价值的insight。需要在数百GB、TB甚至PB级别的海量数据中直接进行分析、探索、挖掘,才能获得数据的价值。
再次是More Ways:大数据应用已经开始摆脱传统的特定模型的BI报表,变成以数据自由洞察、灵活洞察为形态的数据产品,例如支持数十上百中用户属性和行为自由组合和探查的CRM、拥有上千个标签的m-DMP系统、支持多种维度筛选访问的访问日志分析系统、支持任意商品属性组合筛选的交易报表等等。
最后是More Realtime:大数据时代瞬息万变,所以很多客户希望分析到数分钟前产生的准实时数据,尤其是在物联网行业,海量的传感器每分每秒都在上传自己的信息;而数据探索越来越灵活带来了快速进行交互式(无固定SQL Pattern)的在线实时计算需求。
分析型数据库与传统OLAP引擎相比,有什么优势呢?
-
自由灵活的计算:无需预先建模,利用分布式计算技术,在保证自由探索的基础上高速得到计算结果,数据模型类似关系数据库的关系表
-
高并发、高可用:通过双副本在线双活技术极大的提高了查询可用性,并且可以通过扩容实现查询、写入并发性能水平扩展,最高可达数千QPS的并发
-
快速响应:通过分布式计算技术,在海量数据上能够支撑毫秒级到数秒的计算响应时间
-
支持数据实时入库:支持通过insert/delete进行数据准实时更新入库,数据更新到可查询延迟一般不超过2分钟,通过购买更多资源可以水平扩展至数十万条/秒的数据插入速率,并且支持通过阿里云数据传输实时订阅RDS的数据变更到分析型数据库中
-
良好的协议兼容性:对MySQL连接协议有良好的兼容性,使用MySQL在各个语言的Driver便可连接和使用,也部分兼容第三方BI工具和ETL工具如kettle、Qlikview、PowerQuery for Excel等可以使用MySQL协议连接到分析型数据库
-
高性价比:在100GB-1TB数据量、一天5万次查询(典型的数据探索应用查询模式)的场景,分析型数据库的高性能实例比自建Hbase+Phoneix或ElasticSearch集群的成本最高降低60%以上,并且拥有更好的查询性能和稳定性;在5TB以上、一天500次查询(内部分析系统)的场景下,即将推出的大容量实例也比自建Impala/Presto等集群的成本低30%以上
那么,什么场景中适合应用分析型数据库呢?
-
海量数据下CRM、DMP业务
-
报表型大数据产品
-
Ad-Hoc类大数据产品
-
需要频繁交互和分析的内部BI系统
-
将海量数据直接对接应用于业务系统的应用
-
替换传统企业内部OLAP引擎
-