欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

巨杉数据库创始人兼CTO王涛:SequoiaDB为何要开源?

IT新闻 water 5723℃ 0评论

由CSDN举办的SDCC 2015中国软件开发者嘉年华将于11月19-21日在北京举行。在大会前夕,我们采访了SequoiaDB巨杉数据库的创始人兼CTO王涛,请他分享他的创业感悟、SequoiaDB的特性分析以及对开源的解读。

由CSDN举办的SDCC 2015中国软件开发者嘉年华将于11月19-21日在北京举行。在大会前夕,CSDN采访了SequoiaDB巨杉数据库的创始人兼CTO王涛,请他分享他的创业感悟、SequoiaDB的特性分析以及对开源的解读。

如何利用网络的力量、群体的力量,迅速打响自己品牌的知名度?王涛表示,“唯有开源。所有数据库行业的玩家只有开源、也必须开源。”


CSDN:首先请自我介绍下吧。

王涛:大家好,我现在是SequoiaDB巨杉数据库的创始人兼CTO 。我之前在北美的IBM DB2 Lab工作了很多年,也是DB2核心的研发团队的一员。

我们从2011年开始就在北美做数据库的原型,到了2012年,我就带着团队回国创业,也就是创立了SequoiaDB巨杉数据库。


们SequoiaDB是2012年正式成立的,从头到尾完全是我们自己研发的,并没有基于其他的开源数据库引擎。目前,我们SequoiaDB已经发布了
8个正式版本,也成为了海内外业界一致认可的一款新型分布式数据库产品,产品客户也遍布互联网、金融、电信等各大行业。

CSDN:两年前,你创立了巨杉数据库,是什么样的缘由让你走上创业之路的?为何取名叫“巨杉”有什么特别的意义吗?

王涛:IBM的近十年工作时间,我对整个数据库技术和行业有了比较深刻的认识。而在IBM这样的大公司当中,创新的阻力不只是来自于外部,公司内部对于颠覆性的创新也有很多阻碍。为了做出一款颠覆性的创新产品,我们还是决定自己创业,做自己的事业。


时2011年大数据这个概念在北美那边已经成体系了,而NoSQL也就是非关系型的数据库技术,前几年兴起的新型数据库技术,目前在北美已经得到了广泛的
应用。比如MongoDB
Cassandra这些大家都是耳熟能详了。可是在国内,使用这些新型数据库的企业、个人仍不多,更别说做相关开发的了。所以基于我们团队的技术实力、再
结合国内巨大的市场,我们决定做国内第一款开源的新型分布式数据库。

杉树其实是世界上最大的一种植物,杉树的高大而扎实正是我们喜欢的。我
们的数据库,作为一款底层的基础的应用,我们希望能做到像杉树一般,拥有强健的根基和粗壮的树干,扎实稳步的成长。同样,我们也希望未来,我们能像杉树能
长为世界最大的树木一般,成为大数据行业的“参天大树”。

CSDN:在创业过程中有没有遇到过困难点?又是如何克服的?有没有让你印象特别深刻的人或事?

王涛:
有想法到真正决定出来创业,中间差不多只有一两个月的时间,因为我们对我们要做的事情非常有信心。大数据已经是显而易见的趋势了,同时,我们在数据库行业
打拼多年,也摸清到了它的痛点。现在既然有了这样的技术,大家也都开始做了,就一定能帮客户解决问题,也一定会有市场。我们对它的前景毫不怀疑,问题只在
于最后是谁胜出。

另外,国内的行业前景和创业环境也给了我们很大信心。首先就是国内人口众多,数据的量级非常大,可能随便一个
银行一年的数据量要比加拿大最大的银行还要大,那这中间必然对数据库有着无数需求,还有像电信、移动等,都有着非常大量级的数据仓库。其次,随着互联网的
发展,国内企业对技术软件、知识产权等的重视程度都开始慢慢变高。最后,现在国家鼓励万众创业等,在政策环境上坚定了我们回国创业的信念。

印象深的事情,现在我觉得就是目前国内无论是互联网行业甚至于传统行业的IT部门,目前都渐渐摆脱了从前的思维,开始拥抱新技术、拥抱开放的思维,也开始更多的信任国内的产品和技术。这一点,对于我们这样的技术驱动的企业来说,是至关重要的。

CSDN:你们的开发团队有多少人,其主力军是80后吗?企业文化精神是怎样的?

王涛:目前研发团队以及超过50人,经过近3年的发展,我们现在已经拥有了一支强大的研发团队。团队包括IBM DB2北美实验室资深核心研发成员,甲骨文、华为等公司的数据库架构师,还有腾讯、阿里巴巴等互联网公司的数据库开发工程师。

我们是一个年轻并充满活力的大家庭,工作氛围很自由开放,大家都会为了问题展开热烈的讨论。最重要的,是团队成员们都对技术有着最大的热情,这也是我们团队最宝贵的财富。
这也是带领我们团队前进的动力。

CSDN:SequoiaDB主要做什么?SequoiaDB的开发架构是怎样的?采用了哪些开源技术?

王涛:SequoiaDB采用了文档型的存储模式,也就是JSON文档的存储方式。JSON的自描述特性,使得数据存储既实现了非结构化的存储,相比于KV等等结构,又更能体现数据的细节,更符合人类操作的思维。

另一个大的优势就是存储的数据对于输入来说是自适应的。比如说传统关系型数据库一定要定义一个表模型才能放数据。每一条数据必须和表的定义一模一样。但是在很多新兴的应用中,事先定义一个完美的模型很难,所以数据库本身对输入数据的自适应非常重要。

从数据库架构来看,SDB目前的架构使用的是典型的MPP架构,编目节点存储元数据,协调节点负责分布式系统的任务分发,数据节点负责数据存储和操作。数据节点可以动态的扩容。架构图如下:

我这里还是需要强调一下, SequoiaDB 的内核引擎是自主研发,并没有基于其他开源数据库项目的。

现在,我们的数据库也与主流的大数据开源架构如Hadoop、Spark还有Pentaho这些进行了深度的整合与全面的技术合作,这一块我们是紧跟主流的开源大数据技术的。

CSDN:与其他数据库开发公司相比,SequoiaDB在技术设计上有什么优点?是什么原因和技术取向造就了这些优点?它适合哪些企业应用场景?

王涛:功能特点上我就简单列几点吧:

  1.  灵活存储结构;

  2.  容量水平扩张;

  3. 高可用特性(备份、读写分离、异地容灾);

  4. Spark/Hadoop深度集成(国内第一款深度集成Spark的数据库);

  5. 事务功能、SQL语句执行、丰富的图形化工具等等。

SequoiaDB颠覆了传统数据库的架构,采用全新的数据库存储和操作模式,在提升传统业务性能的同时,更能适应大数据和智能化的需求。


论上,SequoiaDB是适合几乎所有场景的,从大数据量高并发的情况,到普通的App或者网页的开发。目前,SequoiaDB的应用覆盖了多个行
业,作为一款通用的大数据产品,SequoiaDB在大数据需求旺盛的传统行业应用广泛。包括中国银行、民生银行、中国移动、电信还有政府都得到大规模应
用。在互联网行业,也有途牛、多盟、蓝港在线等企业在使用SequoiaDB。

CSDN:你是如何看待开源的?为何会想到要把巨杉数据库开源?开源给巨杉带来哪些优势?

王涛:
年年底,我们把巨杉数据库开源了。在我看来,现在基础软件领域里,不开源是玩不下去的,整个行业的游戏规则就是这样,跟三十年前Oracle的玩法完全不
一样。Oracle用了二十年的时间积累了如今的用户数,但现在的新型数据库、软件等基本上都不可能再花这么长时间去积累用户了。如何利用网络的力量、群
体的力量,迅速打响自己品牌的知名度?唯有开源。所有数据库行业的玩家只有开源、也必须开源。

目前,在全球的基础软件和服务提供商上,“开
源+原厂”也是一个最流行的路线。“开源+原厂”的全新商业模式,开源培养大量用户,推动产品和市场的快速发展,加速了创新;原厂服务和原厂支持,则针对
企业的需求,由数据库原厂提供最适合的服务和解决方案。两者相辅相成,互相促进,为开源技术和开源软件市场开辟一条新的道路。

我们从一开始就是基于高性能和广泛的应用场景进行设计和开发的,不仅仅是为了解决某个公司内部的特定场景,所以,开源是一种让产品充分适应市场、顺应需求并不断调整的最佳方式。我们也希望通过开源的形式扩大知名度、积累用户。

另外,开源也充分体现了我们对我们自己的技术和产品的十足信心,数据库这个行业一直以来都是有比较高的技术门槛的,只要我们一直在技术上、市场上保持优势,就没什么好担心的。

CSDN:你认为未来高科技创业的趋势是什么?给从事数据库方面的开发者一些学习建议吧。

王涛:因为我们也是专注于大数据领域,我也不敢就这么说未来整个高科技行业的趋势。我还是从一个创业者的角度谈谈创业至今感触最深的一点。


有这个创业的idea开始,我们的团队就决定从头到尾完全自己开发巨杉数据库,而不是基于某一个开源的项目进行“改造”。一方面,自主研发让企业拥有真正
的主动权,不需要受制于别的技术,更能够形成自己独特的平台和生态圈;另一方面,我们作为拥有核心技术的厂商,也希望能通过这样一款自主研发的优秀产品,
彻底扭转海内外业界对于国内技术领域特别是基础软件领域“没有过硬技术产品”的论断。

所以,对于创业者,一定要相信坚持创新、坚定信念、相信你的团队。


于数据库学习,我们都知道,在学校里,大家都是从最基础的关系型数据库开始学起,所以这也形成了大家试用关系型数据库的习惯。但是在大数据时代的现在,很
多的场景传统的数据库已经不能适应,可是很多人又没有非关系型数据库的经验,这对企业来说是很大的人才缺口。所以我建议想要进入大数据行业的同学们,可以
尽早的开始学习一些新的大数据技术,非关系型数据那是首当其冲。此外我也希望大家能多多接触像Spark这样新型的大数据架构和技术,通过这些一系列技术
的学习,相信你也可以称为一个合格的大数据工程师。

CSDN:在本次SDCC大会上想分享的话题是?

王涛:我这次将要分享的题目是《如何利用开源分布式数据库与Spark打造金融大数据平台》。

主要通过开源分布式数据库和Spark在金融行业的一些应用场景,以及SequoiaDB和Spark对接的关键技术包括NoSQL数据库和Spark结合的方式与意义,并且结合金融企业中历史数据平台项目的场景来展开讨论。

广州巨杉数据库是一家专注于新型NoSQL分布式数据库研发的创业公司,创始团队成员都来自于IBM北美实验室,长期从事关系型数据库DB2的研发工作。SequoiaDB是他们的核心软件产品。

CSDN.NET   这几年来,    NoSQL数据库凭借其易扩展、高性能、高可用、数据模型灵活等特色吸引到了大量新兴互联网公司的青睐,包括国内的淘宝、新浪、京东商城、360、搜狗等都已经在局部尝试NoSQL解决方案。    广州巨杉数据库是一家专注于新型NoSQL分布式数据库研发的创业公司,目前已经获得首轮天使投资,核心产品是SequoiaDB。巨杉数据库的创始团队成员多来自于IBM北美实验室,长期从事关系型数据库DB2的研发工作。SequoiaDB
       1.3于2013年4月正式发布(最新版本为1.5),主要面向政府、电信、金融、电力和互联网等拥有海量业务数据的行业提供大数据解决方案,其客户中包括多家世界500强企业,如国内知名银行、电信及互联网企业等。

更专注于企业级市场
   

SequoiaDB与现在市面上主流的NoSQL数据库最大区别在于更专注于企业级市场,并为此开发出很多特性功能。巨杉数据库联合创始人/CTO
王涛是前IBM
DB2北美实验室资深研发成员,全球最高顾问小组成员之一(全球仅15人)。在他看来,目前市场上有很多优秀的NoSQL产品,例如Redis、
MongoDB、
   
HBase等,每个产品都有其特性,但都有其明显的缺陷。例如,SequoiaDB是一款文档类数据库,从分类上来看和MongoDB属于同一个类型,但
双方走的道路截然不同。MongoDB天生具有互联网基因,它的功能和需求是根据互联网模式打造出来的,因而在运用到企业级市场的时候,不可避免的会出现水土不服的场景。

记者在和民生银行科技部袁春光沟通中了解到,作为国内银行业第一批涉足大数据技术的民生银行,在使用现有的NoSQL产品(如MongoDB)的过
程中发现其缺乏很多企业级功能,例如缺乏事务和SQL支持、与Hadoop系统的整合不紧密等,尤其是MongoDB对重用现有投资并不友好,包括在开发
人员技能的延续性、和现有的应用程序对接等方面。这些对于像民生银行这类传统企业来说,信息孤岛所带来的架构上的破坏是致命性的,其远远大于这个产品所带
来的价值。

通过引入巨杉数据库的NoSQL产品SequoiaDB,其诸如事务、SQL支持、数据压缩、与Hadoop系统整合、可运行在IBM
power机器上等特性更能满足企业级用户的需求,并使得现有技能与投资尽可能得到了重用。尤其是SequoiaDB提供的SQL接口,能与传统关系型数
据库对接等功能都是MongoDB现阶段无法提供、甚至没有计划提供的。另一方面,MongoDB也在加速向行业用户渗透,尤其在北美市场,“即使要赶上SequoiaDB在企业级方面的核心技术优势,MongoDB也还有一到两年的路要走”,王涛表示。

此外,对于其他数据库,例如HBase,它也有很多特有功能,但仍无法满足企业用户的需求,例如在和Hadoop系统的整合上。举一个银行机构业务
场景为例,银行在对交易流水归档后,需要根据多个不同字段的条件进行快速实时查询。SequoiaDB可以通过分区表、多索引等特性,在毫秒到秒级内就可
以从几十个TB的数据中搜索到所需要的数据。而用HBase,由于仅支持主键索引,通过非主键字段查询的时候需要扫描全部数据,需要几十分钟才能出一个结
果,完全不能满足需求。

未采用开源数据库引擎和代码

现在看来,传统数据库明显有很多不适合的场景和技术局限性,主要局限性表现在数据模型僵硬、可扩展性差、处理海量数据时的性能瓶颈、缺乏处理半结构
和非结构化数据的能力上。在最近几年,随着大量非结构化化与半结构化数据进入企业,关系型数据库开始显现了越来越多的局限性和不足。王涛认
为,“NoSQL数据库的出现可以用来弥补这些缺憾,但NoSQL数据库缺乏企业级基因和商业级技术服务支持,这也是我们做SequoiaDB的原因。”

此外,巨杉的核心产品SequoiaDB由前IBM
DB2资深研发成员在北美完成原型设计和内核开发。开发过程中并未采用开源数据库引擎和代码,这是因为目前主流的NoSQL数据库方案基本都是基于GPL
协议开源,这与巨杉做商业级数据库的策略不符合。但并不排除未来在合适时候将SequoiaDB开源出来的可能性。

在一年前的时候,还有大量的行业用户在观察NoSQL数据库的解决方案,但这一年来,越来越多的企业用户已经开始做POC(Proof of
concept,概念验证),开始部署相应的解决方案了。虽然NoSQL不会很快的取代SQL,但是NoSQL提供的特性恰是新时代应用程序所需要的。王
涛认为,关系型数据库和非关系型数据库不是取代的关系,而是两者将长期共存下去,有超过70%的现有关系型数据库场景其实可以用NoSQL所替代。
   

转载请注明:学时网 » 巨杉数据库创始人兼CTO王涛:SequoiaDB为何要开源?

喜欢 (0)or分享 (0)

您必须 登录 才能发表评论!