趣谈sql系列之一:一文读懂sql的发展史

栏目:趣谈SQL 作者:admin 日期:2018-11-16 评论:0 点击: 156 次

如果说关系数据库作为上世纪计算力领域最为重要的发明之一,我想是不为过的。数据库的出现,为很多商业都提供了坚实的基础,也养活了形形色色的人。数据库的开始以IBM Almaden研究院的SystemR和加州伯克利大学的Ingres作为开端。前者最后变成了IBM的DB2,后者商业化以后还是叫做Ingres。

与此同时,还有一个叫做Larry Elison的人,看到了IBM的论文,自己创了个业。创业后和商业化的Ingres以及DB2展开PK。Larry Elison的公司Oracle赢得了这场战争。Ingres被卖以后,其作者Michael Stonebraker又搞了Postgres。这个系统现在成为了最著名的开源数据库之一。当然很多很多年以后Michael Stonebraker获得了图灵奖。到底Larry赢了还是Michael赢了,没人说得清楚。

据说Larry Elison的Oracle赢得了这场战争的原因,是因为他宣传自己的产品支持IBM DB2推的查询语言SQL,而Ingres则坚持用自己发明的,号称更好的查询语言。所以不管数据库领域怎么样变迁,SQL成了最大的赢家。

SQL是IBM的Donald Chamberlin和Raymond Boyce发明的。后者因为动脉瘤英年早逝,前者则享受了SQL的大部分荣光。SQL是structured query language的简称,恐怕也是这个世界上使用的最多的计算机语言之一。

当初设计SQL的人接受采访表示关系代数非常复杂,发明SQL是为了给人类提供一个简单的查询方式。查询人只要告诉系统自己想要什么就可以了,怎么做就让系统自动化的高效的去搞定。

换个暗黑一点的说法,就是普罗大众都是笨蛋,只能使用比较傻瓜的SQL,而如何让系统查起来就交给做数据库系统的神仙们去做吧。这催生了数据库系统里面一门非常重要的学问:查询优化。有关查询优化的故事可以讲上几天几夜。

初识SQL的人都会为它简单的SELECT...FROM...WHERE所迷惑,觉得这是世界上最简单的语言。然而错觉在于,这种简单的语言只能解决10%的问题。一旦SQL开始用上子查询,NOT IN, EXIST,乃至Windowing Function等许多更高级的语法的时候,为了理解其语法特点,把相关的问题和这些东西关联起来,简直是对人类智商的践踏。

你不信,看个简单的例子。表T如下所示,请查出直接和间接汇报给李四的所有员工。
-------------------------------------
|   员工      |     领导             |
-------------------------------------
|   张三      |     李四             |
|   王五      |     李四             |
|   大毛      |     张三             |
|   二毛      |     李四             |
|   小明      |     大毛             |
|   ......       |       ......            |
---------------------------------------
懂SQL的不妨来写写。我想写了之后你一定不会说SQL是个好东西了。

不但如此,SQL的有些行为还让人非常的匪夷所思。举个简单的例子:
SELECT COUNT(*) FROM T;
SELECT COUNT(*) FROM T GROUP BY 1;
如果T是一张空表的话,你觉得1返回什么?2返回什么?

答案是1返回一条记录0,2则返回一个空表。熟悉查询优化的人知道,查询优化有一条rule是说GROUP BY里面有常量的话,拿掉常量不影响整个查询。那么这个地方把唯一的常量拿掉了之后怎么就不一样了呢?

除了这两个问题以外,SQL还以莫名其妙的慢著称。我明明写的查询是对的,怎么这个查询跑半天也跑不出来。找另外一个人换一种写法,就能跑出来了。这样的问题比比皆是。所以这个当初为了让大家使用简单而设计的语言,一方面确实骗了大量的人入坑,另外一方面,又让进到坑里的人爬不出来。

这个问题在商业世界的解决方法,除了不断提高查询优化器以外,还出现了著名的DBA们。早年阿里巴巴用Oracle的时候,国内一群牛逼人士,都是Oracle的DBA高手。DBA的工作就是通过调整Oracle开放的各种各样的Knob,让这个公司里面跑的那些特定查询快起来。从这个角度来说千家企业千家数据库。虽然都是Oracle,其实都不太一样。

也有不信邪想要自动化的,比如微软的SQL Server就不怎么开放内部参数。结果就是自动化没怎么自动化,性能还是上不去,只能沦落到给中小企业用,登不上大雅之堂。也因为定制化的原因,有些公司干脆就用开源的mysql,这个轻量级的模块化的数据库,因为可定制程度更高,很多东西甚至可以在应用程序里搞定。当然能用好mysql的对公司的IT水平要求更高了。

有人可能会问,这和写SQL的人有什么关系呢?关系大大的了。无论在哪里,会写SQL都是个稀缺资源。我说会写SQL不是会写SELECT FROM WHERE,是能写除高性能跑得快的SQL的人。要不然为什么国内外DBA都那么贵呢?

数据库厂商们也提供了一个叫做explain的功能。这个功能的主要任务,是把你写的SQL经过查询优化以后的执行计划给你打印出来让你看看。很多人是看不懂的。但是最低底线,不妨碍人对数据库前后两个版本的查询计划做个比较,看看是不是因为查询计划变了所以新版本某个特定SQL慢了。有些数据库干脆提供了功能,把输出的查询计划直接绑定给一个特定的SQL,一劳永逸的解决变慢的问题。但是这种做法也失去了让查询变得更快的可能了。

很多人问我,自己懂一点SQL,想知道怎么样写SQL才比较快。我推荐过一本书:数据库系统实现。这本由斯坦福大学出版的书,是市面上唯一一本详细介绍数据库系统实现,解释如何从一个SQL语句变成查询结果的书。现在中文版和英文版都有了。我更习惯看英文版一些。每个会写SQL的人,或者不管会不会写SQL的程序员都应该好好看看这本书。

参考:公众号《飞总聊IT》

网站公告
欢迎加入金燕知识社群,当前加入人数:23人,最近加入时间:2018年12月04日,更多介绍请查阅:知识社群

趣谈sql系列之一:一文读懂sql的发展史:等您坐沙发呢!

发表评论


------====== 本站公告 ======------
金丝燕网,即将迎来四周年!

知识社群