问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进

创作时间:
作者:
@小白创作中心

图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进

引用
1
来源
1.
https://www.openpie.com/community/blog/6074059254

数据库领域唯一在世的图灵奖得主Michael Stonebraker与CMU知名教授Andrew Pavlo(Andy)联合发表最新论文《What Goes Around Comes Around... And Around》,对过去20年数据库技术的演进进行了全面回顾,并对未来发展做出了展望。

早在2006年,Stonebraker教授和他的学生,UC伯克利的Joseph M. Hellerstein合著了一篇《What Goes Around Comes Around》,而Andy教授也是这篇文章的粉丝。这篇20年前的文章创作的起因,是当时数据库界兴起了一股“反关系型”、“反SQL”的浪潮。Stonebraker和Joseph两位教授认为,关系模型和SQL因其击败了包括层次文件系统、面向对象数据库和XML数据库等在内的其他理念,成为了数据库管理系统的最佳选择。

这次的新论文,发表在2024年6月的SIGMOD Record上,Stonebraker与Andy两位教授分析了过去20年数据库的演进,展望了数据库技术的发展。那么,2005年到现在,数据库界发生了哪些事呢?下文将对这篇论文进行摘录,帮助大家了解这篇论文的主要内容。

数据库近 20 年的发展

论文的Introduction部分,首先呼应了一下当年的论文,列出了数据库从1960年的层次结构到2000年诞生的半结构化数据模型的演进史。

接着,在论文中分析了数据库近20年的发展,分别从数据模型&查询语言(Data Models & Query Languages),以及系统架构(System Architectures)两部分入手进行分析。

数据模型和查询语言 / Data Models & Query Languages

在这一章节,两位教授将数据库中的数据模型和查询语言的研究和开发分为八个类别,包括MapReduce、键值存储、文档数据库、列式数据库、文本搜索引擎、数组数据库、向量数据库和图数据库。

在谈及MapReduce时,两位教授认为:MR的缺陷如此之大,以至于尽管其开发者社区充满热情,它也无法得救。与此同时,分布式RDBMS正在蓬勃发展,特别是在云上。HDFS已经失去它的光彩,因为企业意识到有更好的分布式存储替代品。

关于向量数据库,两位教授预计,向量DBMS将经历与文档DBMS类似的演变过程,通过增加包括SQL、事务、可扩展性等功能,变得更像关系型数据库。而关系型数据库厂商在现有的关系型数据库中添加向量索引也将成为趋势。

两位教授认为:

  • MapReduce:多年前就已经消亡,目前充其量是“遗留技术”。
  • 键值存储:许多键值系统要么已经发展成为关系型系统,要么仅被用于特定问题。这些系统通常可以被现代高性能关系型数据库管理系统所替代或超越。
  • 文档数据库:这些NoSQL系统正与关系型数据库管理系统往相类似的发展轨道上前进。随着时间的推移,这两种系统之间的差异已经减少,并且预计在未来将几乎没有区别。
  • 列式数据库:将仍是小众市场。如果没有谷歌的存在,本文可能不会讨论这个类别。
  • 文本搜索引擎:这些系统用于多存储架构中的文本字段。如果关系型数据库管理系统在搜索方面有更好的解决方案,那么这些就不必是单独的产品。
  • 数组数据库:科研领域的应用将继续忽视关系型数据库管理系统,转而使用定制的数组系统。由于即使关系数据库有新的SQL/MDA增强功能,但却无法高效地存储和分析数组,数组数据库可能变得更加重要。
  • 向量数据库:它们是专用的数据库管理系统,具有加速最近邻搜索的索引。关系型数据库应该很快能够提供对这些数据结构和搜索方法的原生支持,使用它们可扩展的类型系统,这将使得这些专门的数据库变得不必要。
  • 图形数据库:OLTP图形应用程序将主要由关系型数据库提供服务。此外,分析图形应用程序有独特的需求,最好使用专门的数据结构在主内存中完成。关系型数据库将提供基于SQL的图形中心API或通过扩展。我们预计专门的图形数据库管理系统不会是一个大市场。

数据库系统架构 / System Architecture

在数据库系统架构章节中,Stonebraker和Andy除了就“关系型或非关系型”的争论表达了看法之外,还分享了他们对数据库架构最新趋势的看法。内容涵盖列式存储、云数据库、数据湖/湖仓一体、NewSQL数据库、硬件加速器、区块链数据库六大技术领域。

在谈及云数据库时,两位教授认为:云计算对DBMS产生了深远的影响,导致它们被彻底重新设计。过去20年里,数据库设计的最大变革发生在云端。由于网络带宽的增长速度相对于磁盘带宽具有巨大飞跃,通过NAS在对象存储中存储数据变得越来越有吸引力,推动了计算和存储的分离。计算从本地环境转移到云端,加上无服务器计算(Serverless Computing)技术的兴起,为企业带来了巨大的机会。

云平台促进的另一个趋势上从单一、专用的数据仓库转向由对象存储支持的数据湖。Stonebraker和Andy认为数据湖/湖仓一体是2010年初“大数据”运动的继任者。Apache Iceberg、Apache Hudi和Databricks Delta Lake等表格式技术,让“允许任何应用程序往中央存储里写入任意数据”这个原本看起来“糟糕”的想法变得可行。很多传统OLAP厂商(例如Teradata、Vertica)已经扩展了产品功能,以支持从对象存储中读取数据。还有一些独立的系统也在这个领域有所建树,包括Databricks等。

两位教授认为:

  • 列存储系统:列存储的变革彻底改变了OLAP数据库管理系统的架构。
  • 云数据库:云计算颠覆了传统的构建可扩展数据库管理系统方式。除了嵌入式数据库管理系统外,任何不提供云服务的产品都可能会失败。
  • 数据湖/湖仓一体:使用开源格式构建基于云的对象存储系统,将成为未来十年OLAP数据库管理系统的典范。
  • NewSQL数据库:找到了新的想法,但仍然未能产生与列式数据库和云数据库管理系统相同的影响。NewSQL数据库导致了新的分布式数据库管理系统的出现:可支持更强的ACID语义,以解决NoSQL较弱的BASE特性。
  • 硬件加速器:除了主流的云供应商外,我们没有看到其他专门的硬件用例,不过初创公司将继续尝试探索。
  • 区块链数据库:这是一种还在寻找应用场景的效率低下的技术。历史表明,这是系统发展的错误途径。

展望未来:技术发展的循环往复

正如论文标题《What Goes Around Comes Around...And Around...》所示,Stonebraker和Andy认为数据库领域正在并将继续经历周期性的变化:

新一代的开发者将会宣称SQL和关系型模型(RM)不足以应对新兴的应用领域,随后会提出新的查询语言和数据模型来克服这些问题。探索新的数据库管理系统(DBMS)理念和概念具有巨大的价值(这也是SQL获得新特性的来源),数据库研究社区和市场因此而更加强大。然而,两位教授并不期望这些新的数据模型会取代关系型模型。

此外,两位教授也表达了“为了加速下一代DBMS的发展,社区应促进开源可重用组件和服务的开发。”

最后,他们提醒开发者要向历史学习,要站在前人的肩膀上,而不是踩在他们的脚趾上。

虽然Stonebraker已经81岁高龄,我们依旧期待如文末所提到的,能够在2044年看到这篇论文的后续。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号