Elasticsearch Doc Values：高效数据处理的秘密武器

创作时间:

作者:

@小白创作中心

Elasticsearch Doc Values：高效数据处理的秘密武器

引用

CSDN

等

来源

https://blog.csdn.net/risc123456/article/details/145370287

https://blog.csdn.net/qq_26664043/article/details/136038359

https://blog.csdn.net/qq_26664043/article/details/136027750

https://blog.csdn.net/yangshangwei/article/details/144393071

https://cloud.tencent.com/developer/article/2398533

https://www.cnblogs.com/TheGCC/p/18231742

https://www.cnblogs.com/raincedar/p/18110188

在大数据时代，Elasticsearch作为领先的开源搜索和分析引擎，其卓越的性能和灵活性赢得了广泛认可。在Elasticsearch的众多特性中，Doc Values机制堪称其高效数据处理的秘密武器。本文将深入解析Doc Values的工作原理及其优势，帮助读者更好地理解和应用这一核心技术。

什么是Doc Values？

Doc Values是Elasticsearch中一种特殊的列式存储结构，主要用于优化排序和聚合操作的性能。与传统的行存储方式不同，Doc Values不是将文档的所有字段值作为一个整体存储，而是将相同字段的值按列组织在一起。这种设计使得在执行特定字段的数据检索和分析时，能够实现更高的效率。

为什么需要Doc Values？

在Elasticsearch中，排序和聚合操作对于处理和分析大量数据至关重要。然而，传统的倒排索引虽然在全文检索时表现出色，但在执行这些操作时却显得力不从心。这是因为倒排索引是为快速查找包含特定词项的文档而设计的，而不是为收集特定文档集中的所有词项而优化的。

例如，考虑一个倒排索引，其中列出了不同词项及其所在的文档：

Term      | Doc_1 | Doc_2 | Doc_3
------------------------------------
brown     |   X   |   X   |
dog       |   X   |       |   X

在这个结构中，快速找到包含“brown”的文档（Doc_1和Doc_2）是很容易的，因为倒排索引直接映射了词项到文档的关系。但是，如果我们想进一步分析这些文档，比如找出这些文档中所有唯一的词项，以便进行聚合，倒排索引就不那么高效了。

为了解决这个问题，Elasticsearch引入了Doc Values。Doc Values是一种列式的数据结构，它存储了每个文档字段值的完整、排序好的列表。与倒排索引不同，Doc Values不是将词项映射到文档，而是将文档映射到它们所包含的词项。这种结构使得按文档收集字段值变得非常高效。

以下是Doc Values如何表示数据的一个示例：

Doc      | Terms
-----------------------------------------------------------------
Doc_1    | brown, dog, fox, jumped, lazy, over, quick, the
Doc_2    | brown, dogs, foxes, in, lazy, leap, over, quick, summer

在这个Doc Values结构中，每个文档都有一个与之直接关联的词项列表。因此，当需要收集Doc_1和Doc_2中所有唯一的词项时，我们只需直接访问这两个文档的词项列表，并执行集合的并集操作。这比使用倒排索引要快得多，因为无需遍历整个索引来收集特定文档的词项。

Doc Values的工作原理

在Elasticsearch中，当索引一个文档时，除了将字段值存储在倒排索引中以支持全文搜索外，还会为需要排序或聚合的字段生成Doc Values。这些Doc Values是字段值的压缩、列式表示，它们与倒排索引分开存储，并且针对快速、随机访问进行了优化。

Doc Values的关键优势在于它们能够直接提供字段值，而无需重新解析存储的原始JSON文档（通常存储在_source字段中）。这是因为Doc Values是在索引时预先计算和存储的，因此它们可以非常快速地加载到内存中，并直接用于排序和聚合操作。

以下是Doc Values的工作原理的详细解释：

数据生成与存储：当文档被索引到Elasticsearch时，除了生成倒排索引外，还会为文档的每个字段生成Doc Values。这些Doc Values是字段值的列式存储，按文档顺序排列。对于不需要进行全文检索的字段（如数字、日期或枚举类型），Doc Values通常是这些字段值的直接存储形式。而对于需要进行全文检索的文本字段，Doc Values可能会存储该字段的一个或多个分词结果。
内存与磁盘使用：Doc Values通常被序列化到磁盘上，以节省JVM堆内存的使用。由于它们是按列存储的，因此可以高效地加载到操作系统的文件系统缓存中（OS cache）。当执行排序或聚合操作时，Elasticsearch会尽可能地从OS cache中读取Doc Values，从而减少对磁盘的直接I/O操作，提高性能。
查询过程：当执行排序或聚合查询时，Elasticsearch需要收集特定文档集中的字段值。使用Doc Values，它可以直接访问这些文档的字段值列表，而无需遍历整个倒排索引。Doc Values的列式存储结构使得对这些值的操作（如排序、去重或聚合计算）非常高效，因为它们已经按文档顺序排列好了。
性能优化：由于Doc Values是为快速读取而设计的，它们通常比从倒排索引中收集字段值要快得多。这是因为倒排索引是为快速查找文档而优化的，而不是为收集字段值而优化的。Elasticsearch还利用Doc Values来执行某些类型的过滤操作，如地理位置过滤，因为这些操作需要快速访问文档的字段值。

Doc Values的优势

性能提升：Doc Values通过列式存储优化了数据访问模式，使得排序和聚合操作的性能大幅提升。特别是在处理大规模数据集时，这种优势尤为明显。
内存效率：虽然Doc Values会占用额外的存储空间，但它们通常被序列化到磁盘上，而不是驻留在JVM堆内存中。这种设计使得Elasticsearch能够更有效地利用系统资源，避免了内存溢出的风险。
灵活性：Doc Values支持多种数据类型，包括数值、日期、布尔值以及文本字段的分词结果。这种灵活性使得它能够应用于各种数据分析场景。