Timsort排序算法详解

创作时间:

作者:

@小白创作中心

Timsort排序算法详解

引用

来源

https://oi-wiki.org/basic/tim-sort/

Timsort是一种混合的、稳定的排序算法，由Python核心开发者Tim Peters于2002年设计。它巧妙地结合了插入排序和归并排序的优点，特别适合处理包含大量部分有序子序列的数据集。自Python 2.3版本以来，Timsort被选为Python标准库的默认排序算法，并被广泛应用于其他编程环境。

引入

Timsort由Python核心开发者Tim Peters于2002年设计，并应用于Python语言，其巧妙结合了插入排序和归并排序的优点，针对数据集中的有序性进行了精确的优化，尤其适合处理包含大量部分有序子序列的数据集。自Python 2.3版本以来，Timsort被选为Python标准库的默认排序算法，并被广泛应用于其他编程环境，例如在Java SE 7中被用于对非原始对象数组进行排序。

步骤

Timsort的核心思想是通过识别和利用数据集中已有的有序性，提高排序效率，其主要包括以下步骤：

识别Run：扫描待排序数组，识别出有序的连续子序列（Run）。
扩展Run：如果识别的Run长度小于MIN_RUN，则使用插入排序对其进行扩展。
归并Run：Timsort维护一个特殊的栈，采用特定的归并策略将栈中已有的Run合并成更大的有序序列。

识别Run

首先，Timsort会从左向右扫描数组，识别出连续的有序序列，这些有序序列被称为Run：

升序Run：如果后一个元素大于等于前一个元素，则继续扩展Run。
降序Run：如果后一个元素小于前一个元素，则继续扩展Run，随后将该Run反转为升序。

扩展Run

为了提高小规模数据的排序效率，Timsort引入了一个Run最小的长度MIN_RUN。其值一般根据待排序数组的长度动态计算，通常为至之间。

如果识别的Run长度大于等于MIN_RUN，则不需要额外操作，直接将Run压入栈中。
如果识别的Run长度小于MIN_RUN，则使用二分插入排序将该Run的后续元素插入到Run中，直到Run的长度达到MIN_RUN，然后将其压入栈中。

归并Run

在Timsort中，归并排序是通过栈来管理和控制的。栈中保存了已经识别出的有序的Run，并通过特定的归并规则控制栈中Run的合并，其目的是在合并时保持序列的平衡性和稳定性。

归并规则

Timsort是一种稳定的排序算法，即相同元素在排序后仍然保持原有的相对顺序。为确保这一点，Timsort在归并时只会合并相邻的、连续的Run，而不会直接合并非相邻的Run。因为非相邻的Run之间可能存在相同的元素，直接合并很有可能会打乱它们的相对顺序。

同时，为了确保合并的平衡性，Timsort引入了特定的归并规则。在每次合并操作之前，算法会检查栈顶的三个Run X、Y和Z，以确保满足以下两个条件：

条件一：len(Z) > len(Y) + len(X)
条件二：len(Y) > len(X)

如果栈顶的三个Run不满足上述条件，Timsort会将Y与X或Z中较小的一个进行合并，然后再次检查条件。一旦条件满足，则开始继续搜索新的Run，将其添加到栈中并开始下一轮的归并。

归并优化

为了在归并不同长度的Run时提高效率并减少空间开销，Timsort在归并前会通过二分查找精确定位需要处理的元素范围，只对需要移动的部分进行归并，具体方式为：

确定插入点：使用二分查找，找到第二个Run的第一个元素在第一个Run中的插入位置，以及第一个Run的最后一个元素在第二个Run中的插入位置。这样，可以缩小需要归并的范围，只对需要移动的元素进行处理。
临时缓冲区：传统的原地合并算法效率太低，需要大量的元素移动。为了减少这种开销，Timsort使用一个临时缓冲区，将长度较小的Run复制到缓冲区中，然后逐步将元素从缓冲区复制回原数组。

例如，假设存在两个Run A和B，分别为：