失眠网 > 17 | 跳表：为什么Redis一定要用跳表来实现有序集合？

17 | 跳表：为什么Redis一定要用跳表来实现有序集合？

时间：2022-02-12 18:24:07

问题：如果数据存储在链表中，就真的没法用二分查找算法了吗？可以对链表进行“改造”，就可以支持类似“二分”的查找算法。

跳表

定义：对链表经过改造之后的数据结构叫做跳表（Skip list），是一种各方面性能都比较优秀的动态数据结构，

特点：

可以支持快速地插入、删除、查找操作，甚至可以替代红黑树（Red-black tree）。Redis 中的有序集合（Sorted Set）就是用跳表来实现的。类似的红黑树也可以实现快速地插入、删除和查找操作

如何理解跳表？

1、原始的链表：查找效率很低，时间复杂度会很高，是 O(n)

2、改造：对链表建立一级“索引”，每两个结点提取一个结点到上一级，把抽出来的那一级叫做索引或索引层。图中的 down 表示 down 指针，指向下一级结点。

此时查找结点16可以先遍历第一级索引，找到结点13发现下一个结点17>16，然后我们通过索引层结点的 down 指针，下降到原始链表这一层，继续遍历。只需要再遍历 2 个结点，就可以找到值等于 16的结点。依次类推，继续向上建立多级索引：

这种链表加多级索引的结构，就是跳表。当链表的长度 n 比较大时，比如 1000、10000 的时候，在构建索引之后，查找效率的提升就会非常明显。

跳表查询的时间复杂度

1、如果链表里有 n 个结点，会有多少级索引呢？每两个结点会抽出一个结点作为上一级索引的结点，那第一级索引的结点个数大约就是 n/2，第二级索引的结点个数大约就是 n/4，第三级索引的结点个数大约就是 n/8，依次类推，也就是说，第 k 级索引的结点个数是第 k-1 级索引的结点个数的 1/2，那第 k级索引结点的个数就是 n/(2k)。

2、假设索引有 h 级，最高级的索引有 2 个结点。通过上面的公式可以得到 n/(2h)=2，从而求得 h=log2n-1。如果包含原始链表这一层，整个跳表的高度就是 log2n。在跳表中查询某个数据的时候，如果每一层都要遍历 m 个结点，那在跳表中查询一个数据的时间复杂度就是 O(m*logn)。

3、按照前面这种索引结构，我们每一级索引都最多只需要遍历 3 个结点，也就是说 m=3

解释：假设我们要查找的数据是 x，在第 k 级索引中，我们遍历到 y 结点之后，发现 x 大于 y，小于后面的结点 z，所以我们通过 y 的 down 指针，从第 k 级索引下降到第 k-1 级索引。在第 k-1 级索引中，y 和 z 之间只有 3 个结点（包含 y 和 z），所以，我们在 K-1 级索引中最多只需要遍历 3 个结点，依次类推，每一级索引都最多只需要遍历 3 个结点。

4、跳表中查询任意数据的时间复杂度就是 O(logn)。这个查找的时间复杂度跟二分查找是一样的。基于单链表实现了二分查找，不过，这种查询效率的提升前提是建立了很多级索引，使用到了空间换时间的设计思路。

跳表查询的空间复杂度

假设原始链表大小为 n，那第一级索引大约有 n/2 个结点，第二级索引大约有 n/4 个结点，以此类推，每上升一级就减少一半，直到剩下 2 个结点。这几级索引的结点总和就是 n/2+n/4+n/8…+8+4+2=n-2。所以，跳表的空间复杂度是 O(n)。也就是说，如果将包含 n 个结点的单链表构造成跳表，我们需要额外再用接近 n 个结点的存储空间。那如何降低索引占用的内存空间呢？

如果我们每三个结点或五个结点，抽一个结点到上级索引，就可以减少空间占用。实际上，在软件开发中，我们不必太在意索引占用的额外空间。在讲数据结构和算法时，我们习惯性地把要处理的数据看成整数，但是在实际的软件开发中，原始链表中存储的有可能是很大的对象，而索引结点只需要存储关键值和几个指针，并不需要存储对象，所以当对象比索引结点大很多时，那索引占用的额外空间就可以忽略了。