资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

散列表的装载因子及其冲突解决方法详解

创作时间:

作者:

@小白创作中心

散列表的装载因子及其冲突解决方法详解

引用

CSDN

https://m.blog.csdn.net/blog_programb/article/details/139373021

散列表（哈希表）的装载因子是指散列表中已经存储的元素数目与散列表长度的比值。当装载因子过高时，散列表中的空闲位置较少，容易引起散列冲突，进而影响散列表的性能。在一般情况下，如果装载因子超过了0.7，就需要考虑扩容操作来减少散列冲突的概率，从而提高散列表的操作效率。

因此，我们判断一个散列表的装载因子是否过高，只要计算散列表中已经存储的元素数目与散列表长度的比值即可。当这个比值超过了设定的阈值，比如0.7，就可以认为散列表的装载因子过高了。需要进行扩容操作或其他的调整策略，来避免影响散列表的性能。

为了避免散列表的装载因子过高，我们可以采取以下几种方法：

动态扩容：当散列表中的元素个数超过装载因子所规定的阈值时，我们可以对散列表进行扩容，以增加散列表的容量，从而降低装载因子。扩容一般需要重新计算hash值并将原有元素重新散列到新的散列表中，因此会带来一定的时间和空间开销。
良好的哈希函数：好的哈希函数能够使元素均匀地散列到散列表中，从而减小散列冲突的概率，降低装载因子。我们可以采用各种哈希函数，如摧毁法、除留余数法、数字分析法、平方取中法等，来设计良好的哈希函数。
使用链表或红黑树：当散列表中的元素个数较多时，冲突也会较多。此时，我们可以采用链表或红黑树等数据结构来存储散列冲突的元素。对于链表，我们只需要在散列表中存储指针即可；对于红黑树，我们需要在散列表中存储根节点，从而提高查询效率，减小散列表的装载因子。

哈希冲突可以通过以下方法来解决：

开放定址法（线性探测法）：在遇到哈希冲突时，去寻找一个新的空闲的哈希地址，直到找到为止。这种方法需要保证哈希表的载荷因子不能太大。
链地址法：每个哈希地址都指向一个链表，如果出现哈希冲突，就将该元素插入到对应哈希地址的链表中。这种方法需要额外的链表数据结构来存储元素。
再哈希法：使用另一个哈希函数来计算新的哈希地址。如果新的哈希地址仍然存在冲突，则继续使用这个方法。
建立公共溢出区：当哈希冲突发生时，将这些元素都放在同一个溢出区中。

下面是一个使用链地址法解决哈希冲突的Python代码示例：

# 使用链地址法解决哈希冲突
class Node:
    def __init__(self, key, value):
        self.key = key
        self.value = value
        self.next = None

class HashMap:
    def __init__(self):
        self.size = 1000
        self.table = [None] * self.size

    def _hash(self, key):
        return hash(key) % self.size

    def put(self, key, value):
        index = self._hash(key)
        if not self.table[index]:
            self.table[index] = Node(key, value)
        else:
            node = self.table[index]
            while True:
                if node.key == key:
                    node.value = value
                    return
                if not node.next:
                    break
                node = node.next
            node.next = Node(key, value)

    def get(self, key):
        index = self._hash(key)
        node = self.table[index]
        while node:
            if node.key == key:
                return node.value
            node = node.next
        return None

哈希冲突指的是在使用哈希函数计算数据地址时，不同的数据可能会有相同的地址，导致存储冲突。这会影响哈希表的性能，使得查找和插入数据的效率降低。

解决哈希冲突的方法有很多种，常用的有以下几种：

开放地址法：当发生冲突时，通过一定的方式寻找下一个空闲的地址来存储数据，有线性探测、二次探测和双重散列等方式。
链地址法：将哈希表的每个位置都指向一个链表，如果发生冲突，则将数据插入到对应位置的链表中。
再哈希法：当发生冲突时，使用另一个哈希函数对键进行再次哈希，以确定下一个位置。这种方法需要选择一个合适的再哈希函数，以避免过多的冲突。

对于解决哈希冲突还有以下方法：

建立公共溢出区：将哈希表分为基本表和溢出表两部分，发生冲突后，将冲突的元素存入溢出表中。
建立再哈希函数：同一关键字用不同的哈希函数处理，直到冲突的概率很小。
资源分配法：按照哈希地址的顺序依次查看空单元，直到找到一个空单元为止。

哈希表是一种根据关键字直接访问内存存储位置的数据结构，在哈希表中，每个关键字都对应着唯一的位置，这个位置是通过哈希函数将关键字转化为一个数字索引来确定的。确定位置的过程如下所示：

根据给定的哈希函数，将关键字转化为一个数字。
使用数字计算出关键字在哈希表中的位置。
如果该位置已经被占用，则根据哈希表的冲突解决方法选择其他的位置。
如果该位置没有被占用，则将关键字存储在该位置上。

例如，如果我们有一个关键字为“apple”，我们可以使用哈希函数将其转化为一个数字。假设哈希函数将“apple”转化为数字1234，那么我们可以使用1234计算出“apple”在哈希表中的位置，如果该位置已经被占用，则根据哈希表的冲突解决方法选择其他的位置，直到找到一个空位置为止。

哈希冲突可以通过以下几种方式解决：

开放地址法：开放地址法是指当发生冲突时，重新寻找表中空闲的位置进行存储，而不是直接存储到对应地址上。常用的开放地址法有线性探测、二次探测和双重散列等。
链地址法：链地址法是指在发生冲突时，将冲突的项存储在一个链表中，链表的头指针存储在哈希表中。当需要查找某个键所对应的值时，先计算哈希值，然后遍历对应的链表进行查找。
再哈希法：再哈希法是指当发生冲突时，使用另外一个哈希函数进行再一次哈希计算，直到找到合适的存储位置。
建立公共溢出区：建立公共溢出区是指将哈希表分成基本表和溢出表两个部分，当冲突发生时，将数据存储到溢出表中。

下面是一个使用链地址法解决冲突的Python示例代码：

class HashTable:
    def __init__(self):
        self.size = 10
        self.hash_table = [[] for _ in range(self.size)]
        
    def _hash_func(self, key):
        return key % self.size
    
    def insert(self, key, value):
        hash_key = self._hash_func(key)
        for i, item in enumerate(self.hash_table[hash_key]):
            if item == key:
                del self.hash_table[hash_key][i]
                break
        self.hash_table[hash_key].append((key, value))
        
    def search(self, key):
        hash_key = self._hash_func(key)
        for item in self.hash_table[hash_key]:
            if item == key:
                return item
        return None

开放地址法和链地址法都是用来解决哈希冲突的方法，二者的主要区别在于处理冲突的方式不同。

开放地址法是在哈希表中找到一个空闲的槽位来存储冲突的元素，它有三种基本的探测方式：线性探测、二次探测和双重哈希。其中线性探测是最简单的方法，如果发生冲突，则继续往后探测直到找到一个空闲的槽位为止。二次探测在线性探测的基础上，增加了一个二次探测的步长，即探测的步长为1, 3, 5, 7, ……双重哈希则是通过另一个哈希函数来计算探测步长，从而避免了线性探测和二次探测的聚集现象。

链地址法则将哈希表中每个槽位都连接着一个链表，当发生冲突时，将新元素插入到对应槽位的链表中。在链表中查找元素时间复杂度为O(n)，但链表的长度通常很小，所以效率比较高。

因此，开放地址法强调槽位的利用率，它的空间复杂度较小，但是容易产生聚集现象。链地址法则强调插入和查找的效率，但是它的空间复杂度较高，因为需要额外的存储空间来存放链表。

开放地址法和链地址法都是用来解决哈希冲突的方法。在Java中，HashMap采用链式寻址法解决哈希冲突，而ThreadLocal则采用开放定址法（也称线性探测法）解决哈希冲突。

具体来说，链式寻址法是指当发生哈希冲突时，在哈希表中为冲突的键值对新建一个链表，将该键值对插入到链表中。这样，每个链表就代表着哈希表中一组哈希值相同的键值对。在Java中，HashMap通过一个数组实现哈希表，数组中的每个元素是一个链表，存储着哈希值相同的键值对。

而开放地址法（线性探测法）则是指当发生哈希冲突时，在哈希表中从发生冲突的位置开始，按照一定的规则（如线性探测、二次探测等）依次查找下一个空闲位置，直到找到一个空闲位置，将冲突的元素存入这个位置。在Java中，ThreadLocal就用到了开放地址法（线性探测法）来解决哈希冲突。

下面是一个实现线性探测法的示例代码：

public class LinearProbeHashMap<K, V> {
    // 数组大小
    private int size = 16;
    // 哈希表数组
    private Object[] keys = new Object[size];
    private Object[] values = new Object[size];

    // 向哈希表中插入键值对
    public void put(K key, V value) {
        // 计算键的哈希值
        int hash = key.hashCode();
        // 计算键在数组中的索引
        int index = hash % size;

        // 如果该位置已经有元素了，则从这个位置开始往后找到第一个空位置
        while (keys[index] != null) {
            // 如果找到了相同的键，则更新对应的值
            if (keys[index].equals(key)) {
                values[index] = value;
                return;
            }
            index = (index + 1) % size;
        }

        // 将键值对存储到数组中
        keys[index] = key;
        values[index] = value;
    }

    // 根据键查找对应的值
    public V get(K key) {
        int hash = key.hashCode();
        int index = hash % size;

        // 如果该位置为空，则说明该键不存在
        while (keys[index] != null) {
            // 如果找到了相同的键，则返回对应的值
            if (keys[index].equals(key)) {
                return (V) values[index];
            }
            index = (index + 1) % size;
        }

        return null;
    }
}

在Java中，除了开放寻址法和链地址法外，还有以下一些常见的解决哈希冲突的方法：

再哈希（rehashing）：当发生冲突时，使用另一个哈希函数重新计算键的哈希值，从而找到新的哈希桶位置。
线性探测（linear probing）：当发生冲突时，沿着哈希表往下一个一个地查找空桶位置，直到找到一个空桶为止。
二次探测（quadratic probing）：当发生冲突时，沿着哈希表以二次方的步长依次查找空桶位置，直到找到一个空桶为止。
伪随机序列探测（pseudorandom probing）：当发生冲突时，使用一个伪随机序列来查找新的空桶位置，该序列不同于线性或者二次序列，可以在更广范围内查找到空桶位置，从而减少冲突次数。

以下是一个使用线性探测解决哈希冲突的Java代码示例：

public class HashTable {
    private String[] table;
    private int size;

    public HashTable(int capacity) {
        table = new String[capacity];
        size = 0;
    }

    public void put(String key, String value) {
        int index = hash(key);

        while (table[index] != null) {
            if (table[index].equals(key)) {
                table[index] = value;
                return;
            }

            index++;
            index %= table.length;
        }

        table[index] = value;
        size++;
    }

    public String get(String key) {
        int index = hash(key);

        while (table[index] != null) {
            if (table[index].equals(key)) {
                return table[index];
            }

            index++;
            index %= table.length;
        }

        return null;
    }

    private int hash(String key) {
        return Math.abs(key.hashCode()) % table.length;
    }
}

在Java中，可以使用链地址法来解决哈希冲突。在这种方法中，HashMap的底层数据结构是一个数组，数组的每个元素都是一个链表。当发生哈希冲突时，新的键值对会被添加到对应数组元素的链表中。这样，如果有多个键映射到同一个数组索引上，它们会被存储在同一个链表中。

以下是使用Java中的HashMap类来使用链地址法解决哈希冲突的代码示例：

import java.util.HashMap;

public class HashMapExample {
    public static void main(String[] args) {
        // 创建一个新的HashMap
        HashMap<String, Integer> hashMap = new HashMap<>();

        // 添加键值对到HashMap中
        hashMap.put("apple", 1);
        hashMap.put("banana", 2);
        hashMap.put("cherry", 3);

        // 获取HashMap中的值
        int value1 = hashMap.get("apple");
        int value2 = hashMap.get("banana");
        int value3 = hashMap.get("cherry");

        // 输出HashMap中的值
        System.out.println("Value of apple is: " + value1);
        System.out.println("Value of banana is: " + value2);
        System.out.println("Value of cherry is: " + value3);
    }
}

在上述示例中，我们创建了一个新的HashMap，并将键值对添加到其中。当我们添加键值对时，Java会自动使用链地址法来解决哈希冲突。然后，我们可以使用get()方法从HashMap中获取值并输出它们。