问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

从零开始掌握unordered_set

创作时间:
作者:
@小白创作中心

从零开始掌握unordered_set

引用
CSDN
1.
https://wenku.csdn.net/column/48g3rozz0d

本文将从基本概念、核心特性和实践应用三个方面,深入讲解C++标准模板库中的unordered_set容器。通过本文的学习,读者将能够掌握unordered_set的使用方法和应用场景,从而在实际开发中更加高效地利用这一强大的数据结构。

1. 理解unordered_set的基本概念

unordered_set 是C++标准模板库(STL)中的一个容器,它提供了一种存储唯一元素的无序集合。这个容器的底层是通过哈希表实现的,因此对于元素的插入、查找和删除操作平均时间复杂度为O(1),但可能因冲突而退化到O(n)。由于无需维持元素顺序,unordered_set 在内存使用上更加高效,并且在处理大数据集时能够提供更快的访问速度。

在本章中,我们将初步探索unordered_set的定义和用途,并逐步深入了解其内部机制和性能特征。这将为我们打下坚实的基础,以便在后续章节中探讨更复杂的使用场景和技术细节。

int main() {    
    std::unordered_set<int> mySet;    
    mySet.insert(42); // 插入元素到unordered_set中
    auto found = mySet.find(42); // 查找元素,返回一个迭代器
    if (found != mySet.end()) {        
        std::cout << "Element found in the set." << std::endl; // 输出元素找到了    
    }
    return 0;
}

上面的代码段展示了如何使用unordered_set的基本操作。首先包含头文件<unordered_set>,然后创建一个unordered_set<int>类型的对象mySet,并使用insert方法插入元素。之后,使用find方法查找元素,并通过迭代器检查元素是否存在于集合中。这是一个入门级的示例,旨在揭示unordered_set的简单使用方法,为理解其更深层次的概念奠定基础。

2. 探索unordered_set的核心特性

2.1 unordered_set的内部实现机制

2.1.1 哈希表的基本原理

哈希表(Hash Table)是一种根据关键码值(Key value)直接进行数据访问的数据结构。它通过一个散列函数将关键码值映射到表中一个位置来访问记录,以加快查找速度。这种映射关系可以简单表示为 index = hash_function(key)

内部实现中,哈希表一般使用数组来存储数据,通过计算得到的关键码值(哈希值)作为数组下标,就可以直接访问存储的数据。当不同的关键码值映射到同一个哈希值时,就会出现哈希冲突。

int main() {    
    std::unordered_set<int> mySet;    
    mySet.insert(10); // 哈希函数将10映射到数组中某个位置    
    mySet.insert(20); // 同理,将20映射到数组中的另一个位置
    return 0;
}

在上述代码示例中,unordered_set 使用哈希函数来确定元素存储的位置。每个元素被插入时,哈希函数都会计算其哈希值,并将元素放置在哈希表对应的位置上。

2.1.2 冲突解决策略

为了处理哈希冲突,C++标准库中的 unordered_set 实现使用了多种策略。其中最常用的是开放地址法和链表法。

开放地址法 是一种解决哈希冲突的策略,当发生冲突时,它会寻找下一个空闲的数组位置进行存储。具体方法包括线性探测、二次探测和双散列。

链表法 是另一种策略,它将哈希表的每个位置设计为一个链表。当发生冲突时,新插入的元素会被添加到对应位置的链表中。

int main() {    
    std::unordered_set<int> mySet;
    // 插入操作可能产生冲突,但unordered_set内部会处理这些冲突
    for (int i = 0; i < 100; ++i) {        
        mySet.insert(i);    
    }
    return 0;
}

在实际操作中,开发者通常不需要关注冲突的解决细节,因为这些都由 unordered_set 内部机制透明地处理。但理解冲突处理策略对于深入认识 unordered_set 的性能特点是非常重要的。

2.2 unordered_set的性能分析

2.2.1 时间复杂度探讨

unordered_set 的时间复杂度通常为 O(1),意味着查找、插入和删除操作平均情况下都是常数时间内完成的。这一性能的关键在于哈希函数的良好设计和冲突解决策略的有效性。

在理想情况下,哈希表的空间利用率较低且哈希函数分布均匀时,可以达到这一最佳性能。但在实际应用中,随着负载因子(已存储元素数量与哈希表大小的比值)的增加,性能会有所下降。

2.2.2 空间效率考量

虽然 unordered_set 提供了非常好的时间效率,但空间效率并非其强项。哈希表需要预留一部分空间以避免过高的负载因子,这意味着实际占用的内存会比存储的数据量大。

另外,当哈希表内部元素重新哈希以应对负载因子过高时,会出现暂时性的空间效率下降。开发者在使用 unordered_set 时,应根据实际需求平衡时间效率和空间效率。

2.3 unordered_set与其它关联容器的比较

2.3.1 与set的对比

setunordered_set 都是用来存储唯一元素的数据结构。区别在于 set 基于红黑树实现,所有操作的时间复杂度为 O(logN),而 unordered_set 依靠哈希表实现,大多数操作的时间复杂度为 O(1)。

当元素的插入顺序重要或者数据范围有限,而元素数量又不是特别大时,set 可能是更好的选择。相反,如果查找操作非常频繁且对时间效率有较高要求,则 unordered_set 更为合适。

2.3.2 与map和multimap的对比

mapmultimap 是基于键值对的数据结构,它们可以存储具有唯一键或重复键的键值对。与 unordered_set 相比,map 更加通用,因为它不仅需要存储键,还需要存储与键相关联的值。

如果只需要存储键而不关心值,或者键的集合非常大且频繁进行查找操作,unordered_set 是更好的选择。但如果需要高效地通过键值访问值或者存储键值对,mapmultimap 可能是更合适的数据结构。

3. unordered_set的实践应用

3.1 unordered_set在数据去重中的应用

3.1.1 基本去重操作实例

在数据处理过程中,经常会遇到需要去除重复元素的场景。C++标准库中的unordered_set容器非常适合用于此类任务,其内部的哈希表结构可以提供平均常数时间复杂度的元素查找性能。

下面是一个简单的示例,展示如何使用unordered_set去除一个整数数组中的重复元素:

在这段代码中,我们首先创建了一个包含重复整数的vector容器,然后通过遍历这个容器并使用unordered_setinsert()方法将元素添加到集合中。由于unordered_set不允许重复元素,所以最终存储的都是唯一元素。最后,我们遍历unordered_set输出去重后的结果。

3.1.2 性能优化技巧

在使用unordered_set进行数据去重时,除了基本操作外,我们还可以采取一些优化措施来提高效率。例如,我们可以预先分配足够的空间来存储元素,这样可以减少哈希表在插入新元素时的扩展次数。

// 在创建 unordered_set 时指定初始大小
std::unordered_set<int> unique_numbers(numbers.begin(), numbers.end(), numbers.size());

在上述代码中,我们使用了unordered_set的构造函数来直接初始化集合,其中指定了第三个参数numbers.size()作为容器的初始容量。这样做可以帮助减少元素插入过程中哈希表的动态调整,从而提高整体性能。

另一个优化技巧是合理选择哈希函数。unordered_set默认的哈希函数对于不同的数据类型有不同的实现,但对于特殊数据类型,如自定义的结构体或大型对象,我们可能需要实现一个更高效的哈希函数,以降低哈希冲突的概率,从而提升性能。

3.2 unordered_set在查找优化中的应用

3.2.1 查找操作的快速实现

unordered_set的查找操作是非常高效的。由于其内部使用哈希表,查找的时间复杂度在平均情况下为O(1),在最坏情况下退化到O(n)。因此,当需要频繁进行元素查找时,unordered_set是一个理想的选择。

例如,以下代码展示了如何使用unordered_set来快速查找一个元素是否存在:

int main() {    
    std::unordered_set<int> my_set = {1, 2, 3, 4, 5};    
    int to_find = 3;
    // 使用 find
}

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号