Redis HyperLogLog数据结构在UV统计中的应用

创作时间:

作者:

@小白创作中心

Redis HyperLogLog数据结构在UV统计中的应用

引用

CSDN

https://m.blog.csdn.net/2302_79840586/article/details/145473666

在网站或应用的数据分析中，UV（独立访客）和PV（页面访问量）是两个非常重要的指标。其中，UV用于衡量独立访客的数量，而PV则用于统计页面被访问的次数。本文将介绍如何使用Redis的HyperLogLog数据结构来高效地估算UV，这对于处理大规模数据场景具有重要意义。

UV和PV的区别

UV (Unique Visitor 独立访客)：
指的是在一定时间内访问过网站或应用的独立用户数量。
通常根据用户的 IP 地址、Cookies 或用户 ID 等来唯一标识一个用户。
示例：同一个用户访问页面 3 次，仍然算作 1 个 UV。
PV (Page View 页面访问量)：
指的是某个页面在一定时间内被访问的次数。
每次页面加载或刷新都会计为一次 PV。
示例：如果一个用户打开页面并刷新 3 次，那么这 3 次都算作 3 次 PV。

使用Redis实现UV统计

UV 是统计独立访客的数量，我们可以通过 Redis 的Set数据结构来实现。Set 是一个不允许重复的集合，因此可以利用这一特性避免重复计数。但是如果用户量非常大，使用 Set 来存储用户 ID 会消耗很多内存，这时可以使用 Redis 提供的HyperLogLog数据结构来估算 UV。

HyperLogLog 用于基数统计，能够以非常低的内存消耗计算大规模数据的基数（如独立访客数）。然而，它不会像 Set 一样准确存储所有数据，而是使用概率统计来给出一个近似值，误差通常小于 0.81% 左右，所以我们通常使用其来统计UV。

Redis HyperLogLog命令

PFADD key element [element ...]
向 HyperLogLog 数据结构添加元素，Redis 将会使用这些元素估算基数。
PFCOUNT key [key ...]
返回一个或多个 HyperLogLog 估算的基数。

使用HyperLogLog估算独立访客数（UV）

String userKey = "page:uv:homepage";
String userId = "user123";  // 用户唯一标识
jedis.pfadd(userKey, userId);  // 将用户 ID 添加到 HyperLogLog 中

查询估算的UV数量

Long uvEstimate = jedis.pfcount("page:uv:homepage");
System.out.println("估算的独立访客数：" + uvEstimate);

使用 HyperLogLog 进行 UV 估算时，内存消耗较少，但是由于其是基于概率算法，因此存在一定的误差，适合用于大规模数据分析。

HyperLogLog在大数据场景下的应用

下面是一个使用Spring Boot进行测试的示例：

@SpringBootTest
public class HmDianPingApplicationTests {
    @Resource
    private StringRedisTemplate stringRedisTemplate;
    @Test
    public void hyperLogLogTest(){
        // 模拟庞大数据
        String[] values = new String[1000];
        int j = 0;
        for(int i = 0; i < 1000000; i++){
            j = i % 1000;
            values[j] = "user_" + i;
            if(j == 999) {
                // 发送到Redis中
                stringRedisTemplate.opsForHyperLogLog().add("hl2",values);
            }
        }
        // 统计数量
        Long count = stringRedisTemplate.opsForHyperLogLog().size("hl2");
        System.out.println(count);
    }
}