hyperloglog - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月25日

PHP中利用Bitmap或HyperLogLog实现高性能计数与去重

PHP 中利用 Bitmap 或 HyperLogLog 实现高性能计数与去重大家好，今天我们来聊聊如何在 PHP 中利用 Bitmap 和 HyperLogLog 这两种数据结构，实现高性能的计数和去重功能。在面对海量数据统计时，传统的基于数据库的计数和去重方案往往会遇到性能瓶颈。Bitmap 和 HyperLogLog 通过牺牲一定的精度，换取了极高的性能和极低的存储空间占用，非常适合解决这类问题。 1. 背景：海量数据统计的挑战在互联网应用中，我们经常需要统计各种数据，例如：网站 UV (Unique Visitor)：统计每天访问网站的独立用户数。用户行为统计：统计用户点击、浏览、购买等行为的次数或独立用户数。实时数据分析：统计某个事件发生的次数或独立用户数。当数据量较小时，我们可以直接使用数据库进行统计，例如使用 COUNT(DISTINCT user_id) 来统计 UV。但是，当数据量达到百万、千万甚至亿级别时，数据库的性能就会急剧下降。原因在于：全表扫描：需要扫描整个数据表才能完成统计。索引维护：需要维护大量的索引，增加数据库的开销。磁盘 I …

继续阅读“PHP中利用Bitmap或HyperLogLog实现高性能计数与去重”

2025年10月27日

Redis的HyperLogLog结构：在Java应用中实现超大规模基数统计的原理

Redis HyperLogLog：Java 应用中的超大规模基数统计大家好，今天我们来聊聊 Redis 的 HyperLogLog 数据结构，以及如何在 Java 应用中使用它来实现超大规模数据的基数统计。基数统计，简单来说，就是统计一个集合中不同元素的个数，也就是去重计数。 1. 基数统计的挑战传统的基数统计方法，比如使用 HashSet 或者 HashMap 来存储所有元素，然后统计元素的数量，在数据量较小的时候是可行的。但是当数据量达到百万、千万，甚至上亿级别的时候，这种方法会占用大量的内存，效率也会急剧下降。举个例子，假设我们要统计一个网站的独立访客数量（UV）。如果网站每天有几百万的访问量，那么我们需要存储几百万个不同的用户 ID，这会占用大量的内存。因此，我们需要一种更高效的基数统计方法，它能够在占用较少内存的情况下，近似地计算出基数。 HyperLogLog 就是这样一种算法。 2. HyperLogLog 算法原理 HyperLogLog 是一种基于概率的基数统计算法，它通过牺牲一定的精度来换取极高的空间效率。它的核心思想是：通过观察每个元素哈希后的二进制表示 …

继续阅读“Redis的HyperLogLog结构：在Java应用中实现超大规模基数统计的原理”

2025年7月18日

PHP `Redis` 高级数据结构：`HyperLogLog`、`Geo`、`Stream` 应用

各位观众老爷，晚上好！今儿咱就来聊聊 PHP Redis 里那些个“高级”玩意儿，听着唬人，其实也没那么神秘，就跟咱平时炒菜做饭一样，掌握了技巧，也能做出满汉全席！咱们今天的主角是：HyperLogLog、Geo 和 Stream。这三个家伙，各有各的本事，能帮咱解决不少实际问题。一、HyperLogLog：估算大师 HyperLogLog，听着就像科幻电影里的东西。其实它是个概率数据结构，用来估算集合中元素的基数（也就是去重后的数量）。它的特点是：省空间：不管集合有多大，它占用的空间几乎是固定的。速度快：添加和查询速度都很快。允许误差：估算结果会有一定的误差，但可以通过参数控制误差率。应用场景：统计网站的 UV（Unique Visitor，独立访客），比如统计每天有多少人访问了你的网站。统计 APP 的 DAU（Daily Active User，日活跃用户），看看每天有多少人打开了你的 APP。大数据分析，统计海量数据中的唯一值。 PHP 代码示例：首先，确保你安装了 Redis 扩展。 <?php // 连接 Redis $redis = new …

继续阅读“PHP `Redis` 高级数据结构：`HyperLogLog`、`Geo`、`Stream` 应用”

2025年7月10日

Redis `HyperLogLog` 在大规模去重统计中的应用

各位观众，掌声鼓励！今天咱来聊聊 Redis 里的一个神奇玩意儿——HyperLogLog，简称 HLL。别看名字怪吓人的，其实它是个非常接地气的工具，专门解决大数据去重统计的难题。一、啥是大规模去重统计？听起来就很贵！想象一下，你经营着一个大型电商平台，每天都有海量的用户访问你的网站。你需要知道每天有多少独立访客（Unique Visitors，UV）。注意，是“独立”访客，也就是说，同一个人一天来十次，也只能算一个。传统的做法，比如用集合（Set）来存储所有访问过的用户ID。这样，每来一个用户，就往集合里塞一个。最后集合里元素的个数就是UV。听起来很简单，对不对？ But！人生最怕的就是这个But！如果用户量很少，比如只有几百个，Set 完全Hold住。但是，如果用户量达到百万、千万甚至亿级别，Set就需要消耗大量的内存。这就相当于你要盖一栋摩天大楼来放几张纸，是不是有点浪费？这时候，HyperLogLog 就闪亮登场了。它的厉害之处在于，可以用极小的内存空间来估算巨量数据的基数。啥是基数？就是集合中不同元素的个数，也就是我们说的UV。二、HyperLogLo …

继续阅读“Redis `HyperLogLog` 在大规模去重统计中的应用”

2025年7月10日

Redis `HLL` (HyperLogLog) 内部存储：稀疏表示与稠密表示

各位观众，各位朋友，欢迎来到今天的Redis茶话会！今天我们要聊的是Redis里一个听起来高大上，但其实挺好玩的数据结构——HyperLogLog，简称HLL。这玩意儿，简单来说，就是用来估算集合里有多少个不同元素的。你可能会问：“估算？为啥不用集合直接存？精准它不香吗？” 哎，这就是HLL的妙处所在。当你的数据量大到爆炸，比如几百万、几千万甚至上亿的时候，直接存可就爆炸了你的内存。HLL呢，它用极小的内存，就能给你一个相当靠谱的估算结果。就像你猜瓜子数量，不用一颗颗数，看看体积大概就能估个八九不离十。那HLL是怎么做到的呢？关键就在于它的内部存储结构：稀疏表示和稠密表示。这就好比你家衣柜，衣服少的时候随便塞，衣服多了就要整理一下才能塞更多。一、HLL的原理：抛硬币的哲学在深入了解稀疏和稠密表示之前，我们先来理解HLL的核心思想。这思想，说白了，就是抛硬币。想象一下，你不停地抛硬币，直到出现正面为止。记录你抛了多少次才出现正面。如果让你估计你总共抛了多少次，你会怎么做？是不是感觉有点懵？别急，咱们换个角度。如果我告诉你，你抛了100次硬币，最长的一次连续反面的次数是5次， …

继续阅读“Redis `HLL` (HyperLogLog) 内部存储：稀疏表示与稠密表示”

2025年7月10日

Redis `HyperLogLog` 原理：基数统计的近似算法与内存优化

各位观众，欢迎来到今天的“Redis HyperLogLog：基数统计的奇妙冒险”讲座！今天，我们来聊聊Redis里面一个非常酷，但又有点神秘的数据结构——HyperLogLog。它能帮你解决一个很常见的问题：统计海量数据的基数(distinct count)。简单来说，就是统计一堆数据里面有多少个不重复的值。场景回放：你需要统计什么？想象一下这些场景：网站每天有多少独立访客(UV)？ App每天有多少独立用户？搜索关键词有多少个不同的用户搜索？一个大型电商网站，每天有多少不同的商品被浏览？如果你用传统的方式，比如集合(Set)来存储所有访问过的用户ID，那数据量一大，内存就爆炸了。比如，你有个网站，每天有几百万用户访问，每个用户ID是64位的整数，那Set就需要占用几百MB甚至几GB的内存。这还没算其他的开销！救星登场：HyperLogLog HyperLogLog就是来拯救你的！它是一种概率数据结构，用极小的内存空间就能近似地统计出海量数据的基数。它牺牲了一点精度，换来了巨大的内存节省。精度损失通常在百分之几以内，但内存占用却可以减少到原来的几十分之一甚 …

继续阅读“Redis `HyperLogLog` 原理：基数统计的近似算法与内存优化”

2025年6月6日

Redis HyperLogLog：超大规模数据集的基数统计（UV）

Redis HyperLogLog：在数据海洋里捞针？不存在的！ 🌊 各位靓仔靓女们，大家好！我是你们的老朋友，程序猿小胖！今天咱们要聊点有意思的，保证让你听了之后，感觉自己仿佛成了数据海洋里的杰克船长，轻松驾驭亿万级数据的秘密武器——Redis HyperLogLog！别被这拗口的名字吓到，其实它是个很酷的家伙，专门用来解决一个听起来就让人头大的问题：基数统计！什么是基数统计？为啥很重要？🤔 想象一下，你运营着一个电商平台，每天都有成千上万的用户访问你的网站。你想知道昨天有多少独立访客（UV），也就是有多少个不同的用户访问了你的网站。最简单的办法？当然是把每个用户的ID都记录下来，然后去重！但问题来了，如果你的网站每天有几百万，甚至几千万用户访问，那这个记录列表会变得非常庞大，占用大量的内存资源。这时候，基数统计就派上用场了！它能在占用极少内存的情况下，近似地估算出一个集合中不同元素的个数，也就是基数。为什么重要？因为基数统计的应用场景实在太广泛了：电商平台：统计UV、活跃用户数社交网络：统计日活、月活、话题参与人数搜索引擎：统计每日搜索关键词数量网络安全： …

继续阅读“Redis HyperLogLog：超大规模数据集的基数统计（UV）”

2025年6月6日

`PFMERGE` 与 `PFCOUNT`：HyperLogLog 的合并与精确度考量

好的，各位技术界的弄潮儿，大家好！我是你们的老朋友，江湖人称“代码老顽童”的李逍遥。今天，咱们要聊聊HyperLogLog这个听起来玄之又玄，用起来却妙趣横生的数据结构，特别是它的两个核心指令：PFMERGE和PFCOUNT。各位看官，别一听“HyperLogLog”就觉得高深莫测，其实它就像武侠小说里的“轻功”，看似飘逸，实则根基扎实。今天，咱们就用最通俗易懂的方式，把这门“轻功”给大家拆解开来，让各位也能在数据江湖里“健步如飞”！第一章：缘起 – 海量数据去重难题话说天下数据，浩如烟海。每天我们都在产生各种各样的数据：用户访问量、商品浏览量、点击量……这些数据背后往往隐藏着巨大的价值。但是，要从这些海量数据中提取有效信息，首先就要解决一个难题：去重！想象一下，如果我们要统计一个网站的独立访客（UV），最简单粗暴的方法是什么？当然是用一个集合（Set）来存储所有访问者的ID。每来一个新的访问者，就往集合里扔一个ID。最后，集合的大小就是UV。这方法简单是简单，但有个致命的缺点：太耗内存了！如果网站访问量巨大，这个集合会变得无比庞大，最终把服务器的内存给撑爆。这就像一个无底洞 …

继续阅读“`PFMERGE` 与 `PFCOUNT`：HyperLogLog 的合并与精确度考量”