MySQL高级讲座篇之：`COUNT(*)`、`COUNT(1)`与`COUNT(column)`：揭示执行效率的细微差别。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众，早上好！我是老码农，今天咱们聊聊MySQL里一个看似简单，实则暗藏玄机的玩意儿：COUNT(*)、COUNT(1)和COUNT(column)。别看它们长得像三胞胎，性能上可是各有千秋。今天咱们就扒一扒它们的底裤，看看谁才是真正的效率之王！

*一、COUNT()：老大哥的底气**

先说说COUNT(*)。这玩意儿是SQL界的“老大哥”，它的作用就是统计表里有多少行数据，不管你这一行是不是全是NULL，它都照单全收。

-- 统计user表有多少行
SELECT COUNT(*) FROM user;

简单粗暴，对吧？那它效率怎么样呢？

在早期的MySQL版本中，COUNT(*)确实需要扫描全表才能知道有多少行。但是！现在的MySQL已经做了优化。如果你的表使用的是MyISAM存储引擎，那么COUNT(*)会非常快！因为MyISAM引擎内部维护了一个计数器，专门记录表的行数。所以，执行COUNT(*)的时候，它直接把计数器的值拿出来就行了，根本不用扫描表。

但是，如果你的表使用的是InnoDB存储引擎，情况就有点不一样了。InnoDB引擎没有维护行数的计数器。所以，COUNT(*)还是需要扫描全表或者走索引才能统计行数。

二、COUNT(1)：小弟的逆袭？

接下来是COUNT(1)。很多新手可能会觉得，COUNT(1)和COUNT(*)是不是一样啊？都是统计行数嘛！

没错，它们的结果确实一样。但是，它们的执行方式略有不同。COUNT(1)的意思是，对于表中的每一行，都返回一个“1”，然后统计“1”的个数。

-- 统计user表有多少行
SELECT COUNT(1) FROM user;

那COUNT(1)比COUNT(*)快吗？

理论上，COUNT(1)可能会略微快一点点。因为COUNT(1)只需要返回一个常量“1”，而COUNT(*)可能需要读取更多的列数据。但是，在实际测试中，它们的差距非常小，几乎可以忽略不计。现代数据库优化器已经足够聪明，能够把COUNT(*)和COUNT(1)优化成相同的执行计划。

三、COUNT(column)：有条件的计数

最后是COUNT(column)。这个家伙就有点特殊了。它的作用是统计指定列中非NULL值的个数。

-- 统计user表中email不为空的行数
SELECT COUNT(email) FROM user;

注意！如果email列中有NULL值，那么COUNT(email)是不会把它算进去的。

CREATE TABLE test_count (
    id INT PRIMARY KEY,
    name VARCHAR(20),
    age INT
);

INSERT INTO test_count (id, name, age) VALUES
(1, 'Alice', 25),
(2, 'Bob', NULL),
(3, 'Charlie', 30),
(4, 'David', NULL);

SELECT COUNT(*) FROM test_count;  -- 结果：4
SELECT COUNT(1) FROM test_count; -- 结果：4
SELECT COUNT(age) FROM test_count; -- 结果：2

可以看到，COUNT(age)只统计了age列中非NULL值的个数。

四、性能对比：谁是赢家？

说了这么多，到底谁才是真正的效率之王呢？咱们来做个总结：

函数	作用	MyISAM引擎	InnoDB引擎	备注
COUNT(*)	统计表中所有行数	非常快	需要扫描全表或者走索引	MyISAM引擎会维护行数计数器，直接返回计数器的值。InnoDB引擎没有计数器，需要扫描表。
COUNT(1)	统计表中所有行数	接近COUNT(*)	接近COUNT(*)	理论上可能略快于COUNT(*)，因为只需要返回常量“1”。但实际测试中差距很小。
COUNT(column)	统计指定列中非NULL值的个数	需要扫描列	需要扫描列	如果column列有索引，会走索引扫描。

结论：

在MyISAM引擎中，COUNT(*)是最快的，因为它直接读取计数器的值。
在InnoDB引擎中，COUNT(*)和COUNT(1)的性能几乎一样，都需要扫描全表或者走索引。
COUNT(column)用于统计指定列中非NULL值的个数，性能取决于列是否有索引。如果有索引，会走索引扫描，否则需要全表扫描。

*五、索引优化：加速COUNT()的利器**

既然COUNT(*)在InnoDB引擎中需要扫描全表或者走索引，那么我们就可以通过创建索引来加速COUNT(*)的执行。

-- 在user表的email列上创建索引
CREATE INDEX idx_email ON user(email);

-- 统计user表有多少行
SELECT COUNT(*) FROM user;

如果email列上有索引，那么MySQL会选择走email列的索引来统计行数。因为索引通常比表小，所以扫描索引比扫描全表要快得多。

但是，需要注意的是，如果你的表非常大，即使走了索引，COUNT(*)的执行速度也可能很慢。因为扫描索引也需要消耗时间。

六、缓存机制：事半功倍的技巧

除了索引优化，我们还可以利用缓存机制来加速COUNT(*)的执行。

如果你的表的数据变化不频繁，那么你可以把COUNT(*)的结果缓存起来。下次执行COUNT(*)的时候，直接从缓存中读取结果，而不需要重新计算。

# 伪代码
def get_user_count():
    # 先从缓存中读取
    count = cache.get("user_count")
    if count:
        return count

    # 如果缓存中没有，就从数据库中读取
    count = execute_sql("SELECT COUNT(*) FROM user")

    # 把结果缓存起来
    cache.set("user_count", count, expire=3600)  # 缓存1小时

    return count

这样，在缓存有效期内，每次执行get_user_count()函数，都会直接从缓存中读取结果，速度非常快。

七、近似计数：牺牲精度换取速度

如果你的表的数据量非常大，而且对计数的精度要求不高，那么你可以考虑使用近似计数的方法。

MySQL 8.0 引入了近似计数功能，可以通过 ANALYZE TABLE 命令来更新表的统计信息，然后使用 SHOW TABLE STATUS 命令来查看表的行数。

ANALYZE TABLE user;
SHOW TABLE STATUS LIKE 'user';

SHOW TABLE STATUS 命令返回的结果中，Rows 列就是近似的行数。

这种方法的优点是速度非常快，因为它不需要扫描全表或者走索引。但是，它的缺点是精度不高，可能会有误差。

八、实战案例：选择合适的计数方法

说了这么多理论，咱们来几个实战案例，看看在不同的场景下，应该选择哪种计数方法。

案例1：统计用户总数

假设你需要统计用户表的总用户数，而且对精度要求很高。

如果你的表使用的是MyISAM引擎，那么直接使用COUNT(*)即可。
如果你的表使用的是InnoDB引擎，而且用户表的数据变化不频繁，那么可以考虑使用缓存机制。
如果你的表使用的是InnoDB引擎，而且用户表的数据量很大，那么可以考虑创建索引来加速COUNT(*)的执行。

案例2：统计活跃用户数

假设你需要统计过去一个月内活跃的用户数，活跃用户的定义是最近一个月内有登录行为的用户。

SELECT COUNT(DISTINCT user_id)
FROM login_log
WHERE login_time >= DATE_SUB(CURDATE(), INTERVAL 1 MONTH);

在这种情况下，COUNT(*)、COUNT(1)和COUNT(column)都不适用。你需要使用COUNT(DISTINCT column)来统计不同值的个数。

案例3：统计商品数量

假设你需要统计商品表的总商品数量，而且对精度要求不高。

ANALYZE TABLE product;
SHOW TABLE STATUS LIKE 'product';

在这种情况下，可以使用近似计数的方法，牺牲精度换取速度。

九、总结：没有银弹，只有合适的选择

总而言之，COUNT(*)、COUNT(1)和COUNT(column)各有优缺点，没有一种方法是万能的。在实际应用中，我们需要根据具体的场景，选择最合适的计数方法。

如果需要统计表的总行数，而且对精度要求很高，那么可以使用COUNT(*)或者COUNT(1)。
如果需要统计指定列中非NULL值的个数，那么可以使用COUNT(column)。
如果对计数的精度要求不高，而且表的数据量很大，那么可以考虑使用近似计数的方法。
无论选择哪种方法，都需要注意索引优化和缓存机制，以提高计数的效率。

记住，没有银弹，只有合适的选择！

好了，今天的讲座就到这里。希望大家能够有所收获！如果有什么问题，欢迎在评论区留言，我会尽力解答。谢谢大家！

发表回复 取消回复

发表回复取消回复