為什么統(tǒng)計(jì)數(shù),COUNT(*)
勝過其他方式?
引言
在數(shù)據(jù)庫(kù)操作的世界里,增刪改查(CRUD)構(gòu)成了程序員日常工作的核心。特別是查詢(Retrieve)操作,在所有的數(shù)據(jù)庫(kù)活動(dòng)中它可能是最頻繁的。而在眾多查詢操作中,行數(shù)統(tǒng)計(jì)無(wú)疑占據(jù)了重要的地位。對(duì)于數(shù)據(jù)庫(kù)行數(shù)的統(tǒng)計(jì),我們通常依賴一個(gè)強(qiáng)大的SQL函數(shù):COUNT
。
認(rèn)識(shí)COUNT
COUNT
在數(shù)據(jù)庫(kù)中的定義是用來(lái)統(tǒng)計(jì)行數(shù)的,具體來(lái)說,它有幾種不同的使用方式:
COUNT(expr)
:返回select
語(yǔ)句檢索到的行中,表達(dá)式expr
具有非NULL
值的行數(shù),返回結(jié)果為BIGINT
類型。- 當(dāng)沒有符合條件的行時(shí),
COUNT
返回0
。 - 而
COUNT(*)
則包括了所有的行,即使列值為NULL
。
例如,考慮以下表格和數(shù)據(jù):
create TABLE tbl_example (id INT, id2 INT);
insert INTO tbl_example VALUES (NULL, NULL);
insert INTO tbl_example VALUES (1, NULL);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (1,NULL);
...
如果我們分別使用COUNT(*)
、COUNT(id)
和COUNT(id2)
來(lái)查詢,將會(huì)得到不同的結(jié)果:
select COUNT(*), COUNT(id), COUNT(id2) from tbl_example;
結(jié)果會(huì)是:
8, 2, 5
COUNT(id)
和COUNT(id2)
只統(tǒng)計(jì)了具有非NULL
值的行,而COUNT(*)
統(tǒng)計(jì)了所有行。
COUNT(列名)
vs COUNT(*)
vs COUNT(常量)
那么,為什么《Java 開發(fā)手冊(cè)》等許多最佳實(shí)踐推薦避免使用COUNT(列名)
或COUNT(常量)
來(lái)替代COUNT(*)
呢?
COUNT(列名)
:統(tǒng)計(jì)特定列非NULL
值的行數(shù),這在你只關(guān)注特定列時(shí)有用,但如果你的目標(biāo)是統(tǒng)計(jì)表中的行數(shù),這可能會(huì)導(dǎo)致誤導(dǎo)。COUNT(常量)
:盡管COUNT(1)
(常量為1)在結(jié)果上與COUNT(*)
相同,但它并不是標(biāo)準(zhǔn),可能會(huì)引起混淆。COUNT(*)
:是標(biāo)準(zhǔn)的SQL用法,被定義用于統(tǒng)計(jì)行數(shù),大多數(shù)數(shù)據(jù)庫(kù)系統(tǒng)對(duì)此進(jìn)行了優(yōu)化,從而提供了更高的效率。
優(yōu)化背后的COUNT(*)
不同的數(shù)據(jù)庫(kù)引擎對(duì)COUNT(*)
有不同的優(yōu)化策略。
MyISAM引擎
MyISAM存儲(chǔ)引擎不支持事務(wù),使用表級(jí)鎖,因此它能夠在沒有where
條件的情況下直接返回表中的總行數(shù),這是因?yàn)檎麄€(gè)表被鎖定,行數(shù)是一個(gè)固定的值。
InnoDB引擎
相比之下,InnoDB支持事務(wù),并且使用行級(jí)鎖。因此,它不能像MyISAM那樣優(yōu)化COUNT(*)
操作。但是,InnoDB對(duì)COUNT(*)
做了其他類型的優(yōu)化。從MySQL 8.0.13開始,針對(duì)InnoDB的select COUNT(*) from tbl_name
,如果查詢中沒有where
或GROUP BY
等條件,會(huì)嘗試使用成本較低的索引進(jìn)行表掃描,這通常意味著使用非聚簇索引,因?yàn)樗鼈兊拇笮⊥ǔP∮诰鄞厮饕?,從而可以更快地統(tǒng)計(jì)行數(shù)。
COUNT(*)
與COUNT(1)
的性能比較
關(guān)于COUNT(*)
和COUNT(1)
的性能,有很多爭(zhēng)論。然而,根據(jù)MySQL官方文檔,InnoDB對(duì)select COUNT(*)
和select COUNT(1)
操作的處理方式是相同的,不存在性能差異。
因此,建議使用COUNT(*)
,因?yàn)樗荢QL92標(biāo)準(zhǔn)定義的用于統(tǒng)計(jì)行數(shù)的語(yǔ)法,這使得COUNT(*)
在各種數(shù)據(jù)庫(kù)系統(tǒng)中得到了優(yōu)化。
結(jié)論
在數(shù)據(jù)庫(kù)查詢中,COUNT(*)
是統(tǒng)計(jì)表行數(shù)的推薦方式。它不僅符合SQL92標(biāo)準(zhǔn),而且得益于數(shù)據(jù)庫(kù)系統(tǒng)的優(yōu)化,從而提供了更高的效率。因此,除非有特定的列值統(tǒng)計(jì)需求,否則應(yīng)該直接使用COUNT(*)
來(lái)查詢表的行數(shù)。這不僅是為了提高查詢效率,還為了避免因列值為NULL
而引起的統(tǒng)計(jì)不準(zhǔn)確的問題。所以,請(qǐng)?jiān)诰帉慡QL查詢時(shí),優(yōu)先考慮COUNT(*)
。
end
該文章在 2023/12/13 18:55:49 編輯過