Mysql14基于規(guī)則的優(yōu)化

大家別忘了MySQL本質(zhì)上是一個(gè)軟件,設(shè)計(jì)MySQL的大叔并不能要求使用這個(gè)軟件的人個(gè)個(gè)都是數(shù)據(jù)庫高高手,就像我寫這文章的時(shí)候并不能要求各位在學(xué)之前就會了里邊兒的知識。

也就是說我們無法避免某些同學(xué)寫一些執(zhí)行起來十分耗費(fèi)性能的語句。即使是這樣,設(shè)計(jì)MySQL的大叔還是依據(jù)一些規(guī)則,竭盡全力的把這個(gè)很糟糕的語句轉(zhuǎn)換成某種可以比較高效執(zhí)行的形式,這個(gè)過程也可以被稱作查詢重寫(就是人家覺得你寫的語句不好,自己再重寫一遍)。本章詳細(xì)嘮叨一下一些比較重要的重寫規(guī)則。

條件化簡

我們編寫的查詢語句的搜索條件本質(zhì)上是一個(gè)表達(dá)式,這些表達(dá)式可能比較繁雜,或者不能高效的執(zhí)行,MySQL的查詢優(yōu)化器會為我們簡化這些表達(dá)式。為了方便大家理解,我們后邊舉例子的時(shí)候都使用諸如a、b、c之類的簡單字母代表某個(gè)表的列名。

移除不必要的括號

有時(shí)候表達(dá)式里有許多無用的括號,比如這樣:

((a = 5 AND b = c) OR ((a > c) AND (c < 5)))
看著就很煩,優(yōu)化器會把那些用不到的括號給干掉,就是這樣:

(a = 5 and b = c) OR (a > c AND c < 5)

常量傳遞(constant_propagation)

有時(shí)候某個(gè)表達(dá)式是某個(gè)列和某個(gè)常量做等值匹配,比如這樣:

a = 5
當(dāng)這個(gè)表達(dá)式和其他涉及列a的表達(dá)式使用AND連接起來時(shí),可以將其他表達(dá)式中的a的值替換為5,比如這樣:

a = 5 AND b > a
就可以被轉(zhuǎn)換為:

a = 5 AND b > 5

小貼士: 為啥用OR連接起來的表達(dá)式就不能進(jìn)行常量傳遞呢?自己想想哈~

等值傳遞(equality_propagation)

有時(shí)候多個(gè)列之間存在等值匹配的關(guān)系,比如這樣:

a = b and b = c and c = 5
這個(gè)表達(dá)式可以被簡化為:

a = 5 and b = 5 and c = 5

移除沒用的條件(trivial_condition_removal)

對于一些明顯永遠(yuǎn)為TRUE或者FALSE的表達(dá)式,優(yōu)化器會移除掉它們,比如這個(gè)表達(dá)式:

(a < 1 and b = b) OR (a = 6 OR 5 != 5)
很明顯,b = b這個(gè)表達(dá)式永遠(yuǎn)為TRUE,5 != 5這個(gè)表達(dá)式永遠(yuǎn)為FALSE,所以簡化后的表達(dá)式就是這樣的:

(a < 1 and TRUE) OR (a = 6 OR FALSE)
可以繼續(xù)被簡化為

a < 1 OR a = 6

表達(dá)式計(jì)算

在查詢開始執(zhí)行之前,如果表達(dá)式中只包含常量的話,它的值會被先計(jì)算出來,比如這個(gè):

a = 5 + 1
因?yàn)? + 1這個(gè)表達(dá)式只包含常量,所以就會被化簡成:

a = 6
但是這里需要注意的是,如果某個(gè)列并不是以單獨(dú)的形式作為表達(dá)式的操作數(shù)時(shí),比如出現(xiàn)在函數(shù)中,出現(xiàn)在某個(gè)更復(fù)雜表達(dá)式中,就像這樣:

ABS(a) > 5
或者:

-a < -8
優(yōu)化器是不會嘗試對這些表達(dá)式進(jìn)行化簡的。我們前邊說過只有搜索條件中索引列和常數(shù)使用某些運(yùn)算符連接起來才可能使用到索引,所以如果可以的話,最好讓索引列以單獨(dú)的形式出現(xiàn)在表達(dá)式中。

HAVING子句和WHERE子句的合并

如果查詢語句中沒有出現(xiàn)諸如SUM、MAX等等的聚集函數(shù)以及GROUP BY子句,優(yōu)化器就把HAVING子句和WHERE子句合并起來。

常量表檢測

設(shè)計(jì)MySQL的大叔覺得下邊這兩種查詢運(yùn)行的特別快:

  • 查詢的表中一條記錄沒有,或者只有一條記錄。
    小貼士: 大家有沒有覺得這一條有點(diǎn)兒不對勁,我還沒開始查表呢咋就知道這表里邊有幾條記錄呢?哈哈,這個(gè)其實(shí)依靠的是統(tǒng)計(jì)數(shù)據(jù)。不過我們說過InnoDB的統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)不準(zhǔn)確,所以這一條不能用于使用InnoDB作為存儲引擎的表,只能適用于使用Memory或者M(jìn)yISAM存儲引擎的表。

  • 使用主鍵等值匹配或者唯一二級索引列等值匹配作為搜索條件來查詢某個(gè)表。

設(shè)計(jì)MySQL的大叔覺得這兩種查詢花費(fèi)的時(shí)間特別少,少到可以忽略,所以也把通過這兩種方式查詢的表稱之為常量表(英文名:constant tables)。優(yōu)化器在分析一個(gè)查詢語句時(shí),先首先執(zhí)行常量表查詢,然后把查詢中涉及到該表的條件全部替換成常數(shù),最后再分析其余表的查詢成本,比方說這個(gè)查詢語句:
SELECT * FROM table1 INNER JOIN table2
ON table1.column1 = table2.column2
WHERE table1.primary_key = 1;
很明顯,這個(gè)查詢可以使用主鍵和常量值的等值匹配來查詢table1表,也就是在這個(gè)查詢中table1表相當(dāng)于常量表,在分析對table2表的查詢成本之前,就會執(zhí)行對table1表的查詢,并把查詢中涉及table1表的條件都替換掉,也就是上邊的語句會被轉(zhuǎn)換成這樣:

SELECT table1表記錄的各個(gè)字段的常量值, table2.* FROM table1 INNER JOIN table2
ON table1表column1列的常量值 = table2.column2;

外連接消除

我們前邊說過,內(nèi)連接的驅(qū)動(dòng)表和被驅(qū)動(dòng)表的位置可以相互轉(zhuǎn)換,而左(外)連接和右(外)連接的驅(qū)動(dòng)表和被驅(qū)動(dòng)表是固定的。這就導(dǎo)致內(nèi)連接可能通過優(yōu)化表的連接順序來降低整體的查詢成本,而外連接卻無法優(yōu)化表的連接順序。為了故事的順利發(fā)展,我們還是把之前介紹連接原理時(shí)用過的t1和t2表請出來,為了防止大家早就忘掉了,我們再看一下這兩個(gè)表的結(jié)構(gòu):

CREATE TABLE t1 (
    m1 int, 
    n1 char(1)
) Engine=InnoDB, CHARSET=utf8;

CREATE TABLE t2 (
    m2 int, 
    n2 char(1)
) Engine=InnoDB, CHARSET=utf8;

為了喚醒大家的記憶,我們再把這兩個(gè)表中的數(shù)據(jù)給展示一下:

mysql> SELECT * FROM t1;
+------+------+
| m1   | n1   |
+------+------+
|    1 | a    |
|    2 | b    |
|    3 | c    |
+------+------+
3 rows in set (0.00 sec)

mysql> SELECT * FROM t2;
+------+------+
| m2   | n2   |
+------+------+
|    2 | b    |
|    3 | c    |
|    4 | d    |
+------+------+
3 rows in set (0.00 sec)

我們之前說過,外連接和內(nèi)連接的本質(zhì)區(qū)別就是:對于外連接的驅(qū)動(dòng)表的記錄來說,如果無法在被驅(qū)動(dòng)表中找到匹配ON子句中的過濾條件的記錄,那么該記錄仍然會被加入到結(jié)果集中,對應(yīng)的被驅(qū)動(dòng)表記錄的各個(gè)字段使用NULL值填充;而內(nèi)連接的驅(qū)動(dòng)表的記錄如果無法在被驅(qū)動(dòng)表中找到匹配ON子句中的過濾條件的記錄,那么該記錄會被舍棄。查詢效果就是這樣:

mysql> SELECT * FROM t1 INNER JOIN t2 ON t1.m1 = t2.m2;
+------+------+------+------+
| m1   | n1   | m2   | n2   |
+------+------+------+------+
|    2 | b    |    2 | b    |
|    3 | c    |    3 | c    |
+------+------+------+------+
2 rows in set (0.00 sec)

mysql> SELECT * FROM t1 LEFT JOIN t2 ON t1.m1 = t2.m2;
+------+------+------+------+
| m1   | n1   | m2   | n2   |
+------+------+------+------+
|    2 | b    |    2 | b    |
|    3 | c    |    3 | c    |
|    1 | a    | NULL | NULL |
+------+------+------+------+
3 rows in set (0.00 sec)

對于上邊例子中的(左)外連接來說,由于驅(qū)動(dòng)表t1中m1=1, n1='a'的記錄無法在被驅(qū)動(dòng)表t2中找到符合ON子句條件t1.m1 = t2.m2的記錄,所以就直接把這條記錄加入到結(jié)果集,對應(yīng)的t2表的m2和n2列的值都設(shè)置為NULL。

右(外)連接和左(外)連接其實(shí)只在驅(qū)動(dòng)表的選取方式上是不同的,其余方面都是一樣的,所以優(yōu)化器會首先把右(外)連接查詢轉(zhuǎn)換成左(外)連接查詢。我們后邊就不再嘮叨右(外)連接了。

我們知道WHERE子句的殺傷力比較大,凡是不符合WHERE子句中條件的記錄都不會參與連接。只要我們在搜索條件中指定關(guān)于被驅(qū)動(dòng)表相關(guān)列的值不為NULL,那么外連接中在被驅(qū)動(dòng)表中找不到符合ON子句條件的驅(qū)動(dòng)表記錄也就被排除出最后的結(jié)果集了,也就是說:在這種情況下:外連接和內(nèi)連接也就沒有什么區(qū)別了!比方說這個(gè)查詢

mysql> SELECT * FROM t1 LEFT JOIN t2 ON t1.m1 = t2.m2 WHERE t2.n2 IS NOT NULL;
+------+------+------+------+
| m1   | n1   | m2   | n2   |
+------+------+------+------+
|    2 | b    |    2 | b    |
|    3 | c    |    3 | c    |
+------+------+------+------+
2 rows in set (0.01 sec)

由于指定了被驅(qū)動(dòng)表t2的n2列不允許為NULL,所以上邊的t1和t2表的左(外)連接查詢和內(nèi)連接查詢是一樣一樣的。當(dāng)然,我們也可以不用顯式的指定被驅(qū)動(dòng)表的某個(gè)列IS NOT NULL,只要隱含的有這個(gè)意思就行了,比方說這樣:

mysql> SELECT * FROM t1 LEFT JOIN t2 ON t1.m1 = t2.m2 WHERE t2.m2 = 2;
+------+------+------+------+
| m1   | n1   | m2   | n2   |
+------+------+------+------+
|    2 | b    |    2 | b    |
+------+------+------+------+
1 row in set (0.00 sec)

在這個(gè)例子中,我們在WHERE子句中指定了被驅(qū)動(dòng)表t2的m2列等于2,也就相當(dāng)于間接的指定了m2列不為NULL值,所以上邊的這個(gè)左(外)連接查詢其實(shí)和下邊這個(gè)內(nèi)連接查詢是等價(jià)的:

mysql> SELECT * FROM t1 INNER JOIN t2 ON t1.m1 = t2.m2 WHERE t2.m2 = 2;
+------+------+------+------+
| m1   | n1   | m2   | n2   |
+------+------+------+------+
|    2 | b    |    2 | b    |
+------+------+------+------+
1 row in set (0.00 sec)

我們把這種在外連接查詢中,指定的WHERE子句中包含被驅(qū)動(dòng)表中的列不為NULL值的條件稱之為空值拒絕(英文名:reject-NULL)。在被驅(qū)動(dòng)表的WHERE子句符合空值拒絕的條件后,外連接和內(nèi)連接可以相互轉(zhuǎn)換。這種轉(zhuǎn)換帶來的好處就是查詢優(yōu)化器可以通過評估表的不同連接順序的成本,選出成本最低的那種連接順序來執(zhí)行查詢。

子查詢優(yōu)化

我們的主題本來是嘮叨MySQL查詢優(yōu)化器是如何處理子查詢的,但是我還是有一萬個(gè)擔(dān)心好多同學(xué)連子查詢的語法都沒掌握全,所以我們就先嘮叨嘮叨什么是個(gè)子查詢(當(dāng)然不會面面俱到啦,只是說個(gè)大概哈),然后再嘮叨關(guān)于子查詢優(yōu)化的事兒。

子查詢語法

想必大家都是媽媽生下來的吧,連孫猴子都有媽媽——石頭人。懷孕媽媽肚子里的那個(gè)東東就是她的孩子,類似的,在一個(gè)查詢語句里的某個(gè)位置也可以有另一個(gè)查詢語句,這個(gè)出現(xiàn)在某個(gè)查詢語句的某個(gè)位置中的查詢就被稱為子查詢(我們也可以稱它為寶寶查詢哈哈),那個(gè)充當(dāng)“媽媽”角色的查詢也被稱之為外層查詢。不像人們懷孕時(shí)寶寶們都只在肚子里,子查詢可以在一個(gè)外層查詢的各種位置出現(xiàn),比如:

  • SELECT子句中

    也就是我們平時(shí)說的查詢列表中,比如這樣:

    mysql> SELECT (SELECT m1 FROM t1 LIMIT 1);
    +-----------------------------+
    | (SELECT m1 FROM t1 LIMIT 1) |
    +-----------------------------+
    |                           1 |
    +-----------------------------+
    1 row in set (0.00 sec)
    

    其中的(SELECT m1 FROM t1 LIMIT 1)就是我們嘮叨的所謂的子查詢。

  • FROM子句中

    比如:

    SELECT m, n FROM (SELECT m2 + 1 AS m, n2 AS n FROM t2 WHERE m2 > 2) AS t;
    +------+------+
    | m    | n    |
    +------+------+
    |    4 | c    |
    |    5 | d    |
    +------+------+
    2 rows in set (0.00 sec)
    

    這個(gè)例子中的子查詢是:(SELECT m2 + 1 AS m, n2 AS n FROM t2 WHERE m2 > 2),很特別的地方是它出現(xiàn)在了FROM子句中。FROM子句里邊兒不是存放我們要查詢的表的名稱么,這里放進(jìn)來一個(gè)子查詢是個(gè)什么鬼?其實(shí)這里我們可以把子查詢的查詢結(jié)果當(dāng)作是一個(gè)表,子查詢后邊的AS t表明這個(gè)子查詢的結(jié)果就相當(dāng)于一個(gè)名稱為t的表,這個(gè)名叫t的表的列就是子查詢結(jié)果中的列,比如例子中表t就有兩個(gè)列:m列和n列。這個(gè)放在FROM子句中的子查詢本質(zhì)上相當(dāng)于一個(gè),但又和我們平常使用的表有點(diǎn)兒不一樣,設(shè)計(jì)MySQL的大叔把這種由子查詢結(jié)果集組成的表稱之為派生表。

  • WHEREON子句中

    把子查詢放在外層查詢的WHERE子句或者ON子句中可能是我們最常用的一種使用子查詢的方式了,比如這樣:

    mysql> SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2);
    +------+------+
    | m1   | n1   |
    +------+------+
    |    2 | b    |
    |    3 | c    |
    +------+------+
    2 rows in set (0.00 sec)
    

    這個(gè)查詢表明我們想要將(SELECT m2 FROM t2)這個(gè)子查詢的結(jié)果作為外層查詢的IN語句參數(shù),整個(gè)查詢語句的意思就是我們想找t1表中的某些記錄,這些記錄的m1列的值能在t2表的m2列找到匹配的值。

  • ORDER BY子句中

    雖然語法支持,但沒啥子意義,不嘮叨這種情況了。

  • GROUP BY子句中

    同上~

按返回的結(jié)果集區(qū)分子查詢

因?yàn)樽硬樵儽旧硪菜闶且粋€(gè)查詢,所以可以按照它們返回的不同結(jié)果集類型而把這些子查詢分為不同的類型:

  • 標(biāo)量子查詢

    那些只返回一個(gè)單一值的子查詢稱之為標(biāo)量子查詢,比如這樣:

    SELECT (SELECT m1 FROM t1 LIMIT 1);
    

    或者這樣:

    SELECT * FROM t1 WHERE m1 = (SELECT MIN(m2) FROM t2);
    

    這兩個(gè)查詢語句中的子查詢都返回一個(gè)單一的值,也就是一個(gè)標(biāo)量。這些標(biāo)量子查詢可以作為一個(gè)單一值或者表達(dá)式的一部分出現(xiàn)在查詢語句的各個(gè)地方。

  • 行子查詢

    顧名思義,就是返回一條記錄的子查詢,不過這條記錄需要包含多個(gè)列(只包含一個(gè)列就成了標(biāo)量子查詢了)。比如這樣:

    SELECT * FROM t1 WHERE (m1, n1) = (SELECT m2, n2 FROM t2 LIMIT 1);
    

    其中的(SELECT m2, n2 FROM t2 LIMIT 1)就是一個(gè)行子查詢,整條語句的含義就是要從t1表中找一些記錄,這些記錄的m1n2列分別等于子查詢結(jié)果中的m2n2列。

  • 列子查詢

    列子查詢自然就是查詢出一個(gè)列的數(shù)據(jù)嘍,不過這個(gè)列的數(shù)據(jù)需要包含多條記錄(只包含一條記錄就成了標(biāo)量子查詢了)。比如這樣:

    SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2);
    

    其中的(SELECT m2 FROM t2)就是一個(gè)列子查詢,表明查詢出t2表的m2列的值作為外層查詢IN語句的參數(shù)。

  • 表子查詢

    顧名思義,就是子查詢的結(jié)果既包含很多條記錄,又包含很多個(gè)列,比如這樣:

    SELECT * FROM t1 WHERE (m1, n1) IN (SELECT m2, n2 FROM t2);
    

    其中的(SELECT m2, n2 FROM t2)就是一個(gè)表子查詢,這里需要和行子查詢對比一下,行子查詢中我們用了LIMIT 1來保證子查詢的結(jié)果只有一條記錄,表子查詢中不需要這個(gè)限制。

按與外層查詢關(guān)系來區(qū)分子查詢

  • 不相關(guān)子查詢

    如果子查詢可以單獨(dú)運(yùn)行出結(jié)果,而不依賴于外層查詢的值,我們就可以把這個(gè)子查詢稱之為不相關(guān)子查詢。我們前邊介紹的那些子查詢?nèi)慷伎梢钥醋鞑幌嚓P(guān)子查詢,所以也就不舉例子了哈。

  • 相關(guān)子查詢

    如果子查詢的執(zhí)行需要依賴于外層查詢的值,我們就可以把這個(gè)子查詢稱之為相關(guān)子查詢。比如:

    SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2 WHERE n1 = n2);
    

    例子中的子查詢是(SELECT m2 FROM t2 WHERE n1 = n2),可是這個(gè)查詢中有一個(gè)搜索條件是n1 = n2,別忘了n1是表t1的列,也就是外層查詢的列,也就是說子查詢的執(zhí)行需要依賴于外層查詢的值,所以這個(gè)子查詢就是一個(gè)相關(guān)子查詢。

子查詢在布爾表達(dá)式中的使用

你說寫下邊這樣的子查詢有啥意義:

SELECT (SELECT m1 FROM t1 LIMIT 1);
貌似沒啥意義~ 我們平時(shí)用子查詢最多的地方就是把它作為布爾表達(dá)式的一部分來作為搜索條件用在WHERE子句或者ON子句里。所以我們這里來總結(jié)一下子查詢在布爾表達(dá)式中的使用場景。

  • 使用=、>、<>=、<=、<>、!=、<=>作為布爾表達(dá)式的操作符

    這些操作符具體是啥意思就不用我多介紹了吧,如果你不知道的話,那我真的很佩服你是靠著啥勇氣一口氣看到這里的~ 為了方便,我們就把這些操作符稱為comparison_operator吧,所以子查詢組成的布爾表達(dá)式就長這樣:

    操作數(shù) comparison_operator (子查詢)
    

    這里的操作數(shù)可以是某個(gè)列名,或者是一個(gè)常量,或者是一個(gè)更復(fù)雜的表達(dá)式,甚至可以是另一個(gè)子查詢。但是需要注意的是,<span style="color:red">這里的子查詢只能是標(biāo)量子查詢或者行子查詢,也就是子查詢的結(jié)果只能返回一個(gè)單一的值或者只能是一條記錄</span>。比如這樣(標(biāo)量子查詢):

    SELECT * FROM t1 WHERE m1 < (SELECT MIN(m2) FROM t2);
    

    或者這樣(行子查詢):

    SELECT * FROM t1 WHERE (m1, n1) = (SELECT m2, n2 FROM t2 LIMIT 1);
    
  • [NOT] IN/ANY/SOME/ALL子查詢

    對于列子查詢和表子查詢來說,它們的結(jié)果集中包含很多條記錄,這些記錄相當(dāng)于是一個(gè)集合,所以就不能單純的和另外一個(gè)操作數(shù)使用comparison_operator來組成布爾表達(dá)式了,MySQL通過下面的語法來支持某個(gè)操作數(shù)和一個(gè)集合組成一個(gè)布爾表達(dá)式:

    • IN或者NOT IN

      具體的語法形式如下:

      操作數(shù) [NOT] IN (子查詢)
      

      這個(gè)布爾表達(dá)式的意思是用來判斷某個(gè)操作數(shù)在不在由子查詢結(jié)果集組成的集合中,比如下邊的查詢的意思是找出t1表中的某些記錄,這些記錄存在于子查詢的結(jié)果集中:

      SELECT * FROM t1 WHERE (m1, n2) IN (SELECT m2, n2 FROM t2);
      
    • ANY/SOMEANYSOME是同義詞)

      具體的語法形式如下:

      操作數(shù) comparison_operator ANY/SOME(子查詢)
      

      這個(gè)布爾表達(dá)式的意思是只要子查詢結(jié)果集中存在某個(gè)值和給定的操作數(shù)做comparison_operator比較結(jié)果為TRUE,那么整個(gè)表達(dá)式的結(jié)果就為TRUE,否則整個(gè)表達(dá)式的結(jié)果就為FALSE。比方說下邊這個(gè)查詢:

      SELECT * FROM t1 WHERE m1 > ANY(SELECT m2 FROM t2);
      

      這個(gè)查詢的意思就是對于t1表的某條記錄的m1列的值來說,如果子查詢(SELECT m2 FROM t2)的結(jié)果集中存在一個(gè)小于m1列的值,那么整個(gè)布爾表達(dá)式的值就是TRUE,否則為FALSE,也就是說只要m1列的值大于子查詢結(jié)果集中最小的值,整個(gè)表達(dá)式的結(jié)果就是TRUE,所以上邊的查詢本質(zhì)上等價(jià)于這個(gè)查詢:

      SELECT * FROM t1 WHERE m1 > (SELECT MIN(m2) FROM t2);
      

      另外,<span style="color:red">=ANY相當(dāng)于判斷子查詢結(jié)果集中是否存在某個(gè)值和給定的操作數(shù)相等,它的含義和IN是相同的</span>。

    • ALL

      具體的語法形式如下:

      操作數(shù) comparison_operator ALL(子查詢)
      

      這個(gè)布爾表達(dá)式的意思是子查詢結(jié)果集中所有的值和給定的操作數(shù)做comparison_operator比較結(jié)果為TRUE,那么整個(gè)表達(dá)式的結(jié)果就為TRUE,否則整個(gè)表達(dá)式的結(jié)果就為FALSE。比方說下邊這個(gè)查詢:

      SELECT * FROM t1 WHERE m1 > ALL(SELECT m2 FROM t2);
      

      這個(gè)查詢的意思就是對于t1表的某條記錄的m1列的值來說,如果子查詢(SELECT m2 FROM t2)的結(jié)果集中的所有值都小于m1列的值,那么整個(gè)布爾表達(dá)式的值就是TRUE,否則為FALSE,也就是說只要m1列的值大于子查詢結(jié)果集中最大的值,整個(gè)表達(dá)式的結(jié)果就是TRUE,所以上邊的查詢本質(zhì)上等價(jià)于這個(gè)查詢:

      SELECT * FROM t1 WHERE m1 > (SELECT MAX(m2) FROM t2);
      
      
      小貼士:
      
      覺得ANY和ALL有點(diǎn)暈的同學(xué)多看兩遍哈~
      
  • EXISTS子查詢

    有的時(shí)候我們僅僅需要判斷子查詢的結(jié)果集中是否有記錄,而不在乎它的記錄具體是個(gè)啥,可以使用把EXISTS或者NOT EXISTS放在子查詢語句前邊,就像這樣:

    [NOT] EXISTS (子查詢)
    

    我們舉一個(gè)例子?。?/p>

    SELECT * FROM t1 WHERE EXISTS (SELECT 1 FROM t2);
    

    對于子查詢(SELECT 1 FROM t2)來說,我們并不關(guān)心這個(gè)子查詢最后到底查詢出的結(jié)果是什么,所以查詢列表里填*、某個(gè)列名,或者其他啥東西都無所謂,我們真正關(guān)心的是子查詢的結(jié)果集中是否存在記錄。也就是說只要(SELECT 1 FROM t2)這個(gè)查詢中有記錄,那么整個(gè)EXISTS表達(dá)式的結(jié)果就為TRUE

子查詢語法注意事項(xiàng)

  • 子查詢必須用小括號擴(kuò)起來。

    不擴(kuò)起來的子查詢是非法的,比如這樣:

    mysql> SELECT SELECT m1 FROM t1;
    
    ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'SELECT m1 FROM t1' at line 1
    
  • SELECT子句中的子查詢必須是標(biāo)量子查詢。

    如果子查詢結(jié)果集中有多個(gè)列或者多個(gè)行,都不允許放在SELECT子句中,也就是查詢列表中,比如這樣就是非法的:

    mysql> SELECT (SELECT m1, n1 FROM t1);
    
    ERROR 1241 (21000): Operand should contain 1 column(s)
    
  • 在想要得到標(biāo)量子查詢或者行子查詢,但又不能保證子查詢的結(jié)果集只有一條記錄時(shí),應(yīng)該使用LIMIT 1語句來限制記錄數(shù)量。

  • 對于[NOT] IN/ANY/SOME/ALL子查詢來說,子查詢中不允許有LIMIT語句。

    比如這樣是非法的:

    mysql> SELECT * FROM t1 WHERE m1 IN (SELECT * FROM t2 LIMIT 2);
    
    ERROR 1235 (42000): This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'
    

    為啥不合法?人家就這么規(guī)定的,不解釋~ 可能以后的版本會支持吧。正因?yàn)?code>[NOT] IN/ANY/SOME/ALL子查詢不支持LIMIT語句,所以子查詢中的這些語句也就是多余的了:

    • ORDER BY子句

      子查詢的結(jié)果其實(shí)就相當(dāng)于一個(gè)集合,集合里的值排不排序一點(diǎn)兒都不重要,比如下邊這個(gè)語句中的ORDER BY子句簡直就是畫蛇添足:

      SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2 ORDER BY m2);
      
    • DISTINCT語句

      集合里的值去不去重也沒啥意義,比如這樣:

      SELECT * FROM t1 WHERE m1 IN (SELECT DISTINCT m2 FROM t2);
      
    • 沒有聚集函數(shù)以及HAVING子句的GROUP BY子句。

      在沒有聚集函數(shù)以及HAVING子句時(shí),GROUP BY子句就是個(gè)擺設(shè),比如這樣:

      SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2 GROUP BY m2);
      

    對于這些冗余的語句,<span style="color:red">查詢優(yōu)化器在一開始就把它們給干掉了</span>。

  • 不允許在一條語句中增刪改某個(gè)表的記錄時(shí)同時(shí)還對該表進(jìn)行子查詢。

    比方說這樣:

    mysql> DELETE FROM t1 WHERE m1 < (SELECT MAX(m1) FROM t1);
    
    ERROR 1093 (HY000): You can't specify target table 't1' for update in FROM clause
    

子查詢在MySQL中是怎么執(zhí)行的

好了,關(guān)于子查詢的基礎(chǔ)語法我們用最快的速度溫習(xí)了一遍,如果想了解更多語法細(xì)節(jié),大家可以去查看一下MySQL的文檔哈,現(xiàn)在我們就假設(shè)各位都懂了啥是個(gè)子查詢了喔,接下來就要嘮叨具體某種類型的子查詢在MySQL中是怎么執(zhí)行的了,想想就有點(diǎn)兒小激動(dòng)呢~ 當(dāng)然,為了故事的順利發(fā)展,我們的例子也需要跟隨形勢鳥槍換炮,還是要祭出我們用了n遍的single_table表:

CREATE TABLE single_table (
    id INT NOT NULL AUTO_INCREMENT,
    key1 VARCHAR(100),
    key2 INT,
    key3 VARCHAR(100),
    key_part1 VARCHAR(100),
    key_part2 VARCHAR(100),
    key_part3 VARCHAR(100),
    common_field VARCHAR(100),
    PRIMARY KEY (id),
    KEY idx_key1 (key1),
    UNIQUE KEY idx_key2 (key2),
    KEY idx_key3 (key3),
    KEY idx_key_part(key_part1, key_part2, key_part3)
) Engine=InnoDB CHARSET=utf8;

為了方便,我們假設(shè)有兩個(gè)表s1、s2與這個(gè)single_table表的構(gòu)造是相同的,而且這兩個(gè)表里邊兒有10000條記錄,除id列外其余的列都插入隨機(jī)值。下邊正式開始我們的表演。

小白們眼中子查詢的執(zhí)行方式

在我還是一個(gè)單純無知的少年時(shí),覺得子查詢的執(zhí)行方式是這樣的:

  • 如果該子查詢是不相關(guān)子查詢,比如下邊這個(gè)查詢:

    SELECT * FROM s1 
        WHERE key1 IN (SELECT common_field FROM s2);
    

    我年少時(shí)覺得這個(gè)查詢是的執(zhí)行方式是這樣的:

    • 先單獨(dú)執(zhí)行(SELECT common_field FROM s2)這個(gè)子查詢。

    • 然后在將上一步子查詢得到的結(jié)果當(dāng)作外層查詢的參數(shù)再執(zhí)行外層查詢SELECT * FROM s1 WHERE key1 IN (...)

  • 如果該子查詢是相關(guān)子查詢,比如下邊這個(gè)查詢:

    SELECT * FROM s1 
        WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key2 = s2.key2);
    

    這個(gè)查詢中的子查詢中出現(xiàn)了s1.key2 = s2.key2這樣的條件,意味著該子查詢的執(zhí)行依賴著外層查詢的值,所以我年少時(shí)覺得這個(gè)查詢的執(zhí)行方式是這樣的:

    • 先從外層查詢中獲取一條記錄,本例中也就是先從s1表中獲取一條記錄。

    • 然后從上一步驟中獲取的那條記錄中找出子查詢中涉及到的值,本例中就是從s1表中獲取的那條記錄中找出s1.key2列的值,然后執(zhí)行子查詢。

    • 最后根據(jù)子查詢的查詢結(jié)果來檢測外層查詢WHERE子句的條件是否成立,如果成立,就把外層查詢的那條記錄加入到結(jié)果集,否則就丟棄。

    • 再次執(zhí)行第一步,獲取第二條外層查詢中的記錄,依次類推~

告訴我不只是我一個(gè)人是這樣認(rèn)為的,這樣認(rèn)為的同學(xué)請舉起你們的雙手~~~ 哇唔,還真不少~

其實(shí)設(shè)計(jì)MySQL的大叔想了一系列的辦法來優(yōu)化子查詢的執(zhí)行,大部分情況下這些優(yōu)化措施其實(shí)挺有效的,但是保不齊有的時(shí)候馬失前蹄,下邊我們詳細(xì)嘮叨各種不同類型的子查詢具體是怎么執(zhí)行的。

我們下邊即將嘮叨的關(guān)于MySQL優(yōu)化子查詢的執(zhí)行方式的事兒都是基于MySQL5.7這個(gè)版本的,以后版本可能有更新的優(yōu)化策略!

標(biāo)量子查詢、行子查詢的執(zhí)行方式

我們經(jīng)常在下邊兩個(gè)場景中使用到標(biāo)量子查詢或者行子查詢:

  • SELECT子句中,我們前邊說過的在查詢列表中的子查詢必須是標(biāo)量子查詢。

  • 子查詢使用=、><、>=<=、<>、!=、<=>等操作符和某個(gè)操作數(shù)組成一個(gè)布爾表達(dá)式,這樣的子查詢必須是標(biāo)量子查詢或者行子查詢。

對于上述兩種場景中的不相關(guān)標(biāo)量子查詢或者行子查詢來說,它們的執(zhí)行方式是簡單的,比方說下邊這個(gè)查詢語句:

SELECT * FROM s1 
    WHERE key1 = (SELECT common_field FROM s2 WHERE key3 = 'a' LIMIT 1);

它的執(zhí)行方式和年少的我想的一樣:

  • 先單獨(dú)執(zhí)行(SELECT common_field FROM s2 WHERE key3 = 'a' LIMIT 1)這個(gè)子查詢。

  • 然后在將上一步子查詢得到的結(jié)果當(dāng)作外層查詢的參數(shù)再執(zhí)行外層查詢SELECT * FROM s1 WHERE key1 = ...

也就是說,對于包含不相關(guān)的標(biāo)量子查詢或者行子查詢的查詢語句來說,MySQL會分別獨(dú)立的執(zhí)行外層查詢和子查詢,就當(dāng)作兩個(gè)單表查詢就好了。

對于相關(guān)的標(biāo)量子查詢或者行子查詢來說,比如下邊這個(gè)查詢:

SELECT * FROM s1 WHERE 
    key1 = (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3 LIMIT 1);

事情也和年少的我想的一樣,它的執(zhí)行方式就是這樣的:

  • 先從外層查詢中獲取一條記錄,本例中也就是先從s1表中獲取一條記錄。

  • 然后從上一步驟中獲取的那條記錄中找出子查詢中涉及到的值,本例中就是從s1表中獲取的那條記錄中找出s1.key3列的值,然后執(zhí)行子查詢。

  • 最后根據(jù)子查詢的查詢結(jié)果來檢測外層查詢WHERE子句的條件是否成立,如果成立,就把外層查詢的那條記錄加入到結(jié)果集,否則就丟棄。

  • 再次執(zhí)行第一步,獲取第二條外層查詢中的記錄,依次類推~

也就是說對于一開始嘮叨的兩種使用標(biāo)量子查詢以及行子查詢的場景中,MySQL優(yōu)化器的執(zhí)行方式并沒有什么新鮮的。

IN子查詢優(yōu)化

物化表的提出

對于不相關(guān)的IN子查詢,比如這樣:

SELECT * FROM s1 
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

我們最開始的感覺就是這種不相關(guān)的IN子查詢和不相關(guān)的標(biāo)量子查詢或者行子查詢是一樣一樣的,都是把外層查詢和子查詢當(dāng)作兩個(gè)獨(dú)立的單表查詢來對待,可是很遺憾的是設(shè)計(jì)MySQL的大叔為了優(yōu)化IN子查詢傾注了太多心血(畢竟IN子查詢是我們?nèi)粘I钪凶畛S玫淖硬樵冾愋停?,所以整個(gè)執(zhí)行過程并不像我們想象的那么簡單(>_<)。

其實(shí)說句老實(shí)話,對于不相關(guān)的IN子查詢來說,如果子查詢的結(jié)果集中的記錄條數(shù)很少,那么把子查詢和外層查詢分別看成兩個(gè)單獨(dú)的單表查詢效率還是蠻高的,但是如果單獨(dú)執(zhí)行子查詢后的結(jié)果集太多的話,就會導(dǎo)致這些問題:

  • 結(jié)果集太多,可能內(nèi)存中都放不下~

  • 對于外層查詢來說,如果子查詢的結(jié)果集太多,那就意味著IN子句中的參數(shù)特別多,這就導(dǎo)致:

  • 無法有效的使用索引,只能對外層查詢進(jìn)行全表掃描。

    • 在對外層查詢執(zhí)行全表掃描時(shí),由于IN子句中的參數(shù)太多,這會導(dǎo)致檢測一條記錄是否符合和IN子句中的參數(shù)匹配花費(fèi)的時(shí)間太長。

      比如說IN子句中的參數(shù)只有兩個(gè):

      SELECT * FROM tbl_name WHERE column IN (a, b);
      

      這樣相當(dāng)于需要對tbl_name表中的每條記錄判斷一下它的column列是否符合column = a OR column = b。在IN子句中的參數(shù)比較少時(shí)這并不是什么問題,如果IN子句中的參數(shù)比較多時(shí),比如這樣:

      SELECT * FROM tbl_name WHERE column IN (a, b, c ..., ...);
      

      那么這樣每條記錄需要判斷一下它的column列是否符合column = a OR column = b OR column = c OR ...,這樣性能耗費(fèi)可就多了。

于是乎設(shè)計(jì)MySQL的大叔想了一個(gè)招:不直接將不相關(guān)子查詢的結(jié)果集當(dāng)作外層查詢的參數(shù),而是將該結(jié)果集寫入一個(gè)臨時(shí)表里。寫入臨時(shí)表的過程是這樣的:

  • 該臨時(shí)表的列就是子查詢結(jié)果集中的列。
  • 寫入臨時(shí)表的記錄會被去重。

    我們說IN語句是判斷某個(gè)操作數(shù)在不在某個(gè)集合中,集合中的值重不重復(fù)對整個(gè)IN語句的結(jié)果并沒有啥子關(guān)系,所以我們在將結(jié)果集寫入臨時(shí)表時(shí)對記錄進(jìn)行去重可以讓臨時(shí)表變得更小,更省地方~

    小貼士:
    
    臨時(shí)表如何對記錄進(jìn)行去重?這不是小意思嘛,臨時(shí)表也是個(gè)表,只要為表中記錄的所有列建立主鍵或者唯一索引就好了嘛~
    
  • 一般情況下子查詢結(jié)果集不會大的離譜,所以會為它建立基于內(nèi)存的使用Memory存儲引擎的臨時(shí)表,而且會為該表建立哈希索引。

    小貼士:
    
    IN語句的本質(zhì)就是判斷某個(gè)操作數(shù)在不在某個(gè)集合里,如果集合中的數(shù)據(jù)建立了哈希索引,那么這個(gè)匹配的過程就是超級快的。
    
    有同學(xué)不知道哈希索引是什么?我這里就不展開了,自己上網(wǎng)找找吧,不會了再來問我~
    

    如果子查詢的結(jié)果集非常大,超過了系統(tǒng)變量tmp_table_size或者max_heap_table_size,臨時(shí)表會轉(zhuǎn)而使用基于磁盤的存儲引擎來保存結(jié)果集中的記錄,索引類型也對應(yīng)轉(zhuǎn)變?yōu)?code>B+樹索引。

設(shè)計(jì)MySQL的大叔把這個(gè)將子查詢結(jié)果集中的記錄保存到臨時(shí)表的過程稱之為物化(英文名:Materialize)。為了方便起見,我們就把那個(gè)存儲子查詢結(jié)果集的臨時(shí)表稱之為物化表。正因?yàn)槲锘碇械挠涗浂冀⒘怂饕ɑ趦?nèi)存的物化表有哈希索引,基于磁盤的有B+樹索引),通過索引執(zhí)行IN語句判斷某個(gè)操作數(shù)在不在子查詢結(jié)果集中變得非常快,從而提升了子查詢語句的性能。

物化表轉(zhuǎn)連接

事情到這就完了?我們還得重新審視一下最開始的那個(gè)查詢語句:

SELECT * FROM s1 
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

當(dāng)我們把子查詢進(jìn)行物化之后,假設(shè)子查詢物化表的名稱為materialized_table,該物化表存儲的子查詢結(jié)果集的列為m_val,那么這個(gè)查詢其實(shí)可以從下邊兩種角度來看待:

  • 從表s1的角度來看待,整個(gè)查詢的意思其實(shí)是:對于s1表中的每條記錄來說,如果該記錄的key1列的值在子查詢對應(yīng)的物化表中,則該記錄會被加入最終的結(jié)果集。畫個(gè)圖表示一下就是這樣:
image.png
  • 從子查詢物化表的角度來看待,整個(gè)查詢的意思其實(shí)是:對于子查詢物化表的每個(gè)值來說,如果能在s1表中找到對應(yīng)的key1列的值與該值相等的記錄,那么就把這些記錄加入到最終的結(jié)果集。畫個(gè)圖表示一下就是這樣:
image.png

也就是說其實(shí)上邊的查詢就相當(dāng)于表s1和子查詢物化表materialized_table進(jìn)行內(nèi)連接:

SELECT s1.* FROM s1 INNER JOIN materialized_table ON key1 = m_val;

轉(zhuǎn)化成內(nèi)連接之后就有意思了,查詢優(yōu)化器可以評估不同連接順序需要的成本是多少,選取成本最低的那種查詢方式執(zhí)行查詢。我們分析一下上述查詢中使用外層查詢的表s1和物化表materialized_table進(jìn)行內(nèi)連接的成本都是由哪幾部分組成的:

  • 如果使用s1表作為驅(qū)動(dòng)表的話,總查詢成本由下邊幾個(gè)部分組成:

    • 物化子查詢時(shí)需要的成本

    • 掃描s1表時(shí)的成本

    • s1表中的記錄數(shù)量 × 通過m_val = xxxmaterialized_table表進(jìn)行單表訪問的成本(我們前邊說過物化表中的記錄是不重復(fù)的,并且為物化表中的列建立了索引,所以這個(gè)步驟顯然是非??斓模?/p>

  • 如果使用materialized_table表作為驅(qū)動(dòng)表的話,總查詢成本由下邊幾個(gè)部分組成:

    • 物化子查詢時(shí)需要的成本

    • 掃描物化表時(shí)的成本

    • 物化表中的記錄數(shù)量 × 通過key1 = xxxs1表進(jìn)行單表訪問的成本(非常慶幸key1列上建立了索引,所以這個(gè)步驟是非常快的)。

MySQL查詢優(yōu)化器會通過運(yùn)算來選擇上述成本更低的方案來執(zhí)行查詢。

將子查詢轉(zhuǎn)換為semi-join

雖然將子查詢進(jìn)行物化之后再執(zhí)行查詢都會有建立臨時(shí)表的成本,但是不管怎么說,我們見識到了將子查詢轉(zhuǎn)換為連接的強(qiáng)大作用,設(shè)計(jì)MySQL的大叔繼續(xù)開腦洞:能不能不進(jìn)行物化操作直接把子查詢轉(zhuǎn)換為連接呢?讓我們重新審視一下上邊的查詢語句:

SELECT * FROM s1 
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

我們可以把這個(gè)查詢理解成:對于s1表中的某條記錄,如果我們能在s2表(準(zhǔn)確的說是執(zhí)行完WHERE s2.key3 = 'a'之后的結(jié)果集)中找到一條或多條記錄,這些記錄的common_field的值等于s1表記錄的key1列的值,那么該條s1表的記錄就會被加入到最終的結(jié)果集。這個(gè)過程其實(shí)和把s1s2兩個(gè)表連接起來的效果很像:

SELECT s1.* FROM s1 INNER JOIN s2 
    ON s1.key1 = s2.common_field 
    WHERE s2.key3 = 'a';

只不過我們不能保證對于s1表的某條記錄來說,在s2表(準(zhǔn)確的說是執(zhí)行完WHERE s2.key3 = 'a'之后的結(jié)果集)中有多少條記錄滿足s1.key1 = s2.common_field這個(gè)條件,不過我們可以分三種情況討論:

  • 情況一:對于s1表的某條記錄來說,s2表中<span style="color:red">沒有</span>任何記錄滿足s1.key1 = s2.common_field這個(gè)條件,那么該記錄自然也不會加入到最后的結(jié)果集。

  • 情況二:對于s1表的某條記錄來說,s2表中<span style="color:red">有且只有</span>記錄滿足s1.key1 = s2.common_field這個(gè)條件,那么該記錄會被加入最終的結(jié)果集。

  • 情況三:對于s1表的某條記錄來說,s2表中<span style="color:red">至少有2條</span>記錄滿足s1.key1 = s2.common_field這個(gè)條件,那么該記錄會被<span style="color:red">多次</span>加入最終的結(jié)果集。

對于s1表的某條記錄來說,由于我們只關(guān)心s2表中<span style="color:red">是否存在</span>記錄滿足s1.key1 = s2.common_field這個(gè)條件,而<span style="color:red">不關(guān)心具體有多少條記錄與之匹配</span>,又因?yàn)橛?code>情況三的存在,我們上邊所說的IN子查詢和兩表連接之間并不完全等價(jià)。但是將子查詢轉(zhuǎn)換為連接又真的可以充分發(fā)揮優(yōu)化器的作用,所以設(shè)計(jì)MySQL的大叔在這里提出了一個(gè)新概念 --- 半連接(英文名:semi-join)。將s1表和s2表進(jìn)行半連接的意思就是:<span style="color:red">對于s1表的某條記錄來說,我們只關(guān)心在s2表中是否存在與之匹配的記錄是否存在,而不關(guān)心具體有多少條記錄與之匹配,最終的結(jié)果集中只保留s1表的記錄</span>。為了讓大家有更直觀的感受,我們假設(shè)MySQL內(nèi)部是這么改寫上邊的子查詢的:

SELECT s1.* FROM s1 SEMI JOIN s2
    ON s1.key1 = s2.common_field
    WHERE key3 = 'a';
小貼士:

semi-join只是在MySQL內(nèi)部采用的一種執(zhí)行子查詢的方式,MySQL并沒有提供面向用戶的semi-join語法,所以我們不需要,也不能嘗試把上邊這個(gè)語句放到黑框框里運(yùn)行,我只是想說明一下上邊的子查詢在MySQL內(nèi)部會被轉(zhuǎn)換為類似上邊語句的半連接~

概念是有了,怎么實(shí)現(xiàn)這種所謂的半連接呢?設(shè)計(jì)MySQL的大叔準(zhǔn)備了好幾種辦法。

  • Table pullout (子查詢中的表上拉)

    當(dāng)<span style="color:red">子查詢的查詢列表處只有主鍵或者唯一索引列</span>時(shí),可以直接把子查詢中的表上拉到外層查詢的FROM子句中,并把子查詢中的搜索條件合并到外層查詢的搜索條件中,比如這個(gè)

    SELECT * FROM s1 
        WHERE key2 IN (SELECT key2 FROM s2 WHERE key3 = 'a');
    

    由于key2列是s2表的唯一二級索引列,所以我們可以直接把s2表上拉到外層查詢的FROM子句中,并且把子查詢中的搜索條件合并到外層查詢的搜索條件中,上拉之后的查詢就是這樣的:

    SELECT s1.* FROM s1 INNER JOIN s2 
        ON s1.key2 = s2.key2 
        WHERE s2.key3 = 'a';
    

    為啥當(dāng)子查詢的查詢列表處只有主鍵或者唯一索引列時(shí),就可以直接將子查詢轉(zhuǎn)換為連接查詢呢?哎呀,主鍵或者唯一索引列中的數(shù)據(jù)本身就是不重復(fù)的嘛!所以對于同一條s1表中的記錄,你不可能找到兩條以上的符合s1.key2 = s2.key2的記錄呀~

  • DuplicateWeedout execution strategy (重復(fù)值消除)

    對于這個(gè)查詢來說:

    SELECT * FROM s1 
        WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
    

    轉(zhuǎn)換為半連接查詢后,s1表中的某條記錄可能在s2表中有多條匹配的記錄,所以該條記錄可能多次被添加到最后的結(jié)果集中,為了消除重復(fù),我們可以建立一個(gè)臨時(shí)表,比方說這個(gè)臨時(shí)表長這樣:

    CREATE TABLE tmp (
        id PRIMARY KEY
    );
    

    這樣在執(zhí)行連接查詢的過程中,每當(dāng)某條s1表中的記錄要加入結(jié)果集時(shí),就首先把這條記錄的id值加入到這個(gè)臨時(shí)表里,如果添加成功,說明之前這條s1表中的記錄并沒有加入最終的結(jié)果集,現(xiàn)在把該記錄添加到最終的結(jié)果集;如果添加失敗,說明這條之前這條s1表中的記錄已經(jīng)加入過最終的結(jié)果集,這里直接把它丟棄就好了,這種使用臨時(shí)表消除semi-join結(jié)果集中的重復(fù)值的方式稱之為DuplicateWeedout。

  • LooseScan execution strategy (松散索引掃描)

    大家看這個(gè)查詢:

    SELECT * FROM s1 
        WHERE key3 IN (SELECT key1 FROM s2 WHERE key1 > 'a' AND key1 < 'b');
    

    在子查詢中,對于s2表的訪問可以使用到key1列的索引,而恰好子查詢的查詢列表處就是key1列,這樣在將該查詢轉(zhuǎn)換為半連接查詢后,如果將s2作為驅(qū)動(dòng)表執(zhí)行查詢的話,那么執(zhí)行過程就是這樣:

image.png

如圖所示,在s2表的idx_key1索引中,值為'aa'的二級索引記錄一共有3條,那么只需要取第一條的值到s1表中查找s1.key3 = 'aa'的記錄,如果能在s1表中找到對應(yīng)的記錄,那么就把對應(yīng)的記錄加入到結(jié)果集。依此類推,其他值相同的二級索引記錄,也只需要取第一條記錄的值到s1表中找匹配的記錄,這種雖然是掃描索引,但只取值相同的記錄的第一條去做匹配操作的方式稱之為松散索引掃描。

  • Semi-join Materialization execution strategy

    我們之前介紹的先把外層查詢的IN子句中的不相關(guān)子查詢進(jìn)行物化,然后再進(jìn)行外層查詢的表和物化表的連接本質(zhì)上也算是一種semi-join,只不過由于物化表中沒有重復(fù)的記錄,所以可以直接將子查詢轉(zhuǎn)為連接查詢。

  • FirstMatch execution strategy (首次匹配)

    FirstMatch是一種最原始的半連接執(zhí)行方式,跟我們年少時(shí)認(rèn)為的相關(guān)子查詢的執(zhí)行方式是一樣一樣的,就是說先取一條外層查詢的中的記錄,然后到子查詢的表中尋找符合匹配條件的記錄,如果能找到一條,則將該外層查詢的記錄放入最終的結(jié)果集并且停止查找更多匹配的記錄,如果找不到則把該外層查詢的記錄丟棄掉;然后再開始取下一條外層查詢中的記錄,重復(fù)上邊這個(gè)過程。

對于某些使用IN語句的相關(guān)子查詢,比方這個(gè)查詢:

SELECT * FROM s1
WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3);
它也可以很方便的轉(zhuǎn)為半連接,轉(zhuǎn)換后的語句類似這樣:

SELECT s1.* FROM s1 SEMI JOIN s2
ON s1.key1 = s2.common_field AND s1.key3 = s2.key3;
然后就可以使用我們上邊介紹過的DuplicateWeedout、LooseScan、FirstMatch等半連接執(zhí)行策略來執(zhí)行查詢,當(dāng)然,如果子查詢的查詢列表處只有主鍵或者唯一二級索引列,還可以直接使用table pullout的策略來執(zhí)行查詢,但是需要大家注意的是,由于相關(guān)子查詢并不是一個(gè)獨(dú)立的查詢,所以不能轉(zhuǎn)換為物化表來執(zhí)行查詢。

semi-join的適用條件

當(dāng)然,并不是所有包含IN子查詢的查詢語句都可以轉(zhuǎn)換為semi-join,只有形如這樣的查詢才可以被轉(zhuǎn)換為semi-join:

SELECT ... FROM outer_tables
WHERE expr IN (SELECT ... FROM inner_tables ...) AND ...

或者這樣的形式也可以:

SELECT ... FROM outer_tables
WHERE (oe1, oe2, ...) IN (SELECT ie1, ie2, ... FROM inner_tables ...) AND ...

用文字總結(jié)一下,只有符合下邊這些條件的子查詢才可以被轉(zhuǎn)換為semi-join:

  • 該子查詢必須是和IN語句組成的布爾表達(dá)式,并且在外層查詢的WHERE或者ON子句中出現(xiàn)。

  • 外層查詢也可以有其他的搜索條件,只不過和IN子查詢的搜索條件必須使用AND連接起來。

  • 該子查詢必須是一個(gè)單一的查詢,不能是由若干查詢由UNION連接起來的形式。

  • 該子查詢不能包含GROUP BY或者HAVING語句或者聚集函數(shù)。

  • ... 還有一些條件比較少見,就不嘮叨啦~

不適用于semi-join的情況

對于一些不能將子查詢轉(zhuǎn)位semi-join的情況,典型的比如下邊這幾種:

  • 外層查詢的WHERE條件中有其他搜索條件與IN子查詢組成的布爾表達(dá)式使用OR連接起來

    SELECT * FROM s1 
        WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a')
            OR key2 > 100;
    
  • 使用NOT IN而不是IN的情況

    SELECT * FROM s1 
        WHERE key1 NOT IN (SELECT common_field FROM s2 WHERE key3 = 'a')
    
  • SELECT子句中的IN子查詢的情況

    SELECT key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a') FROM s1 ;
    
  • 子查詢中包含GROUP BYHAVING或者聚集函數(shù)的情況

    SELECT * FROM s1 
        WHERE key2 IN (SELECT COUNT(*) FROM s2 GROUP BY key1);
    
  • 子查詢中包含UNION的情況

    SELECT * FROM s1 WHERE key1 IN (
        SELECT common_field FROM s2 WHERE key3 = 'a' 
        UNION
        SELECT common_field FROM s2 WHERE key3 = 'b'
    );
    

MySQL仍然留了兩手絕活來優(yōu)化不能轉(zhuǎn)為semi-join查詢的子查詢,那就是:

  • 對于不相關(guān)子查詢來說,可以嘗試把它們物化之后再參與查詢

    比如我們上邊提到的這個(gè)查詢:

    SELECT * FROM s1 
        WHERE key1 NOT IN (SELECT common_field FROM s2 WHERE key3 = 'a')
    

    先將子查詢物化,然后再判斷key1是否在物化表的結(jié)果集中可以加快查詢執(zhí)行的速度。

請注意這里將子查詢物化之后不能轉(zhuǎn)為和外層查詢的表的連接,只能是先掃描s1表,然后對s1表的某條記錄來說,判斷該記錄的key1值在不在物化表中。

  • 不管子查詢是相關(guān)的還是不相關(guān)的,都可以把IN子查詢嘗試專為EXISTS子查詢

    其實(shí)對于任意一個(gè)IN子查詢來說,都可以被轉(zhuǎn)為EXISTS子查詢,通用的例子如下:

    outer_expr IN (SELECT inner_expr FROM ... WHERE subquery_where)
    

    可以被轉(zhuǎn)換為:

    EXISTS (SELECT inner_expr FROM ... WHERE subquery_where AND outer_expr=inner_expr)
    

    當(dāng)然這個(gè)過程中有一些特殊情況,比如在outer_expr或者inner_expr值為NULL的情況下就比較特殊。因?yàn)橛?code>NULL值作為操作數(shù)的表達(dá)式結(jié)果往往是NULL,比方說:

    mysql> SELECT NULL IN (1, 2, 3);
    +-------------------+
    | NULL IN (1, 2, 3) |
    +-------------------+
    |              NULL |
    +-------------------+
    1 row in set (0.00 sec)
    
    mysql> SELECT 1 IN (1, 2, 3);
    +----------------+
    | 1 IN (1, 2, 3) |
    +----------------+
    |              1 |
    +----------------+
    1 row in set (0.00 sec)
    
    mysql> SELECT NULL IN (NULL);
    +----------------+
    | NULL IN (NULL) |
    +----------------+
    |           NULL |
    +----------------+
    1 row in set (0.00 sec)
    

    EXISTS子查詢的結(jié)果肯定是TRUE或者FASLE

    mysql> SELECT EXISTS (SELECT 1 FROM s1 WHERE NULL = 1);
    +------------------------------------------+
    | EXISTS (SELECT 1 FROM s1 WHERE NULL = 1) |
    +------------------------------------------+
    |                                        0 |
    +------------------------------------------+
    1 row in set (0.01 sec)
    
    mysql> SELECT EXISTS (SELECT 1 FROM s1 WHERE 1 = NULL);
    +------------------------------------------+
    | EXISTS (SELECT 1 FROM s1 WHERE 1 = NULL) |
    +------------------------------------------+
    |                                        0 |
    +------------------------------------------+
    1 row in set (0.00 sec)
    
    mysql> SELECT EXISTS (SELECT 1 FROM s1 WHERE NULL = NULL);
    +---------------------------------------------+
    | EXISTS (SELECT 1 FROM s1 WHERE NULL = NULL) |
    +---------------------------------------------+
    |                                           0 |
    +---------------------------------------------+
    1 row in set (0.00 sec)
    

    但是幸運(yùn)的是,我們大部分使用IN子查詢的場景是把它放在WHERE或者ON子句中,而WHERE或者ON子句是不區(qū)分NULLFALSE的,比方說:

    mysql> SELECT 1 FROM s1 WHERE NULL;
    Empty set (0.00 sec)
    
    mysql> SELECT 1 FROM s1 WHERE FALSE;
    Empty set (0.00 sec)
    

所以只要我們的IN子查詢是放在WHERE或者ON子句中的,那么IN -> EXISTS的轉(zhuǎn)換就是沒問題的。說了這么多,為啥要轉(zhuǎn)換呢?這是因?yàn)椴晦D(zhuǎn)換的話可能用不到索引,比方說下邊這個(gè)查詢:
SELECT * FROM s1 WHERE key1 IN (SELECT key3 FROM s2 where s1.common_field = s2.common_field) OR key2 > 1000;
這個(gè)查詢中的子查詢是一個(gè)相關(guān)子查詢,而且子查詢執(zhí)行的時(shí)候不能使用到索引,但是將它轉(zhuǎn)為EXISTS子查詢后卻可以使用到索引:

```
SELECT * FROM s1
    WHERE EXISTS (SELECT 1 FROM s2 where s1.common_field = s2.common_field AND s2.key3 = s1.key1) 
        OR key2 > 1000;
```
轉(zhuǎn)為`EXISTS`子查詢時(shí)便可以使用到`s2`表的`idx_key3`索引了。

需要注意的是,如果`IN`子查詢不滿足轉(zhuǎn)換為`semi-join`的條件,又不能轉(zhuǎn)換為物化表或者轉(zhuǎn)換為物化表的成本太大,那么它就會被轉(zhuǎn)換為`EXISTS`查詢。

在MySQL5.5以及之前的版本沒有引進(jìn)semi-join和物化的方式優(yōu)化子查詢時(shí),優(yōu)化器都會把IN子查詢轉(zhuǎn)換為EXISTS子查詢,好多同學(xué)就驚呼我明明寫的是一個(gè)不相關(guān)子查詢,為啥要按照執(zhí)行相關(guān)子查詢的方式來執(zhí)行呢?所以當(dāng)時(shí)好多聲音都是建議大家把子查詢轉(zhuǎn)為連接,不過隨著MySQL的發(fā)展,最近的版本中引入了非常多的子查詢優(yōu)化策略,大家可以稍微放心的使用子查詢了,內(nèi)部的轉(zhuǎn)換工作優(yōu)化器會為大家自動(dòng)實(shí)現(xiàn)。

小結(jié)

  • 如果IN子查詢符合轉(zhuǎn)換為semi-join的條件,查詢優(yōu)化器會優(yōu)先把該子查詢轉(zhuǎn)換為semi-join,然后再考慮下邊5種執(zhí)行半連接的策略中哪個(gè)成本最低:

    • Table pullout
    • DuplicateWeedout
    • LooseScan
    • Materialization
    • FirstMatch

    選擇成本最低的那種執(zhí)行策略來執(zhí)行子查詢。

  • 如果IN子查詢不符合轉(zhuǎn)換為semi-join的條件,那么查詢優(yōu)化器會從下邊兩種策略中找出一種成本更低的方式執(zhí)行子查詢:

    • 先將子查詢物化之后再執(zhí)行查詢
    • 執(zhí)行IN to EXISTS轉(zhuǎn)換。

ANY/ALL子查詢優(yōu)化

如果ANY/ALL子查詢是不相關(guān)子查詢的話,它們在很多場合都能轉(zhuǎn)換成我們熟悉的方式去執(zhí)行,比方說:

原始表達(dá)式 轉(zhuǎn)換為
< ANY (SELECT inner_expr ...) < (SELECT MAX(inner_expr) ...)
> ANY (SELECT inner_expr ...) > (SELECT MIN(inner_expr) ...)
< ALL (SELECT inner_expr ...) < (SELECT MIN(inner_expr) ...)
> ALL (SELECT inner_expr ...) > (SELECT MAX(inner_expr) ...)

[NOT] EXISTS子查詢的執(zhí)行

如果[NOT] EXISTS子查詢是不相關(guān)子查詢,可以先執(zhí)行子查詢,得出該[NOT] EXISTS子查詢的結(jié)果是TRUE還是FALSE,并重寫原先的查詢語句,比如對這個(gè)查詢來說:

SELECT * FROM s1 
    WHERE EXISTS (SELECT 1 FROM s2 WHERE key1 = 'a') 
        OR key2 > 100;

因?yàn)檫@個(gè)語句里的子查詢是不相關(guān)子查詢,所以優(yōu)化器會首先執(zhí)行該子查詢,假設(shè)該EXISTS子查詢的結(jié)果為TRUE,那么接著優(yōu)化器會重寫查詢?yōu)椋?/p>

SELECT * FROM s1 
    WHERE TRUE OR key2 > 100;

進(jìn)一步簡化后就變成了:

SELECT * FROM s1 
    WHERE TRUE;

對于相關(guān)的[NOT] EXISTS子查詢來說,比如這個(gè)查詢:

SELECT * FROM s1 
    WHERE EXISTS (SELECT 1 FROM s2 WHERE s1.common_field = s2.common_field);

很不幸,這個(gè)查詢只能按照我們年少時(shí)的那種執(zhí)行相關(guān)子查詢的方式來執(zhí)行。不過如果[NOT] EXISTS子查詢中如果可以使用索引的話,那查詢速度也會加快不少,比如:

SELECT * FROM s1 
    WHERE EXISTS (SELECT 1 FROM s2 WHERE s1.common_field = s2.key1);

上邊這個(gè)EXISTS子查詢中可以使用idx_key1來加快查詢速度。

對于派生表的優(yōu)化

我們前邊說過把子查詢放在外層查詢的FROM子句后,那么這個(gè)子查詢的結(jié)果相當(dāng)于一個(gè)派生表,比如下邊這個(gè)查詢:

SELECT * FROM  (
        SELECT id AS d_id,  key3 AS d_key3 FROM s2 WHERE key1 = 'a'
    ) AS derived_s1 WHERE d_key3 = 'a';

子查詢( SELECT id AS d_id, key3 AS d_key3 FROM s2 WHERE key1 = 'a')的結(jié)果就相當(dāng)于一個(gè)派生表,這個(gè)表的名稱是derived_s1,該表有兩個(gè)列,分別是d_idd_key3

對于含有派生表的查詢,MySQL提供了兩種執(zhí)行策略:

  • 最容易想到的就是把派生表物化。

    我們可以將派生表的結(jié)果集寫到一個(gè)內(nèi)部的臨時(shí)表中,然后就把這個(gè)物化表當(dāng)作普通表一樣參與查詢。當(dāng)然,在對派生表進(jìn)行物化時(shí),設(shè)計(jì)MySQL的大叔使用了一種稱為延遲物化的策略,也就是在查詢中真正使用到派生表時(shí)才回去嘗試物化派生表,而不是還沒開始執(zhí)行查詢呢就把派生表物化掉。比方說對于下邊這個(gè)含有派生表的查詢來說:

    SELECT * FROM (
            SELECT * FROM s1 WHERE key1 = 'a'
        ) AS derived_s1 INNER JOIN s2
        ON derived_s1.key1 = s2.key1
        WHERE s2.key2 = 1;
    

    如果采用物化派生表的方式來執(zhí)行這個(gè)查詢的話,那么執(zhí)行時(shí)首先會到s2表中找出滿足s2.key2 = 1的記錄,如果壓根兒找不到,說明參與連接的s2表記錄就是空的,所以整個(gè)查詢的結(jié)果集就是空的,所以也就沒有必要去物化查詢中的派生表了。

  • 將派生表和外層的表合并,也就是將查詢重寫為沒有派生表的形式

    我們來看這個(gè)賊簡單的包含派生表的查詢:

    SELECT * FROM (SELECT * FROM s1 WHERE key1 = 'a') AS derived_s1;
    

    這個(gè)查詢本質(zhì)上就是想查看s1表中滿足key1 = 'a'條件的的全部記錄,所以和下邊這個(gè)語句是等價(jià)的:

    SELECT * FROM s1 WHERE key1 = 'a';
    

    對于一些稍微復(fù)雜的包含派生表的語句,比如我們上邊提到的那個(gè):

    SELECT * FROM (
            SELECT * FROM s1 WHERE key1 = 'a'
        ) AS derived_s1 INNER JOIN s2
        ON derived_s1.key1 = s2.key1
        WHERE s2.key2 = 1;
    

    我們可以將派生表與外層查詢的表合并,然后將派生表中的搜索條件放到外層查詢的搜索條件中,就像這樣:

    SELECT * FROM s1 INNER JOIN s2 
        ON s1.key1 = s2.key1
        WHERE s1.key1 = 'a' AND s2.key2 = 1;
    

    這樣通過將外層查詢和派生表合并的方式成功的消除了派生表,也就意味著我們沒必要再付出創(chuàng)建和訪問臨時(shí)表的成本了。可是并不是所有帶有派生表的查詢都能被成功的和外層查詢合并,當(dāng)派生表中有這些語句就不可以和外層查詢合并:

    • 聚集函數(shù),比如MAX()、MIN()、SUM()啥的

    • DISTINCT

    • GROUP BY

    • HAVING

    • LIMIT

    • UNION 或者 UNION ALL

    • 派生表對應(yīng)的子查詢的SELECT子句中含有另一個(gè)子查詢

    • ... 還有些不常用的情況就不多說了哈~

所以MySQL在執(zhí)行帶有派生表的時(shí)候,優(yōu)先嘗試把派生表和外層查詢合并掉,如果不行的話,再把派生表物化掉執(zhí)行查詢。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容