MySQL的性能調(diào)優(yōu)一

更新時(shí)間:2018-07-25 來源:黑馬程序員瀏覽量:

什么是MySQL，怎么安裝，怎么使用，我這里不做說明了。

一、MySQL 與其他數(shù)據(jù)庫(kù)的簡(jiǎn)單比較

1.1性能比較

性能方面，一直是MySQL 引以為自豪的一個(gè)特點(diǎn)。在權(quán)威的第三方評(píng)測(cè)機(jī)構(gòu)多次測(cè)試較量各種數(shù)據(jù)庫(kù)TPCC 值的過程中，MySQL 一直都有非常優(yōu)異的表現(xiàn)，而且在其他所有商用的通用數(shù)據(jù)庫(kù)管理系統(tǒng)中，僅僅只有Oracle 數(shù)據(jù)庫(kù)能夠與其一較高下。至于各種數(shù)據(jù)庫(kù)詳細(xì)的性能數(shù)據(jù)，我這里就不便記錄，大家完全可以通過網(wǎng)上第三方評(píng)測(cè)機(jī)構(gòu)公布的數(shù)據(jù)了解具體細(xì)節(jié)信息。

MySQL 一直以來奉行一個(gè)原則，那就是在保證足夠的穩(wěn)定性的前提下，盡可能的提高自身的處理能力。也就是說，在性能和功能方面，MySQL 第一考慮的要素主要還是性能，MySQL希望自己是一個(gè)在滿足客戶99%的功能需求的前提下，花掉剩下的大部分精力來性能努力，而不是希望自己是成為一個(gè)比其他任何數(shù)據(jù)庫(kù)的功能都要強(qiáng)大的數(shù)據(jù)庫(kù)產(chǎn)品。

1.2可靠性

關(guān)于可靠性的比較，并沒有太多詳細(xì)的評(píng)測(cè)比較數(shù)據(jù)，但是從目前業(yè)界的交流中可以了解到，幾大商業(yè)廠商的數(shù)據(jù)庫(kù)的可靠性肯定是沒有太多值得懷疑的。但是做為開源數(shù)據(jù)庫(kù)管理系統(tǒng)的代表，MySQL 也有非常優(yōu)異的表現(xiàn)，而并不是像有些人心中所懷疑的那樣，因?yàn)椴皇巧虡I(yè)廠商所提供，就會(huì)不夠穩(wěn)定不夠健壯。從當(dāng)前最火的Facebook 這樣大型的網(wǎng)站都是使用MySQL 數(shù)據(jù)庫(kù)，就可以看出，MySQL 在穩(wěn)定可靠性方面，并不會(huì)比我們的商業(yè)廠商的產(chǎn)品有太多遜色。而且排在全球前10 位的大型網(wǎng)站里面，大部分都有部分業(yè)務(wù)是運(yùn)行在MySQL數(shù)據(jù)庫(kù)環(huán)境上，如Yahoo，Google 等。

總的來說，MySQL 數(shù)據(jù)庫(kù)在發(fā)展過程中一直有自己的三個(gè)原則：簡(jiǎn)單、高效、可靠。從上面的簡(jiǎn)單比較中，我們也可以看出，在MySQL 自己的所有三個(gè)原則上面，沒有哪一項(xiàng)是做得不好的。而且，雖然功能并不是MySQL 自身所追求的三個(gè)原則之一，但是考慮到當(dāng)前用戶量的急劇增長(zhǎng)，用戶需求越來越越多樣化，MySQL 也不得不在功能方面做出大量的努力，來不斷滿足客戶的新需求。比如最近版本中出現(xiàn)的Eent Scheduler（類似于Oracle 的Job 功能），Partition 功能，自主研發(fā)的Maria 存儲(chǔ)引擎在功能方面的擴(kuò)展，F(xiàn)alcon 存儲(chǔ)引擎對(duì)事務(wù)的支持等等，都證明了MySQL 在功能方面也開始了不懈的努力。

任何一種產(chǎn)品，都不可能是完美的，也不可能適用于所有用戶。我們只有衡量了每一種產(chǎn)品的各種特性之后，從中選擇出一種最適合于自身的產(chǎn)品。

二、MySQL 的主要適用場(chǎng)景

據(jù)說目前MySQL 用戶已經(jīng)達(dá)千萬級(jí)別了，其中不乏企業(yè)級(jí)用戶。可以說是目前最為流行的開源數(shù)據(jù)庫(kù)管理系統(tǒng)軟件了。任何產(chǎn)品都不可能是萬能的，也不可能適用于所有的應(yīng)用場(chǎng)景。

那么MySQL 到底在什么場(chǎng)景下適用什么場(chǎng)景下不適用呢？

1、Web 網(wǎng)站系統(tǒng)

Web 站點(diǎn)，是MySQL 最大的客戶群，也是MySQL 發(fā)展史上最為重要的支撐力量，這一點(diǎn)在最開始的MySQL Server 簡(jiǎn)介部分就已經(jīng)說明過。

MySQL 之所以能成為Web 站點(diǎn)開發(fā)者們最青睞的數(shù)據(jù)庫(kù)管理系統(tǒng)，是因?yàn)镸ySQL 數(shù)據(jù)庫(kù)的安裝配置都非常簡(jiǎn)單，使用過程中的維護(hù)也不像很多大型商業(yè)數(shù)據(jù)庫(kù)管理系統(tǒng)那么復(fù)雜，而且性能出色。還有一個(gè)非常重要的原因就是MySQL 是開放源代碼的，完全可以免費(fèi)使用。

2、日志記錄系統(tǒng)

MySQL 數(shù)據(jù)庫(kù)的插入和查詢性能都非常的高效，如果設(shè)計(jì)地較好，在使用MyISAM 存儲(chǔ)引擎的時(shí)候，兩者可以做到互不鎖定，達(dá)到很高的并發(fā)性能。所以，對(duì)需要大量的插入和查詢?nèi)罩居涗浀南到y(tǒng)來說，MySQL 是非常不錯(cuò)的選擇。比如處理用戶的登錄日志，操作日志等，都是非常適合的應(yīng)用場(chǎng)景。

3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)

隨著現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)量的飛速增長(zhǎng)，我們需要的存儲(chǔ)空間越來越大。數(shù)據(jù)量的不斷增長(zhǎng)，使數(shù)據(jù)的統(tǒng)計(jì)分析變得越來越低效，也越來越困難。怎么辦？這里有幾個(gè)主要的解決思路，一個(gè)是采用昂貴的高性能主機(jī)以提高計(jì)算性能，用高端存儲(chǔ)設(shè)備提高I/O 性能，效果理想，但是成本非常高；第二個(gè)就是通過將數(shù)據(jù)復(fù)制到多臺(tái)使用大容量硬盤的廉價(jià)pc server上，以提高整體計(jì)算性能和I/O 能力，效果尚可，存儲(chǔ)空間有一定限制，成本低廉；第三個(gè)，通過將數(shù)據(jù)水平拆分，使用多臺(tái)廉價(jià)的pc server 和本地磁盤來存放數(shù)據(jù)，每臺(tái)機(jī)器上面都只有所有數(shù)據(jù)的一部分，解決了數(shù)據(jù)量的問題，所有pc server 一起并行計(jì)算，也解決了計(jì)算能力問題，通過中間代理程序調(diào)配各臺(tái)機(jī)器的運(yùn)算任務(wù)，既可以解決計(jì)算性能問題又可以解決I/O 性能問題，成本也很低廉。在上面的三個(gè)方案中，第二和第三個(gè)的實(shí)現(xiàn)，MySQL 都有較大的優(yōu)勢(shì)。通過MySQL 的簡(jiǎn)單復(fù)制功能，可以很好的將數(shù)據(jù)從一臺(tái)主機(jī)復(fù)制到另外一臺(tái)，不僅僅在局域網(wǎng)內(nèi)可以復(fù)制，在廣域網(wǎng)同樣可以。當(dāng)然，很多人可能會(huì)說，其他的數(shù)據(jù)庫(kù)同樣也可以做到，不是只有MySQL 有這樣的功能。確實(shí)，很多數(shù)據(jù)庫(kù)同樣能做到，但是MySQL是免費(fèi)的，其他數(shù)據(jù)庫(kù)大多都是按照主機(jī)數(shù)量或者cpu 數(shù)量來收費(fèi)，當(dāng)我們使用大量的pcserver 的時(shí)候，license 費(fèi)用相當(dāng)驚人。第一個(gè)方案，基本上所有數(shù)據(jù)庫(kù)系統(tǒng)都能夠?qū)崿F(xiàn)，但是其高昂的成本并不是每一個(gè)公司都能夠承擔(dān)的。

4、嵌入式系統(tǒng)

嵌入式環(huán)境對(duì)軟件系統(tǒng)最大的限制是硬件資源非常有限，在嵌入式環(huán)境下運(yùn)行的軟件系統(tǒng)，必須是輕量級(jí)低消耗的軟件。MySQL 在資源的使用方面的伸縮性非常大，可以在資源非常充裕的環(huán)境下運(yùn)行，也可以在資源非常少的環(huán)境下正常運(yùn)行。它對(duì)于嵌入式環(huán)境來說，是一種非常合適的數(shù)據(jù)庫(kù)系統(tǒng)，而且MySQL 有專門針對(duì)于嵌入式環(huán)境的版本。

三、Query 語(yǔ)句對(duì)系統(tǒng)性能的影響

我想對(duì)于各位來說，肯定都清楚SQL 語(yǔ)句的優(yōu)劣是對(duì)性能有影響的，但是到底有多大影響可能每個(gè)人都會(huì)有不同的體會(huì)，每個(gè)SQL 語(yǔ)句在優(yōu)化之前和優(yōu)化之后的性能差異也是各不相同，所以對(duì)于性能差異到底有多大這個(gè)問題我們我們這里就不做詳細(xì)分析了。我們重點(diǎn)分析實(shí)現(xiàn)同樣功能的不同SQL 語(yǔ)句在性能方面會(huì)產(chǎn)生較大的差異的根本原因，并通過一個(gè)較為典型的示例來對(duì)我們的分析做出相應(yīng)的驗(yàn)證。

為什么返回完全相同結(jié)果集的不同SQL 語(yǔ)句，在執(zhí)行性能方面存在差異呢？這里我們先從SQL 語(yǔ)句在數(shù)據(jù)庫(kù)中執(zhí)行并獲取所需數(shù)據(jù)這個(gè)過程來做一個(gè)大概的分析了。

當(dāng)MySQL Server 的連接線程接收到Client 端發(fā)送過來的SQL 請(qǐng)求之后，會(huì)經(jīng)過一系列的分解Parse，進(jìn)行相應(yīng)的分析。然后，MySQL 會(huì)通過查詢優(yōu)化器模塊（Optimizer）根據(jù)該SQL 所設(shè)涉及到的數(shù)據(jù)表的相關(guān)統(tǒng)計(jì)信息進(jìn)行計(jì)算分析，然后再得出一個(gè)MySQL 認(rèn)為最合理最優(yōu)化的數(shù)據(jù)訪問方式，也就是我們常說的“執(zhí)行計(jì)劃”，然后再根據(jù)所得到的執(zhí)行計(jì)劃通過調(diào)用存儲(chǔ)引擎借口來獲取相應(yīng)數(shù)據(jù)。然后再將存儲(chǔ)引擎返回的數(shù)據(jù)進(jìn)行相關(guān)處理，并以Client 端所要求的格式作為結(jié)果集返回給Client 端的應(yīng)用程序。

注：這里所說的統(tǒng)計(jì)數(shù)據(jù)，是我們通過ANALYZE TABLE 命令通知MySQL 對(duì)表的相關(guān)數(shù)據(jù)做分析之后所獲得到的一些數(shù)據(jù)統(tǒng)計(jì)量。這些統(tǒng)計(jì)數(shù)據(jù)對(duì)MySQL 優(yōu)化器而言是非常重要的，優(yōu)化器所生成的執(zhí)行計(jì)劃的好壞，主要就是由這些統(tǒng)計(jì)數(shù)據(jù)所決定的。實(shí)際上，在其他一些數(shù)據(jù)庫(kù)管理軟件中也有類似相應(yīng)的統(tǒng)計(jì)數(shù)據(jù)。

我們都知道，在數(shù)據(jù)庫(kù)管理軟件中，最大的性能瓶頸就是在于磁盤IO，也就是數(shù)據(jù)的存取操作上面。而對(duì)于同一份數(shù)據(jù)，當(dāng)我們以不同方式去尋找其中的某一點(diǎn)內(nèi)容的時(shí)候，所需要讀取的數(shù)據(jù)量可能會(huì)有天壤之別，所消耗的資源也自然是區(qū)別甚大。所以，當(dāng)我們需要從數(shù)據(jù)庫(kù)中查詢某個(gè)數(shù)據(jù)的時(shí)候，所消耗資源的多少主要就取決于數(shù)據(jù)庫(kù)以一個(gè)什么樣的數(shù)據(jù)讀取方式來完成我們的查詢請(qǐng)求，也就是取決于SQL 語(yǔ)句的執(zhí)行計(jì)劃。

對(duì)于唯一一個(gè)SQL 語(yǔ)句來說，經(jīng)過MySQL Parse 之后分解的結(jié)構(gòu)都是固定的，只要統(tǒng)計(jì)信息穩(wěn)定，其執(zhí)行計(jì)劃基本上都是比較固定的。而不同寫法的SQL 語(yǔ)句，經(jīng)過MySQL Parse 之后分解的結(jié)構(gòu)結(jié)構(gòu)就可能完全不同，即使優(yōu)化器使用完全一樣的統(tǒng)計(jì)信息來進(jìn)行優(yōu)化，最后所得出的執(zhí)行計(jì)劃也可能完全不一樣。而執(zhí)行計(jì)劃又是決定一個(gè)SQL 語(yǔ)句最終的資源消耗量的主要因素。所以，實(shí)現(xiàn)功能完全一樣的SQL 語(yǔ)句，在性能上面可能會(huì)有差別巨大的性能消耗。當(dāng)然，如果功能一樣，而且經(jīng)過MySQL 的優(yōu)化器優(yōu)化之后的執(zhí)行計(jì)劃也完全一致的不同SQL 語(yǔ)句在資源消耗方面可能就相差很小了。當(dāng)然這里所指的消耗主要是IO 資源的消耗，并不包括CPU 的消耗。

下面我們將通過一兩個(gè)具體的示例來分析寫法不一樣而功能完全相同的兩條SQL 的在性能方面的差異。

示例一

需求：取出某個(gè)group（假設(shè)id 為100）下的用戶編號(hào)（id），用戶昵稱（nick_name）、用戶性別（ sexuality ）、用戶簽名（ sign ）和用戶生日（ birthday ），并按照加入組的時(shí)間（user_group.gmt_create）來進(jìn)行倒序排列，取出前20 個(gè)。

解決方案一、

解決方案二、

我們先來看看執(zhí)行計(jì)劃：

執(zhí)行計(jì)劃對(duì)比分析：

解決方案一中的執(zhí)行計(jì)劃顯示MySQL 在對(duì)兩個(gè)參與Join 的表都利用到了索引，user_group 表利用了user_group_gid_ind 索引（ key: user_group_gid_ind ）， user 表利用到了主鍵索引（ key:PRIMARY），在參與Join 前MySQL 通過Where 過濾后的結(jié)果集與user 表進(jìn)行Join，最后通過排序取出Join 后結(jié)果的“l(fā)imit 100,20”條結(jié)果返回。

解決方案二的SQL 語(yǔ)句利用到了子查詢，所以執(zhí)行計(jì)劃會(huì)稍微復(fù)雜一些，首先可以看到兩個(gè)表都和解決方案1 一樣都利用到了索引（所使用的索引也完全一樣），執(zhí)行計(jì)劃顯示該子查詢以u(píng)ser_group 為驅(qū)動(dòng)，也就是先通過user_group 進(jìn)行過濾并馬上進(jìn)行這一論的結(jié)果集排序，也就取得了SQL 中的“l(fā)imit 100,20”條結(jié)果，然后與user 表進(jìn)行Join，得到相應(yīng)的數(shù)據(jù)。這里可能有人會(huì)懷疑在自查詢中從user_group表所取得與user 表參與Join的記錄條數(shù)并不是20 條，而是整個(gè)group_id=1 的所有結(jié)果。那么清大家看看該執(zhí)行計(jì)劃中的第一行，該行內(nèi)容就充分說明了在外層查詢中的所有的20 條記錄全部被返回。通過比較兩個(gè)解決方案的執(zhí)行計(jì)劃，我們可以看到第一中解決方案中需要和user 表參與Join 的記錄數(shù)MySQL 通過統(tǒng)計(jì)數(shù)據(jù)估算出來是31156，也就是通過user_group 表返回的所有滿足group_id=1 的記錄數(shù)（系統(tǒng)中的實(shí)際數(shù)據(jù)是20000）。而第二種解決方案的執(zhí)行計(jì)劃中，user 表參與Join 的數(shù)據(jù)就只有20條，兩者相差很大，通過本節(jié)最初的分析，我們認(rèn)為第二中解決方案應(yīng)該明顯優(yōu)于第一種解決方案。

下面我們通過對(duì)比兩個(gè)解決覺方案的SQL 實(shí)際執(zhí)行的profile 詳細(xì)信息，來驗(yàn)證我們上面的判斷。由于SQL 語(yǔ)句執(zhí)行所消耗的最大兩部分資源就是IO和CPU，所以這里為了節(jié)約篇幅，僅列出BLOCK IO 和CPU兩項(xiàng)profile 信息：先打開profiling 功能，然后分別執(zhí)行兩個(gè)解決方案的SQL 語(yǔ)句：

查看系統(tǒng)中的profile 信息，剛剛執(zhí)行的兩個(gè)SQL 語(yǔ)句的執(zhí)行profile 信息已經(jīng)記錄下來了：

我們先看看兩條SQL 執(zhí)行中的IO 消耗，兩者區(qū)別就在于“Sorting result”，我們回顧一下前面執(zhí)行計(jì)劃的對(duì)比，兩個(gè)解決方案的排序過濾數(shù)據(jù)的時(shí)機(jī)不一樣，排序后需要取得的數(shù)據(jù)量一個(gè)是20000，一個(gè)是20，正好和這里的profile 信息吻合，第一種解決方案的“Sorting result”的IO 值是第二種解決方案的將近500 倍。然后再來看看CPU 消耗，所有消耗中，消耗最大的也是“Sorting result”這一項(xiàng)，第一個(gè)消耗多出的緣由和上面IO 消耗差異是一樣的。結(jié)論：通過上面兩條功能完全相同的SQL 語(yǔ)句的執(zhí)行計(jì)劃分析，以及通過實(shí)際執(zhí)行后的profile 數(shù)據(jù)的驗(yàn)證，都證明了第二種解決方案優(yōu)于第一種解決方案。同時(shí)通過后者的實(shí)際驗(yàn)證，也再次證明了我們前面所做的執(zhí)行計(jì)劃基本決定了SQL 語(yǔ)句性能。

首發(fā)：黑馬程序員javaEE培訓(xùn)學(xué)院
首發(fā)：http://java.itheima.com/