有時(shí)候?yàn)榱藦浹a(bǔ)Bug或者系統(tǒng)異常,經(jīng)常線上操作DB來(lái)修正數(shù)據(jù),常在河邊走哪有不濕鞋,濕鞋的場(chǎng)景如:
(1)update錯(cuò)數(shù)據(jù)了;
(2)delete錯(cuò)數(shù)據(jù)了;
(3)drop錯(cuò)數(shù)據(jù)了;
咋整啊?找DBA恢復(fù)數(shù)據(jù)唄,即使恢復(fù)不了,鍋總得有人背呀。
一、不能實(shí)現(xiàn)數(shù)據(jù)恢復(fù)方案
從“從庫(kù)”恢復(fù)數(shù)據(jù)。一般來(lái)說(shuō)數(shù)據(jù)庫(kù)集群是主從架構(gòu):如果人為執(zhí)行了“刪庫(kù)”操作,命令會(huì)同步給其他從庫(kù),導(dǎo)致所有庫(kù)上的數(shù)據(jù)全被刪除,無(wú)法恢復(fù),故這種方案是不行的。
二、如果沒(méi)有做安全方案,最常見(jiàn)的處理方案
如果沒(méi)有做數(shù)據(jù)安全方案,應(yīng)對(duì)“刪庫(kù)”最常見(jiàn)的操作是,跑路。
刪掉了公司最重要的資產(chǎn),還不快閃。
三、如果DBA日常做了全量備份+增量備份
DBA最常見(jiàn)的技能是:全量備份+增量備份。
全量備份:定期(例如一個(gè)月)將庫(kù)文件全量備份。

增量備份:定期(例如每天)將binlog增量備份。

如果不小心“刪庫(kù)”,可以這么恢復(fù):
(1)將最近一次全量備份的全庫(kù)找到,拷貝回來(lái)(文件一般比較大),解壓,應(yīng)用;
(2)將最近一次全量備份后,每一天的增量binlog找到,拷貝回來(lái)(文件較多),依次重放;
(3)將最近一次增量備份后,到執(zhí)行“刪全庫(kù)”之前的binlog找到,重放;恢復(fù)完畢。
為了保證方案的可靠性,需要定期進(jìn)行演練。很有可能只是做了理論上的方案,如果真出了問(wèn)題,效果也只是理論上能恢復(fù)。此時(shí)回歸方案一,跑路。全量備份+增量備份的恢復(fù)周期也非常長(zhǎng),可能是天級(jí)別。解釋:把幾T的數(shù)據(jù)傳輸過(guò)來(lái)都用了好長(zhǎng)時(shí)間。
四、如果DBA做了“1小時(shí)延時(shí)從庫(kù)”
什么是1小時(shí)延時(shí)從庫(kù)?如上圖所示,增加一個(gè)從庫(kù),這個(gè)從庫(kù)不是實(shí)時(shí)與主庫(kù)保持同步的,而是每隔1個(gè)小時(shí)同步一次主庫(kù),同步完之后立馬斷開(kāi)1小時(shí),這個(gè)從庫(kù)會(huì)與主庫(kù)保持1個(gè)小時(shí)的數(shù)據(jù)差距。
當(dāng)“刪全庫(kù)”事故發(fā)生時(shí),如何利用“1小時(shí)延時(shí)從庫(kù)”快速恢復(fù)數(shù)據(jù)?
(1)應(yīng)用1小時(shí)延時(shí)從;
(2)將1小時(shí)延時(shí)從最近一次同步時(shí)間到,執(zhí)行“刪全庫(kù)”之前的binlog找到,重放快速恢復(fù)完畢。這個(gè)方案的優(yōu)點(diǎn)是,能夠快速找回?cái)?shù)據(jù)。潛在不足是,萬(wàn)一“1小時(shí)延時(shí)從庫(kù)”正在連上主庫(kù)進(jìn)行同步的一小段時(shí)間內(nèi),發(fā)生了“刪庫(kù)”事故,也無(wú)法恢復(fù)。
五、如果DBA做了“雙份1小時(shí)延時(shí)從庫(kù)”
什么是雙份1小時(shí)延時(shí)從?如上圖所示,兩個(gè)1小時(shí)延時(shí)從庫(kù),它們連主庫(kù)同步數(shù)據(jù)的時(shí)間“岔開(kāi)半小時(shí)”。這樣,即使一個(gè)延時(shí)從連上主庫(kù)進(jìn)行同步的一小段時(shí)間內(nèi),發(fā)生了“刪庫(kù)”事故,依然有另一個(gè)延時(shí)從保有半小時(shí)之前的數(shù)據(jù),可以實(shí)施快速恢復(fù)。這個(gè)方案的優(yōu)點(diǎn)是,沒(méi)有萬(wàn)一,一定能快速恢復(fù)數(shù)據(jù)。潛在的不足是,資源利用率有點(diǎn)低,為了保證數(shù)據(jù)的安全性,多了2臺(tái)延時(shí)從,降低了從庫(kù)利用率。如何提高從庫(kù)利用效率?
對(duì)于一些“允許延時(shí)”的業(yè)務(wù),可以使用1小時(shí)延時(shí)從,例如:
(1)運(yùn)營(yíng)后臺(tái),產(chǎn)品后臺(tái);
(2)BI進(jìn)行數(shù)據(jù)同步;
(3)研發(fā)進(jìn)行數(shù)據(jù)抽樣,調(diào)研;但需要注意的是,畢竟這是從庫(kù),只能夠提供“只讀”服務(wù)喲。
六、總結(jié)
保證數(shù)據(jù)的安全性是DBA第一要?jiǎng)?wù):
(0)理論上可以恢復(fù)+跑路;
(1)全量備份+增量備份+定期演練;
(2)1小時(shí)延時(shí)從庫(kù);
(3)雙份1小時(shí)延時(shí)從庫(kù)+提高資源利用率;
補(bǔ)充說(shuō)明:現(xiàn)如今很多成熟的云數(shù)據(jù)庫(kù)產(chǎn)品提供了基于時(shí)間點(diǎn)快照的快速恢復(fù)機(jī)制。
七、通過(guò)binlog進(jìn)行恢復(fù)
通過(guò)mysql恢復(fù)的話需要確保刪除前是mysql是開(kāi)啟binlog。
具體步驟:
1.查詢binlog狀態(tài)以及位置。在/etc/my.cfg查看binlog開(kāi)啟狀態(tài):
cat /etc/my.cnf
- mysql查詢執(zhí)行的binlog文件。例如:目標(biāo)文件是mysql-bin.000053.
3.利用mysqlbinlog轉(zhuǎn)化文件格式,獲取想要恢復(fù)的位置。
cd /usr/local/mysql/bin
mysqlbinlog 執(zhí)行文件在以上路徑
mysql-bin.000053在/usr/local/mysql/var中。
執(zhí)行,test需要恢復(fù)的數(shù)據(jù)庫(kù)。
mysqlbinlog --no-defaults --base64-output='decode-rows' -d test -v mysql-bin.000053 > /home/test
4.在導(dǎo)出的test文件中查找需要回退的位置。
選取位置為817759979,由于我是整個(gè)數(shù)據(jù)庫(kù)出現(xiàn)的數(shù)據(jù)混亂以及替換,全部回退。
5.恢復(fù)數(shù)據(jù)。
刪除原有的數(shù)據(jù)庫(kù)(以防萬(wàn)一,提前做好備份)。
./mysqlbinlog -d test --stop-position=817759979 /usr/local/mysql/var/mysql-bin.000053 | mysql -uroot -ppasswd
命令執(zhí)行完成就已經(jīng)恢復(fù)到需要恢復(fù)的指定點(diǎn)。