一次mysql主從同步解決過程
前天進(jìn)行表結(jié)構(gòu)的修改,將其中一個(gè)表進(jìn)行字段結(jié)構(gòu)的擴(kuò)展,從varchar(30)擴(kuò)展到varchar(50),表數(shù)據(jù)是120萬多條,在主庫執(zhí)行起來只用了40秒,而從庫同步卻要用4小時(shí)。
雖然主庫執(zhí)行很快,但是影響的行數(shù)是120萬行,從庫是同步120萬行的結(jié)構(gòu)變化而去,而不是簡單的執(zhí)行sql命令修改從庫。
一開始并沒有發(fā)現(xiàn),后面當(dāng)業(yè)務(wù)緩慢的時(shí)候,就開始感覺不對(duì)勁了,趕緊上了mysql上進(jìn)行查看當(dāng)前堵塞的mysql進(jìn)程:
show proccesslist
這里的結(jié)果不是當(dāng)時(shí)的結(jié)果(當(dāng)時(shí)是很多查詢均被堵塞):
| Id | User | Host | db | Command | Time | State | Info | +--------+-------+-----------------+------+-------------+--------+-----------------------------------------------------------------------+------------------+ | 722874 | bakup | 127.0.0.1:36759 | NULL | Binlog Dump | 281055 | Master has sent all binlog to slave; waiting for binlog to be updated | NULL | | 991867 | root | localhost | NULL | Sleep | 780 | | NULL | | 992585 | root | localhost | NULL | Query | 0 | NULL | show processlist |
1.Id :進(jìn)程id,你要kill一個(gè)語句的時(shí)候很有用。
2.User:顯示單前用戶,如果不是root,這個(gè)命令就只顯示你權(quán)限范圍內(nèi)的sql語句。
3.Host:顯示這個(gè)語句是從哪個(gè)ip的哪個(gè)端口上發(fā)出的
4.db:顯示這個(gè)進(jìn)程目前連接的是哪個(gè)數(shù)據(jù)庫
5.Command:顯示當(dāng)前連接的執(zhí)行的命令,休眠(sleep),查詢(query),連接(connect),binlog(主從)
6.Time:此這個(gè)狀態(tài)持續(xù)的時(shí)間,單位是秒。
7.State:顯示使用當(dāng)前連接的sql語句的狀態(tài),很重要的列,后續(xù)會(huì)有所有的狀態(tài)的描述,請(qǐng)注意,state只是語句執(zhí)行中的某一個(gè)狀態(tài),一個(gè)sql語句,已查詢?yōu)槔赡苄枰?jīng)過copying to tmp table,Sorting result,Sending data等狀態(tài)才可以完成,
8.info:顯示這個(gè)sql語句
當(dāng)下進(jìn)行了殺掉堵塞進(jìn)程,即同步修改結(jié)構(gòu)的進(jìn)程
?
kill 722874
?
得以恢復(fù)業(yè)務(wù)正常的查詢,但是新的問題來了,主從被強(qiáng)制暫停,發(fā)生了錯(cuò)誤,主庫無法同步到從庫,業(yè)務(wù)查詢最新數(shù)據(jù)無法同步過來了。
上從庫查詢命令(這里的結(jié)果不是當(dāng)時(shí)的結(jié)果(當(dāng)時(shí)是提示錯(cuò)誤的信息)):
(Mon Jun 26 20:49:40 2017) db_2 >>show slave statusG*************************** 1. row *************************** Slave_IO_State: Waiting for master to send event Master_Host: 127.0.0.1 Master_User: bakup Master_Port: 3306Connect_Retry: 60 Master_Log_File: mysql-bin.000330 Read_Master_Log_Pos: 445043216 Relay_Log_File: 174-relay-bin.000043Relay_Log_Pos: 445043362Relay_Master_Log_File: mysql-bin.000330 Slave_IO_Running: Yes Slave_SQL_Running: Yes Replicate_Do_DB: Replicate_Ignore_DB: information_schema,mysql,performance_schema,test,zabbix,information_schema,mysql,performance_schema,test,zabbix Replicate_Do_Table: Replicate_Ignore_Table: Replicate_Wild_Do_Table: Replicate_Wild_Ignore_Table: Last_Errno: 0 Last_Error: Skip_Counter: 0 Exec_Master_Log_Pos: 445043216 Relay_Log_Space: 445043559 Until_Condition: None Until_Log_File: Until_Log_Pos: 0 Master_SSL_Allowed: No Master_SSL_CA_File: Master_SSL_CA_Path: Master_SSL_Cert: Master_SSL_Cipher: Master_SSL_Key: Seconds_Behind_Master: 0Master_SSL_Verify_Server_Cert: No Last_IO_Errno: 0Last_IO_Error: Last_SQL_Errno: 0 Last_SQL_Error: Replicate_Ignore_Server_Ids: Master_Server_Id: 11 row in set (0.00 sec)
于是找運(yùn)維商議,采取了如下方法:
恢復(fù)主庫到改變字段前的狀態(tài) 2 停止主從二進(jìn)制日志的寫入,主從同步停止 3 開始改變主庫字段結(jié)構(gòu) 4 改變從庫字段結(jié)構(gòu)(注意此時(shí)主從同步已經(jīng)停止) 5 修正此前發(fā)生的同步錯(cuò)誤 6 恢復(fù)主從二進(jìn)制日志的寫入 7 重新開啟主從同步
問題得以解決,40分鐘左右。
這次操作也是有點(diǎn)急促,本應(yīng)該在夜晚后臺(tái)幾乎不被訪問的時(shí)候,進(jìn)行大數(shù)據(jù)量的結(jié)構(gòu)改變比較好。當(dāng)天也進(jìn)行了評(píng)估,是2個(gè)小時(shí)內(nèi)既可以成功。
附,state 列信息:
Checking table 正在檢查數(shù)據(jù)表(這是自動(dòng)的)。 Closing tables 正在將表中修改的數(shù)據(jù)刷新到磁盤中,同時(shí)正在關(guān)閉已經(jīng)用完的表。這是一個(gè)很快的操作,如果不是這樣的話,就應(yīng)該確認(rèn)磁盤空間是否已經(jīng)滿了或者磁盤是否正處于重負(fù)中。 Connect Out 復(fù)制從服務(wù)器正在連接主服務(wù)器。 Copying to tmp table on disk 由于臨時(shí)結(jié)果集大于tmp_table_size,正在將臨時(shí)表從內(nèi)存存儲(chǔ)轉(zhuǎn)為磁盤存儲(chǔ)以此節(jié)省內(nèi)存。 Creating tmp table 正在創(chuàng)建臨時(shí)表以存放部分查詢結(jié)果。 deleting from main table 服務(wù)器正在執(zhí)行多表刪除中的第一部分,剛刪除第一個(gè)表。 deleting from reference tables 服務(wù)器正在執(zhí)行多表刪除中的第二部分,正在刪除其他表的記錄。 Flushing tables 正在執(zhí)行FLUSH TABLES,等待其他線程關(guān)閉數(shù)據(jù)表。 Killed 發(fā)送了一個(gè)kill請(qǐng)求給某線程,那么這個(gè)線程將會(huì)檢查kill標(biāo)志位,同時(shí)會(huì)放棄下一個(gè)kill請(qǐng)求。MySQL會(huì)在每次的主循環(huán)中檢查kill標(biāo)志位,不過有些情況下該線程可能會(huì)過一小段才能死掉。如果該線程程被其他線程鎖住了,那么kill請(qǐng)求會(huì)在鎖釋放時(shí)馬上生效。 Locked 被其他查詢鎖住了。 Sending data 正在處理SELECT查詢的記錄,同時(shí)正在把結(jié)果發(fā)送給客戶端。 Sorting for group 正在為GROUP BY做排序。 Sorting for order 正在為ORDER BY做排序。 Opening tables 這個(gè)過程應(yīng)該會(huì)很快,除非受到其他因素的干擾。例如,在執(zhí)ALTER TABLE或LOCK TABLE語句行完以前,數(shù)據(jù)表無法被其他線程打開。正嘗試打開一個(gè)表。 Removing duplicates 正在執(zhí)行一個(gè)SELECT DISTINCT方式的查詢,但是MySQL無法在前一個(gè)階段優(yōu)化掉那些重復(fù)的記錄。因此,MySQL需要再次去掉重復(fù)的記錄,然后再把結(jié)果發(fā)送給客戶端。 Reopen table 獲得了對(duì)一個(gè)表的鎖,但是必須在表結(jié)構(gòu)修改之后才能獲得這個(gè)鎖。已經(jīng)釋放鎖,關(guān)閉數(shù)據(jù)表,正嘗試重新打開數(shù)據(jù)表。 Repair by sorting 修復(fù)指令正在排序以創(chuàng)建索引。 Repair with keycache 修復(fù)指令正在利用索引緩存一個(gè)一個(gè)地創(chuàng)建新索引。它會(huì)比Repair by sorting慢些。 Searching rows for update 正在講符合條件的記錄找出來以備更新。它必須在UPDATE要修改相關(guān)的記錄之前就完成了。 Sleeping 正在等待客戶端發(fā)送新請(qǐng)求. System lock 正在等待取得一個(gè)外部的系統(tǒng)鎖。如果當(dāng)前沒有運(yùn)行多個(gè)mysqld服務(wù)器同時(shí)請(qǐng)求同一個(gè)表,那么可以通過增加--skip-external-locking參數(shù)來禁止外部系統(tǒng)鎖。 Upgrading lock INSERT DELAYED正在嘗試取得一個(gè)鎖表以插入新記錄。 Updating 正在搜索匹配的記錄,并且修改它們。 User Lock 正在等待GET_LOCK()。 Waiting for tables 該線程得到通知,數(shù)據(jù)表結(jié)構(gòu)已經(jīng)被修改了,需要重新打開數(shù)據(jù)表以取得新的結(jié)構(gòu)。然后,為了能的重新打開數(shù)據(jù)表,必須等到所有其他線程關(guān)閉這個(gè)表。以下幾種情況下會(huì)產(chǎn)生這個(gè)通知:FLUSH TABLES tbl_name, ALTER TABLE, RENAME TABLE, REPAIR TABLE, ANALYZE TABLE,或OPTIMIZE TABLE。 waiting for handler insert INSERT DELAYED已經(jīng)處理完了所有待處理的插入操作,正在等待新的請(qǐng)求。
?