現象: 從今年4月以來一共裝了5套oracle11g R2.0.3.0的rac。4月份兩套,6月份兩套,7月份1套,8月份1套,這幾套分布在三個不同的機房,本質上上講也是三個不同的客戶。每次裝完后都需要重啟一下機器,看看一些相關的配置是不是都能按照設置的要求起起來。但是
現象:
從今年4月以來一共裝了5套Oracle11g R2.0.3.0的rac。4月份兩套,6月份兩套,7月份1套,8月份1套,這幾套分布在三個不同的機房,本質上上講也是三個不同的客戶。每次裝完后都需要重啟一下機器,看看一些相關的配置是不是都能按照設置的要求起起來。但是每次都發現,grid,oracle等相關的服務都能起好,vip資源也能起好,在主機上ifconfig也能看到vip,scan ip都能bond到public ip上,在兩臺機器之間均能ping 通vip,scan ip,甚至在相同的網段也能ping 通vip,scan ip,但是就是在其他網段不能ping通 vip,scan ip,但是能ping 通public ip。甚是奇怪,但是過若干長時間,有的是半小時,有的是兩小時。這樣當所有應用通過vip,scan ip連接數據庫時(事實上就應該用vip,scan ip連接數據庫),一旦出現機器重啟,或者vip 資源重啟,那么在vip,scan ip不能ping通前,所有應用是不能訪問數據庫的,這樣就會對業務產生重大影響。
分析:
4月份安裝的兩套在同一個機房,那時候一直認為這應該是機房的網絡配置的問題,也找來了網絡工程師要跟蹤,網絡工程師抓取了大量的log回去分析。我這邊也在從Oracle的角度分析,那時一直在懷疑是vip的子網掩碼的問題,不過又想來,在安裝11g的rac時根本沒有像10g時需要通過vipca來設置vip的子網掩碼的地方。
時間一過就是兩個月,到了6月份,我又安裝了2套11g r2.0.3.0的rac,其中一套和4月份安裝的那兩套的rac在同一個機房,另外一套卻在另一個異地的機房。但是安裝完,重啟完后也是一樣的現象。此時我在懷疑網絡設置的同時,還在懷疑是vip的子網掩碼的問題。
時間又過了一個月,我又在另一個機房里安裝了一套相同版本的rac,也是這樣的問題,真是讓人納悶啊。這難道是這個新版本的bug嗎?
8月份又在4月份的那兩套rac的機房里安裝了相同的版本的rac,還是出現這個問題。
而我去年在這幾個機房里都安裝過11g r2.0.2.0,都不曾出現這個問題。
此時我逐步懷疑起這時這個新版本的bug,今天總算發現了這個bug,甚是高興:
Bug 13440962? Different subnet failed to connect to vip after restart vip
This note gives a brief overview of bug 13440962.
The content was last updated on: 01-FEB-2012
Clickherefor details of each of the sections below.
Affects:
Product (Component) Oracle Server (PCW)
Range of versionsbelievedto be affected Versions >= 11.2.0.3 but BELOW 12.1
Versionsconfirmedas being affected
11.2.0.3
Platforms affected Generic (all / most platforms affected)
It is believed to be aregressionindefaultbehaviour thus:
?? Regression introduced in 11.2.0.3
Fixed:
This issue is fixed in
12.1 (Future Release)
Symptoms:
Related To:
(None Specified)
Cluster Ready Services / Parallel Server Management
Description
This is a regression fix for problem introduced by patch 11069846.
The change in this patch (patch 13440962) fixes a problem with 4 extra
bytes in the GARP message and removes an extra unicast GARP packet to
the router.
Rediscovery Notes:
After upgrading to 11.2.0.3, after vip failover, the ip address is
not pingable from a different subnet on Linux.
(This problem is seen only on Linux)WorkaroundAfter vip failover, run command
?? /sbin/arping -U -c 3 -I
to update the ARP table of router.
Please note:The above is a summary description only. Actual symptoms can vary. Matching to any symptoms here does not confirm that you are encountering this problem. For questions about this bug please consult Oracle Support.
References
Bug:13440962(This link will only work for PUBLISHED bugs)
Note:245840.1Information on the sections in this article