系統幹崩了，只認代碼不認人

Jessica 更新時間 2025年1月3日

连续6年不跑路的安全速度最适合国人VPN

免费试用了解更多

各位朋友聽我一句勸，寫代碼提供方法給別人調用時，不管是內部系統調用，還是外部系統調用，還是被動觸發調用（比如MQ消費、回調執行等），一定要加上必要的條件校驗。千萬別信某些同事說的這個條件肯定會傳、肯定有值、肯定不爲空等等。這不，臨過年了我就被坑了一波，弄了個生產事故，年終獎基本是涼了半截。

我決定專注於代碼本身，而非人，以確保系統高可用性和穩定性。以下是幾個小教訓，或許對你也有幫助。

一、事發經過

我的業務場景是：當業務A發生變化時，會觸發發送MQ消息，然後應用會接收到MQ消息，處理後將數據寫入Elasticsearch。

(1) 收到一個業務A的異常告警，當時的告警如下：

(2) 咋一看覺得有點奇怪，怎麼會是Redis異常呢？然後自己連了下Redis沒有問題，又看了下Redis集羣，一切正常。所以就放過了，以爲是偶然出現的網絡問題。

接着，在技術問題羣裏，客服彙報說部分用戶出現異常情況，我立即檢查系統，確認偶發性問題的存在。

(4) 於是我習慣性的看了幾個核心部件：

網關情況、核心業務Pod的負載情況、用戶中心Pod的負載情況。
Mysql的情況：內存、CPU、慢SQL、死鎖、連接數等。

發現了慢SQL和元數據鎖時間過長的情況，主要是由於一張大表的全表查詢導致數據量過大，執行速度緩慢，進而導致元數據鎖持續時間過長，進而耗盡數據庫連接數。

SELECT xxx,xxx,xxx,xxx FROM 一張大表

登錄後複製

(6) 立馬Kill掉幾個慢會話之後，發現系統仍然沒有完全恢復，爲啥呢？現在數據庫已經正常了，怎麼還沒完全恢復呢？又繼續看了應用監控，發現用戶中心的10個Pod裏有2個Pod異常了，CPU和內存都爆了。難怪使用時出現偶發性的異常呢。於是趕緊重啓Pod，先把應用恢復。

(7) 問題找到了，接下來就繼續排查爲什麼用戶中心的Pod掛掉了。從以下幾個懷疑點開始分析：

同步數據到Elasticsearch的代碼是不是有問題，怎麼會出現連不上Redis的情況呢？
會不會是異常過多，導致發送異常告警消息的線程池隊列滿了，然後就OOM？
哪裏會對那張業務A的大表做不帶條件的全表查詢呢？

(8) 繼續排查懷疑點a，剛開始以爲：是拿不到Redis鏈接，導致異常進到了線程池隊列，然後隊列撐爆，導致OOM了。按照這個設想，修改了代碼，升級，繼續觀察，依舊出現同樣的慢SQL 和用戶中心被幹爆的情況。因爲沒有異常了，所以懷疑點b也可以被排除了。

(9) 此時基本可以肯定是懷疑點c了，是哪裏調用了業務A的大表的全表查詢，然後導致用戶中心的內存過大，JVM來不及回收，然後直接幹爆了CPU。同時也是因爲全表數據太大，導致查詢時的元數據鎖時間過長造成了連接不能夠及時釋放，最終幾乎被耗盡。

(10) 於是修改了查詢業務A的大表必要校驗條件，重新部署上線觀察。最終定位出了問題。

二、問題的原因

因爲在變更業務B表時，需要發送MQ消息（同步業務A表的數據到ES），接受到MQ消息後，查詢業務A表相關連的數據，然後同步數據到Elasticsearch。

但是變更業務B表時，沒有傳業務A表需要的必要條件，同時我也沒有校驗必要條件，從而導致了對業務A的大表的全表掃描。因爲：

某些同事說，“這個條件肯定會傳、肯定有值、肯定不爲空...”，結果我真信了他！！！

登錄後複製

由於業務B表當時變更頻繁，發出和消費的MQ消息較多，觸發了更多的業務A的大表全表掃描，進而導致了更多的Mysql元數據鎖時間過長，最終連接數消耗過多。

同時每次都是把業務A的大表查詢的結果返回到用戶中心的內存中，從而觸發了JVM垃圾回收，但是又回收不了，最終內存和CPU都被幹爆了。

至於Redis拿不到連接的異常也只是個煙霧彈，因爲發送和消費的MQ事件太多，瞬時間有少部分線程確實拿不到Redis連接。

最終我在消費MQ事件處的代碼裏增加了條件校驗，同時也在查詢業務A表處也增加了的必要條件校驗，重新部署上線，問題解決。

三、總結教訓

經過此事，我也總結了一些教訓，與君共勉：

(1) 時刻警惕線上問題，一旦出現問題，千萬不能放過，趕緊排查。不要再去懷疑網絡抖動問題，大部分的問題，都跟網絡無關。

(2) 業務大表自身要做好保護意識，查詢處一定要增加必須條件校驗。

(3) 消費MQ消息時，一定要做必要條件校驗，不要相信任何信息來源。

(4) 千萬別信某些同事說，“這個條件肯定會傳、肯定有值、肯定不爲空”等等。爲了保障系統的高可用和穩定，咱們只認代碼不認人。

(5) 一般出現問題時的排查順序：

數據庫的CPU、死鎖、慢SQL。
應用的網關和核心部件的CPU、內存、日誌。

(6) 業務的可觀測性和告警必不可少，而且必須要全面，這樣才能更快的發現問題和解決問題。

以上就是系統幹崩了，只認代碼不認人的詳細內容，更多請關注本站其它相關文章！

Jessica

更新時間 2025年1月3日

快連VPN(PC版):2024年速度與安全性最佳的VPN 服務

系統幹崩了，只認代碼不認人

一、事發經過

二、問題的原因

三、總結教訓

《小丑》电影摄影师、Atmos 之父《地心引力》金奖音效师都要来台湾开讲！2024 亚洲日舞影展大师论坛名单揭晓

如何设置三星VPN提高隐私安全性

AI驱动社媒营销，中小企业出海新契机

關閉OPPO 殺後台讓加速快連BRO 穩定運行

最佳VPN推薦：快速翻牆回國

最佳安卓手機免費回國加速器推薦

發表留言

VPN常見問題

什么是 SSID？如何查找您的 SSID？

上海對外經貿大學VPN設定教學及常見問題解決

武漢理工VPN常見問題解答

常見問題：VPN圖示相關問題

中石化VPN常見問題解析

風行VPN產品展示：使用指南和常見問題

軟體下載

相關資源