

來自支付寶的運維監控經驗
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??編輯:曉通宏志市場部
? ? ? 支付寶私有云中以業務為核心的監控經驗:
? ? ? 支付寶,除了常規的運維監控和應用監控,還有更多其他的訴求,如業務監控、合作伙伴監控和SOA環境監控。
? ? ? 業務分析在支付寶的監控體系中起著至關重要的作用:
? ? ? 實時BI——有時不是為了排查故障,而是為了確認沒有問題。
? ? ? 確定故障范圍——不同的業務特征,代表了不同的故障影響范圍;不同的影響范圍,應急人員有不同的策略。
? ? ? 業務與合作伙伴——比如銀行,單個銀行下跌,可能是銀行的問題;所有銀行下跌,可能是支付寶的問題。
? ? ? 業務與應用的關系——通過監控不同的業務,可以快速定位故障。
? ? ? 業務與業務的關系——雖然沒有系統間的直接關系,但業務之間確實有可能會存在相互的影響。
? ? ? 業務與運維策略的關系——例如,確定機房引流,流量的分配。
? ? ? 業務與管控策略的關系——管控策略有很多,比如分組、降級、限流和引流,管控策略的制定和業務是息息相關。
? ? ? 很多公司都會采用在系統中埋點的做法進行監控,而支付寶則采用了業務分析結合現象分析的做法來進行實時故障應急處理。埋點需要對所有服務器做埋點檢查,而故障的原因是無窮的,往往可以從現象癥狀上來判斷故障的原因。
? ? ? 此外,還有支付寶內部基于日志的監控解決方案。