本文主要介紹守護星數據庫監控這(zhè)個(gè)産品(簡稱AG),從以下(xià)5個(gè)方面進行介紹:
一 |
運維痛點 |
二 |
新型運維模式 |
三 |
産品功能介紹 |
四 |
應用(yòng)場(chǎng)景 |
五 |
安裝部署 |
一、 運維痛點
目前IT行業面臨的(de)運維痛點主要是以下(xià)5點:
二、新型運維模式
接下(xià)來(lái)詳細了(le)解一下(xià)傳統運維模式和(hé)新型運維模式之間的(de)對(duì)比和(hé)差異:
可(kě)以看到,傳統模式有如下(xià)弱點:被動、低效、定責困難、管理(lǐ)分(fēn)散、高(gāo)度依賴個(gè)人(rén)能力;而新型模式中,通(tōng)過智能預警、快(kuài)速故障定位、持續優化(huà)、合理(lǐ)分(fēn)配資源、集中高(gāo)效管理(lǐ)、深度監控數據解析等手段,去改善、優化(huà)傳統模式中的(de)不足,以提高(gāo)IT運維的(de)服務支撐能力。
三、産品介紹
以上内容簡單闡述了(le)IT運維工作中的(de)痛點,以及新型運維模式所具備的(de)特征,那麽新型模式該怎麽實現呢(ne)?又需要借助哪些手段呢(ne)?
下(xià)面我們從數據庫運維管理(lǐ)的(de)維度出發,圍繞如何實現新型運維模式,介紹一下(xià)産品應該具備哪些關鍵功能。
01 完善的(de)監控預警手段
首先,監控系統的(de)一個(gè)重要職責,也(yě)是核心功能——預警。好的(de)預警可(kě)以幫助用(yòng)戶及時(shí)發現問題,并通(tōng)過合适的(de)手段,如短信、郵件、大(dà)屏等方式,将告警信息推送至相關的(de)負責人(rén)。
短信和(hé)郵件等即時(shí)消息,立足于“随時(shí)随地”掌握系統運行狀态,因而其必要性不言而喻。而大(dà)屏則是著(zhe)重于更全面、更易懂(dǒng)的(de)初衷,幫助用(yòng)戶建立對(duì)系統全局健康度的(de)總覽。下(xià)面是兩個(gè)不同維度設計的(de)大(dà)屏:
基于異常事件處理(lǐ)進度的(de)大(dà)屏
基于詳細數據庫運行指标的(de)大(dà)屏
“基于異常事件處理(lǐ)進度的(de)大(dà)屏”主要是幫助用(yòng)戶建立告警事件閉環管理(lǐ),目的(de)是讓預警“有始有終”、“落到實處”。而"基于詳細數據庫運行指标的(de)大(dà)屏"則目的(de)在于爲用(yòng)戶提供更爲直觀和(hé)豐富的(de)數據運行關鍵指标,更有助于快(kuài)捷的(de)分(fēn)析和(hé)判斷問題。
02 便捷、高(gāo)效的(de)故障診斷
我們都知道,僅有告警是不夠的(de),如何能夠讓告警接收人(rén)快(kuài)速的(de)實現故障診斷和(hé)定位,則更加有助于進一步提升運維工作價值。
守護星提供了(le)三大(dà)類診斷功能,分(fēn)别是“曆史問題診斷”、“實時(shí)問題診斷”、“問題鏈診斷”。
其中“曆史問題診斷”通(tōng)過【曆史性能分(fēn)析】的(de)數據庫開銷曲線圖(類似于将Oracle AWR報告圖形化(huà)),識别到異常峰值,進而定位過去的(de)某個(gè)問題發生區(qū)域。
曆史問題診斷功能示例圖
“實時(shí)問題診斷”則是借助“工具箱”實現,工具箱包括各種常用(yòng)的(de)問題診斷按鈕,也(yě)能夠生成相關的(de)問題分(fēn)析報告,來(lái)幫助用(yòng)戶診斷正在發生的(de)問題。
實時(shí)問題診斷功能示例圖
“問題鏈診斷”是指當問題發生時(shí),不僅僅發出預警信息,同時(shí)采集當時(shí)的(de)關鍵指标信息,用(yòng)于輔助報警的(de)分(fēn)析和(hé)診斷,大(dà)幅度提升問題實時(shí)定位的(de)效率。此外,這(zhè)些指标還(hái)會進行歸類并存放于後台表中,可(kě)以用(yòng)于後期進行問題複盤分(fēn)析。
問題鏈診斷功能示例圖
03 持續的(de)性能監測和(hé)跟蹤
接下(xià)來(lái)要解決的(de)是性能優化(huà)的(de)問題。性能優化(huà)是IT運維工作中的(de)一項持續周期非常長(cháng)的(de)工作内容,通(tōng)常來(lái)講貫穿于系統的(de)全生命周期。因而其工作勢必不可(kě)能是一日或者數日之功,如何建立長(cháng)期的(de)性能檢測,如何實現持續不斷地主動式性能優化(huà),則是區(qū)别于傳統運維中慢(màn)了(le)再治的(de)标準。
如下(xià)圖所示,是基于可(kě)監測指标實現的(de)“監控——優化(huà)”增強回路,實現監測與優化(huà)互相促進,叠代進步的(de)效果:
持續監控與優化(huà)的(de)增強回路
下(xià)面展示一個(gè)使用(yòng)曆史性能數據,實現優化(huà),以及優化(huà)前後對(duì)比的(de)例子:
性能優化(huà)案例圖
上圖中,首先通(tōng)過曆史性能趨勢分(fēn)析,定位異常峰值,接著(zhe)定位異常語句,進而獲取優化(huà)建議(yì),最後再通(tōng)過SQL開銷趨勢圖,實現優化(huà)前後的(de)性能開銷對(duì)比。
在這(zhè)個(gè)過程中,優化(huà)建議(yì)可(kě)以是通(tōng)過程序自動獲取,也(yě)可(kě)以是管理(lǐ)員(yuán)通(tōng)過獲取執行計劃、真實執行計劃等信息,經過分(fēn)析後給出的(de)優化(huà)建議(yì)。一般情況下(xià),我們建議(yì)管理(lǐ)員(yuán)通(tōng)過分(fēn)析執行計劃的(de)方式,去優化(huà)SQL。
04 日常巡檢
這(zhè)一部分(fēn)主要講巡檢功能,巡檢作爲一項重要的(de)日常運維工作内容,具有很實際的(de)意義,例如發現隐患、資源合理(lǐ)規劃等等。
守護星中提供兩種巡檢模闆,分(fēn)别是單庫巡檢和(hé)多(duō)庫巡檢。
顧名思義,單庫巡檢就是每次巡檢一個(gè)庫,其主要解決的(de)是單個(gè)數據庫的(de)詳細指标巡檢,包括基本信息、表空間、性能指标、高(gāo)耗時(shí)SQL等一系列信息的(de)集中呈現。如圖中所示,是某個(gè)數據庫生成一份詳細的(de)單庫巡檢報告。
而多(duō)庫巡檢則面向同時(shí)巡檢多(duō)個(gè)數據庫,目前支持的(de)指标較少,僅包括表空間、ASM空間、磁盤空間、備份作業等。
如下(xià)圖所示,爲單庫巡檢結果的(de)示例:
單庫巡檢結果圖
05 主機監控
爲了(le)更好的(de)實現對(duì)數據庫的(de)立體化(huà)監控,我們引入了(le)主機監控,實現了(le)對(duì)一些關鍵的(de)主機監控指标的(de)監測。
主機監控功能主要支持Linux、AIX、Unix和(hé)Windows 4種操作系統。支持的(de)主要指标如圖中所示:
包括基本信息類(如操作系統類型、版本、IP地址、系統運行時(shí)間等);
内存類(如内存大(dà)小、使用(yòng)率、交換區(qū)大(dà)小、換頁信息等);
CPU類(如CPU型号、核數、壓力等);
IO類(包括IO速率、IOPS等);
網絡類(如網卡信息、網卡流量、機器網絡總負載等);
磁盤空間類(文件系統的(de)空間使用(yòng)率、iNode使用(yòng)率等)。
四、應用(yòng)場(chǎng)景
查詢庫報表數據異常
背景:在過去,Dataguard的(de)備庫隻是作爲實時(shí)容災的(de)備庫使用(yòng)。而随著(zhe)技術的(de)發展,現在備庫可(kě)以用(yòng)來(lái)做(zuò)查詢業務了(le)。
現象:但是我們發現有不少突然在某一天發現基于備庫的(de)查詢庫報表數據異常的(de)現象,而後就是排查、解決問題,比較滞後。
原因:這(zhè)是由于Dataguard的(de)同步狀态往往是運維中的(de)盲點,容易被忽略。
一旦主備庫的(de)日志同步異常之後,如果長(cháng)時(shí)間未發現,沒能解決的(de)話(huà),輕則導緻主備庫數據差異過大(dà),重則導緻主庫歸檔空間滿,甚至導緻備庫需要重建。
方案:因此實現對(duì)Dataguard同步狀态的(de)監控和(hé)預警,對(duì)于運維數據庫很重要。
同步異常的(de)Dataguard示例
SQL Server 突發卡頓和(hé)IO超時(shí)
背景:在實際工作中,數據庫默認實施安裝之後,部分(fēn)默認配置可(kě)能未調整,導緻後期數據庫出現異常。
現象:在實際的(de)場(chǎng)景中,可(kě)能會突然遇到某些突然發生的(de)業務系統性能問題,比如突發數據庫響應很慢(màn)。
原因:例如SQL Server 中,數據庫文件設置了(le)10%的(de)默認增長(cháng),可(kě)能引發的(de)日志文件擴增失敗導緻大(dà)面積業務響應超時(shí)現象。
方案:對(duì)數據庫安裝配置後,進行例行檢查,發現并改正相關的(de)未優化(huà)配置即可(kě)。
自增屬性檢查圖
自增的(de)趨勢圖
五、安裝部署
最後簡單介紹一下(xià)産品的(de)安裝和(hé)部署。其部署的(de)服務器可(kě)以是實體機,也(yě)可(kě)以是虛拟機,甚至于雲端部署也(yě)可(kě)以。
服務器配置需求:64位操作系統,windows 2008或者linux 6以上版本;CPU要求4線程及以上,内存8GB起,硬盤100GB以上。
支持數據庫類型:Oracle、SQL Server、MySQL、Cache。
浏覽器需求:推薦Edge或者Chrome 90以後的(de)版本。
部署架構:根據用(yòng)戶的(de)節點數量,可(kě)以選擇分(fēn)布式部署,或者是單機部署兩種方案。