? ? ? ? 隨著企業(yè)對數(shù)據(jù)高可用的需求日益增長,對于數(shù)據(jù)庫的實時監(jiān)控和故障自動恢復(fù)方案愈發(fā)重要。作為關(guān)系到企業(yè)運轉(zhuǎn)的關(guān)鍵數(shù)據(jù)存儲和管理體系,數(shù)據(jù)庫的穩(wěn)定和可用關(guān)系到企業(yè)業(yè)務(wù)的連續(xù)性與數(shù)據(jù)安全,一旦數(shù)據(jù)庫遭遇性能瓶頸或發(fā)生故障,企業(yè)很可能會面臨業(yè)務(wù)的暫停甚至數(shù)據(jù)丟失。
? ? ? ? 北京智和信數(shù)據(jù)庫監(jiān)控與自愈方案實時監(jiān)控數(shù)據(jù)庫運行情況,在數(shù)據(jù)庫性能出現(xiàn)波動或故障萌芽之時,迅速捕捉并做出應(yīng)對,以保障數(shù)據(jù)庫的高可用。
第1章?數(shù)據(jù)庫監(jiān)控范圍與指標(biāo)
? ? ? ? 智和信通方案通過構(gòu)建對關(guān)鍵指標(biāo)的監(jiān)控,實現(xiàn)對數(shù)據(jù)庫性能和資源的實時追蹤,識別并解決影響的數(shù)據(jù)庫問題,保障數(shù)據(jù)庫的高性能及高可用性,更全面地支持業(yè)務(wù)及應(yīng)用的穩(wěn)定、持續(xù)運行。
1.1.常見數(shù)據(jù)庫
? ? ? ? 方案支持的數(shù)據(jù)庫涵蓋MySQL、SQL Server、Oracle、Sybase、DB2、PostgreSQL、Redis、PostgreSQL、達夢、人大金倉、南大通用、ChinaDB、Polardb-O等國內(nèi)外主流數(shù)據(jù)庫。其他較為小眾的數(shù)據(jù)庫品牌也可通過靈活可配的模型庫進行擴展適配。
1.2.常見資源監(jiān)測點和指標(biāo)
? ? ? ? 本方案通過主動輪詢和日志解析的方式對數(shù)據(jù)庫的常見性能指標(biāo),如響應(yīng)時間、連接數(shù)、慢查詢、緩存信息、讀寫信息、表信息等進行監(jiān)控,同時除內(nèi)置的常見指標(biāo)外,其他資源和指標(biāo)也可以通過模型庫不斷進行拓展。
常見數(shù)據(jù)庫監(jiān)測點和指標(biāo) | |
資源監(jiān)測點 | 監(jiān)測指標(biāo) |
基礎(chǔ)信息 | 數(shù)據(jù)庫名稱、版本號、空間利用率、歸檔方式、用戶名及權(quán)限等 |
Ping | 連接狀態(tài)、響應(yīng)時長等 |
連接信息 | 連接數(shù)、并發(fā)連接數(shù)、活動連接數(shù)、連接失敗數(shù)、當(dāng)前打開線程數(shù)、最大連接數(shù)、被阻塞會話數(shù)、最大連接率、緩存線程數(shù)等 |
SGA緩存信息 | 讀命中率、寫命中率、利用率、緩沖池讀命中率、緩沖池利用率等 |
IO讀寫信息 | 寫速度、寫次數(shù)、讀速度、讀次數(shù)等 |
進程信息 | 進程ID、占用CPU時間、占用內(nèi)存大小等 |
表信息 | 表空間大小、可用表空間大小、表空間使用率、當(dāng)前鎖總數(shù)、死鎖數(shù)、等待鎖數(shù)等 |
操作信息 | 查詢操作次數(shù)、插入操作次數(shù)、刪除次數(shù)、修改次數(shù)、慢查詢次數(shù)等 |
索引信息 | 索引請求數(shù)、磁盤索引請求數(shù)、索引命中率、已用緩存簇、未用緩存簇、緩存簇使用率等 |
1.3.數(shù)據(jù)庫品牌型號及指標(biāo)擴展
? ? ? ? 方案采取用戶自定義擴展數(shù)據(jù)庫品牌、類型及其資源的方式,賦予用戶強大的適配能力,最大可能地實現(xiàn)對不同時期、不同品牌、不同型號數(shù)據(jù)庫的管控;支持自定義數(shù)據(jù)庫類型、數(shù)據(jù)庫資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等。
第2章 數(shù)據(jù)庫實時監(jiān)控
? ? ? ? 隨著信息化時代的不斷發(fā)展,數(shù)據(jù)對企業(yè)的重要性愈加顯露,而數(shù)據(jù)庫作為企業(yè)信息系統(tǒng)的核心部分,承載著大量關(guān)鍵數(shù)據(jù)的存儲和管理任務(wù),對保障信息安全、促進數(shù)據(jù)交流共享、推動數(shù)據(jù)分析決策等起到重要作用。因此,對于數(shù)據(jù)庫的監(jiān)控管理不僅可以提高信息系統(tǒng)性能,還對保障數(shù)據(jù)的完整性和安全至關(guān)重要。
2.4.數(shù)據(jù)庫圖像化監(jiān)控
2.4.1.自動發(fā)現(xiàn)數(shù)據(jù)庫及其他設(shè)備
? ? ? ? 智和信通具備獨特的數(shù)據(jù)庫自動發(fā)現(xiàn)技術(shù),在網(wǎng)絡(luò)可達范圍內(nèi),僅需輸入IP范圍即可自動發(fā)現(xiàn)網(wǎng)絡(luò)中的數(shù)據(jù)庫及其他設(shè)備,識別數(shù)據(jù)庫品牌、版本的信息,生成數(shù)據(jù)庫內(nèi)部資源拓?fù)?,匹配故障與性能監(jiān)視器,并自動發(fā)現(xiàn)數(shù)據(jù)庫與其他設(shè)備的連接關(guān)系,生成可視化鏈路,通過可視拓?fù)鋭討B(tài)展示數(shù)據(jù)庫、鏈路的運行狀態(tài)。
2.4.2.自動生成網(wǎng)絡(luò)拓?fù)?/strong>
? ? ? ? 方案以圖形化方式系統(tǒng)展現(xiàn)網(wǎng)絡(luò)拓?fù)潢P(guān)系,支持樹形結(jié)構(gòu)和平面結(jié)構(gòu)的聯(lián)動展示,也可以按片區(qū)、按地域、按層級等多種布局方式劃分網(wǎng)絡(luò),在拓?fù)渲幸圆煌伾珗D標(biāo)、光效展現(xiàn)數(shù)據(jù)庫的實時狀態(tài)信息。
2.4.3.可視化展示數(shù)據(jù)庫資源
? ? ? ? 在拓?fù)鋱D的基礎(chǔ)上,進一步展示數(shù)據(jù)庫的細(xì)節(jié),以圖形方式展示數(shù)據(jù)的基礎(chǔ)信息、連接信息、SGA緩存信息、IO讀寫信息、進程信息、表信息、鎖信息、索引信息等核心指標(biāo),對數(shù)據(jù)庫進行細(xì)化監(jiān)控,實時告警,事前管理,降低故障發(fā)生率。
2.5.數(shù)據(jù)庫性能態(tài)勢感知
? ? ? ? 實時監(jiān)測并感知數(shù)據(jù)庫的相關(guān)性能情況,多維度處理、分析、展示數(shù)據(jù)庫性能態(tài)勢,實現(xiàn)“可觀、可管、可控”。
2.5.1.全面監(jiān)控數(shù)據(jù)庫性能
? ? ? ? 全面采集數(shù)據(jù)庫的各項性能指標(biāo),如表空間大小、表空間使用率、進程數(shù)量、讀/寫操作命中率、碎片程度、連接數(shù)、線程數(shù)等,并可按照時間范圍、資源類型、性能指標(biāo)等多種維度,以圖形、表格等多種形式進行展示。
2.5.2.實時、歷史性能分析
? ? ? ? 對實時、歷史性能數(shù)據(jù)進行統(tǒng)計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標(biāo)變化。運維人員能隨時把握數(shù)據(jù)庫性能變化態(tài)勢,防患于未然。
2.5.3.多數(shù)據(jù)庫性能對比
? ? ? ? 支持選擇多臺數(shù)據(jù)庫進行同維度性能數(shù)據(jù)分析,提供可視化性能對比視圖,通過性能對比分析數(shù)據(jù)庫性能變化趨勢。
2.6.日志與事件管理
? ? ? ? 接收數(shù)據(jù)庫主動發(fā)送如數(shù)據(jù)查詢、數(shù)據(jù)插入、數(shù)據(jù)刪除、數(shù)據(jù)庫停止運行、數(shù)據(jù)庫重啟、連接失敗等事件與日志消息,集中存儲、解析處理后,將錯誤、告警、攻擊行為等異常信息及時地通知用戶。通過統(tǒng)一界面集中管理事件與日志,提高其完整性和可追溯性,幫助用戶快速定位問題并采取相應(yīng)的解決措施。
2.7.故障告警與智能收斂
? ? ? ? 搭載多種告警機制,自定義配置告警閾值,具備主動的故障監(jiān)控功能,從眾多的事件和狀態(tài)中,系統(tǒng)地將零散的狀態(tài)信息,總結(jié)成為當(dāng)前狀態(tài),并對異常狀態(tài)進行告警,第一時間獲取準(zhǔn)確的告警信息,快速標(biāo)示已執(zhí)行操作的告警,迅速定位產(chǎn)生告警的數(shù)據(jù)庫,提升告警處理效率,極大降低因數(shù)據(jù)庫故障帶來的損失。
? ? ? ? 告警管理采用自動去重、風(fēng)暴抑制、關(guān)聯(lián)聚合、維護期時間屏蔽、依賴屏蔽等多種智能告降噪機制,通過AI算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風(fēng)暴,有效避免誤報和漏報,直達故障根因。
2.8.數(shù)據(jù)庫狀態(tài)自動巡檢
? ? ? ? 可自定義巡檢策略,預(yù)設(shè)執(zhí)行時間進行自動化巡檢,定期巡查數(shù)據(jù)庫實時運行狀態(tài),并向指定郵箱發(fā)送結(jié)果報告,把握網(wǎng)絡(luò)運行中的易出現(xiàn)問題的環(huán)節(jié),做到預(yù)防為先。可自行選擇要統(tǒng)計的網(wǎng)絡(luò)范圍、數(shù)據(jù)庫類型、資源類型、數(shù)據(jù)庫支撐的業(yè)務(wù)、數(shù)據(jù)庫關(guān)聯(lián)的鏈路等生成巡檢報表。
第3章 數(shù)據(jù)庫承載的業(yè)務(wù)狀態(tài)撥測
? ? ? ? 針對數(shù)據(jù)庫所支撐的業(yè)務(wù)應(yīng)用性能與用戶體驗進行檢測分析,無需安裝插件就可以為用戶提供開箱即用的企業(yè)級主動撥測式業(yè)務(wù)監(jiān)測。以拓?fù)湫问秸故久總€業(yè)務(wù)流程中的每臺相關(guān)設(shè)備,支持設(shè)備邏輯視圖和面板視圖,展示業(yè)務(wù)流程中涉及的所有的設(shè)備之間的鏈路關(guān)系,流程方向。
? ? ? ? 構(gòu)建包含各業(yè)務(wù)整體流程的調(diào)用依賴關(guān)系圖譜,展示業(yè)務(wù)部署中網(wǎng)絡(luò)設(shè)備間多維度關(guān)系拓?fù)?。對從業(yè)務(wù)的前臺受理到真正完成的整個業(yè)務(wù)流程所依賴的業(yè)務(wù)應(yīng)用、數(shù)據(jù)庫、中間件、數(shù)據(jù)庫、操作系統(tǒng)等進行實時監(jiān)控分析,呈現(xiàn)業(yè)務(wù)各節(jié)點的實時運行狀態(tài),包括用戶體驗、節(jié)點可用性、節(jié)點負(fù)載等狀態(tài)信息,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運維實現(xiàn)故障自愈。
第4章 統(tǒng)計報表和大屏展示
? ? ? ? 通過定義數(shù)據(jù)庫相關(guān)數(shù)據(jù)報表的能力,實現(xiàn)數(shù)據(jù)庫性能和狀態(tài)的靈活展現(xiàn)和統(tǒng)計分析,通過對比、TOPN等分析方式并結(jié)合報表排序規(guī)則、過濾規(guī)則等能力,周期自動生成報表,幫助用戶更好地了解數(shù)據(jù)庫的各項負(fù)載情況和運行態(tài)勢,為優(yōu)化資源配置和性能調(diào)整提供依據(jù)。
? ? ? ? 通過大屏展示核心運維數(shù)據(jù)態(tài)勢,細(xì)粒度可達網(wǎng)絡(luò)中數(shù)據(jù)庫、數(shù)據(jù)庫資源和鏈路。所有的網(wǎng)絡(luò)故障與性能瓶頸都一目了然地呈現(xiàn),大大降低了管理成本,同時也提高了運維人員處理故障的能力,節(jié)省的故障處理時間,為運維人員管理網(wǎng)絡(luò)提供了可靠的保證。
第5章 數(shù)據(jù)庫遠程控制和編排式配置
? ? ? ? 方案提供數(shù)據(jù)庫遠程控制的能力,采用“監(jiān)控+運維+控制”的方式,將不同類型、不同型號的數(shù)據(jù)庫統(tǒng)一納入控制管理。通過智能算法對數(shù)據(jù)庫的資源配置進行智能動態(tài)調(diào)整,當(dāng)數(shù)據(jù)庫出現(xiàn)性能瓶頸時,自動調(diào)優(yōu)資源配置,優(yōu)化數(shù)據(jù)庫運行環(huán)境,當(dāng)數(shù)據(jù)庫發(fā)生故障時,自動啟動自愈機制,快速恢復(fù)數(shù)據(jù)庫的正常運行,最大限度地保障業(yè)務(wù)的穩(wěn)定運行。
5.1.數(shù)據(jù)庫遠程配置執(zhí)行
? ? ? ? 將周期性、重復(fù)性、規(guī)律性的大量日常數(shù)據(jù)庫配置工作,如創(chuàng)建/刪除表、查看/修改表結(jié)構(gòu)、啟動/停止服務(wù)、定期備份數(shù)據(jù)庫、重啟數(shù)據(jù)庫、修改數(shù)據(jù)庫配置文件等,轉(zhuǎn)化為依托于平臺的自動執(zhí)行工作流,實現(xiàn)對數(shù)據(jù)庫的批量、定時自動化控制。
5.2.故障自愈以一鍵解鎖數(shù)據(jù)庫為例
? ? ? ? 以數(shù)據(jù)庫實時監(jiān)控和日志、事件管理為基礎(chǔ),動態(tài)發(fā)現(xiàn)網(wǎng)絡(luò)故障,智能判斷告警類型及級別,利用自動化故障診斷和修復(fù)能力,實現(xiàn)對數(shù)據(jù)庫常規(guī)故障的自動處置,特殊告警觸發(fā)升級與工單,最終實現(xiàn)故障恢復(fù),減少人工干預(yù),提高運維效率。
? ? ? ? 下面以一鍵解鎖數(shù)據(jù)庫為例,介紹如何通過智和網(wǎng)管平臺實現(xiàn)數(shù)據(jù)庫故障自愈。
? ? ? ? 效果要求:當(dāng)數(shù)據(jù)庫鎖表時,觸發(fā)自動解鎖,解鎖表。
? ? ? ? 第一步:將需要管理的數(shù)據(jù)庫納入平臺進行監(jiān)控,并將監(jiān)視器設(shè)置為數(shù)據(jù)庫出現(xiàn)鎖表進行嚴(yán)重級別告警。
? ? ? ? 第二步:進入安管模塊的運維編排菜單,創(chuàng)建【數(shù)據(jù)庫一鍵解鎖】策略。根據(jù)真實排障過程,通過進行策略節(jié)點拖拽編排的方式規(guī)劃自愈流程。
? ? ? ? 第三步:配置觸發(fā)方式。方式支持通過告警觸發(fā)和通過時間觸發(fā)兩種方式進行,為實現(xiàn)故障自愈的效果,我們選擇通過匹配告警的方式觸發(fā)策略。
? ? ? ? 編排流程配置完成后,設(shè)備出現(xiàn)對應(yīng)的警后,立即觸發(fā)數(shù)據(jù)庫解鎖作業(yè)流,自動執(zhí)行編排內(nèi)的操作,對故障進行校驗和處置。并在執(zhí)行過程中,對每一步處置操作進行記錄形成日志,確保有跡可循。
5.3.配置備份、對比與恢復(fù)
? ? ? ? 支持配置文件批量備份、下載、周期性備份、查看等,對數(shù)據(jù)庫的多個備份文件進行對比。定期自動對數(shù)據(jù)庫配置進行巡檢備份,并可進行對比分析,為用戶管理網(wǎng)絡(luò)做出合理的建議提供數(shù)據(jù)支撐,支持進行已備份配置間的對比分析和針對性的配置恢復(fù)。
第6章 數(shù)據(jù)庫資產(chǎn)CMDB管理
? ? ? ? 通過構(gòu)建數(shù)據(jù)庫資產(chǎn)數(shù)據(jù)庫,將數(shù)據(jù)庫的信息包括資產(chǎn)編號、資產(chǎn)名稱、品牌型號、來源、購買日期、負(fù)責(zé)人等信息以及維保到期時間、維保單位等維保信息統(tǒng)一管理。
? ? ? ? 動態(tài)感知納入監(jiān)控的數(shù)據(jù)庫運行狀態(tài),并以圖譜的方式呈現(xiàn)數(shù)據(jù)庫與其他資產(chǎn)、配品配件、機房、機柜、網(wǎng)絡(luò)鏈路、使用人等靜態(tài)關(guān)聯(lián)關(guān)系。
第7章 數(shù)據(jù)庫運維工作全面無紙化
? ? ? ? 結(jié)合數(shù)據(jù)庫運維工作,如數(shù)據(jù)庫采購、維修、更換等業(yè)務(wù)需求場景,自定義工單模板內(nèi)的字段,并對字段排序進行調(diào)整,使工單根據(jù)業(yè)務(wù)的不同更加貼合用戶實際使用情況。將數(shù)據(jù)庫運維相關(guān)工作全面轉(zhuǎn)為無紙化辦公,簡化運維工作流程,在每個處理流程的節(jié)點上責(zé)任到人。
第8章 應(yīng)用價值
? ? ? ? 北京智和信通為用戶提供了一個全面高效的數(shù)據(jù)庫監(jiān)控運維方案,有效地對數(shù)據(jù)庫進行監(jiān)管,在實現(xiàn)性能監(jiān)控的同時,融入更多的人工智能和大數(shù)據(jù)分析等前沿技術(shù),預(yù)測潛在的性能瓶頸和故障風(fēng)險,提前介入,實現(xiàn)從“被動響應(yīng)”到“主動預(yù)防”的跨越。
? ? ? ? 在提升業(yè)務(wù)穩(wěn)定性和連續(xù)性方面,智和信通數(shù)據(jù)庫監(jiān)控運維方案通過采取嚴(yán)格的監(jiān)控、預(yù)警、故障排查與自愈機制,快速響應(yīng)并處置數(shù)據(jù)庫運行中的各種問題,有效減少或避免服務(wù)中斷問題的出現(xiàn)。通過實時監(jiān)控發(fā)現(xiàn)數(shù)據(jù)庫運行中的異常指標(biāo),如CPU使用率過高、內(nèi)存占用過大等等這些性能下降預(yù)示,通過自動或手動地調(diào)整資源配置、清洗無效數(shù)據(jù)等操作,提升數(shù)據(jù)庫整體穩(wěn)定。
? ? ? ? 在優(yōu)化數(shù)據(jù)庫性能、提升用戶體驗方面,隨著業(yè)務(wù)量的增長,數(shù)據(jù)庫面臨著越來越大的性能壓力,本方案通過對數(shù)據(jù)庫性能的實時監(jiān)控、回溯分析,幫助用戶了解數(shù)據(jù)庫基礎(chǔ)性能、索引性能、查詢性能、響應(yīng)時間、事務(wù)處理速度、并發(fā)連接數(shù)等核心指標(biāo),為用戶數(shù)據(jù)庫性能調(diào)優(yōu)提供基礎(chǔ)數(shù)據(jù)。基于核心性能數(shù)據(jù),運維人員可以更加精準(zhǔn)地評估數(shù)據(jù)庫的負(fù)載能力,對數(shù)據(jù)庫進行合理地分配和調(diào)整,提升數(shù)據(jù)庫處理能力和響應(yīng)速度。
? ? ? ? 此外,北京智和信通還注重用戶體驗,全平臺提供了直觀易用的監(jiān)控界面和詳盡的報告系統(tǒng),讓非技術(shù)背景的管理人員也能輕松掌握數(shù)據(jù)庫健康狀況。