中間件實(shí)時(shí)監(jiān)控,運(yùn)維難題一站解決

中間件實(shí)時(shí)監(jiān)控,運(yùn)維難題一站解決

? ? ? ? 中間件是介于操作系統(tǒng)和在其上運(yùn)行的應(yīng)用程序之間的軟件,實(shí)現(xiàn)了分布式應(yīng)用程序的通信和數(shù)據(jù)管理,用于協(xié)調(diào)不同的系統(tǒng)和組件之間的通信,是連接應(yīng)用與底層資源直接的橋梁。因此,中間件的穩(wěn)定與高可用對(duì)于整個(gè)業(yè)務(wù)系統(tǒng)的可靠性和性能至關(guān)重要。

? ? ? ? 北京智和信中間件監(jiān)控運(yùn)維方案通過(guò)對(duì)中間件的實(shí)時(shí)監(jiān)控和編排運(yùn)維,提高對(duì)中間件故障的感知、分析、解決能力,保障中間件持續(xù)穩(wěn)定運(yùn)行。

第1章 中間件監(jiān)控范圍與指標(biāo)

? ? ? ? 智和信通方案通過(guò)構(gòu)建對(duì)Tomcat、Jboss、WebLogic等中間件的關(guān)鍵指標(biāo)的監(jiān)控,實(shí)現(xiàn)對(duì)中間件性能和資源的實(shí)時(shí)追蹤,識(shí)別并解決影響中間件性能的問(wèn)題,保障中間件的高性能及高可用性,更全面地支撐業(yè)務(wù)及應(yīng)用的穩(wěn)定、持續(xù)運(yùn)行,提升用戶體驗(yàn)。

1.1.常見中間件監(jiān)控模型及指標(biāo)擴(kuò)展

? ? ? ? 目前方案已實(shí)現(xiàn)對(duì)中間件包括Web中間件、數(shù)據(jù)庫(kù)中間件、消息中間件、安全中間件、事務(wù)中間件、應(yīng)用程序服務(wù)器中間件、分布式計(jì)算中間件等常見中間件的監(jiān)控管理,涵蓋的品牌包括Tomcat、Jboss、WebLogic、Nginx、Apache、RabbitMQ、Kafka、Redis、東方通、中創(chuàng)、寶藍(lán)德、普元、金蝶天燕等國(guó)內(nèi)外中間件。


? ? ? ? 同時(shí)采取用戶自定義擴(kuò)展中間件品牌、類型及其資源的方式,賦予用戶強(qiáng)大的適配能力,其他中間件品牌也可通過(guò)靈活可配的模型庫(kù)進(jìn)行擴(kuò)展適配,最大可能地實(shí)現(xiàn)對(duì)不同時(shí)期、不同品牌、不同型號(hào)中間件的管控;支持自定義中間件類型、中間件資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等。

1.2.常見中間件資源監(jiān)測(cè)點(diǎn)和指標(biāo)

? ? ? ? 本方案通過(guò)主動(dòng)輪詢和日志解析的方式對(duì)中間件的常見性能指標(biāo),如響應(yīng)時(shí)間、吞吐量、JVM內(nèi)存、執(zhí)行線程、JDBC連接池、并發(fā)用戶數(shù)等進(jìn)行監(jiān)控,同時(shí)除內(nèi)置的常見指標(biāo)外,其他資源和指標(biāo)也可以通過(guò)模型庫(kù)不斷進(jìn)行拓展。

常見中間件監(jiān)測(cè)點(diǎn)和指標(biāo)

資源監(jiān)測(cè)點(diǎn)

監(jiān)測(cè)指標(biāo)

基礎(chǔ)信息

中間件品牌、名稱、版本等

Ping

連接狀態(tài)、響應(yīng)時(shí)長(zhǎng)、服務(wù)成功率等

JVM信息

堆名稱、JVM堆棧利用率、VM堆中內(nèi)存、當(dāng)前JVM堆中空閑內(nèi)存數(shù)等

連接池

狀態(tài)、名稱、大小、總連接數(shù)、最大連接數(shù)、活動(dòng)連接數(shù)、等待連接數(shù)、空閑連接數(shù)、已處理連接數(shù)、已接受連接數(shù)、平均每秒請(qǐng)求數(shù)、已關(guān)閉連接數(shù)、丟棄連接數(shù)、連接的最大客戶數(shù)、池平均使用率等

線程池

線程池負(fù)載、線程池總大小、活動(dòng)線程數(shù)、創(chuàng)建線程數(shù)、銷毀線程數(shù)、ORB線程池利用率、Web線程池利用率、服務(wù)器線程池大小、死鎖線程數(shù)等

會(huì)話信息

最大會(huì)話數(shù)、會(huì)話總數(shù)等

事務(wù)信息

并發(fā)活動(dòng)全局事務(wù)數(shù)、已落實(shí)全局事務(wù)數(shù)、提交事務(wù)數(shù)、回滾事務(wù)數(shù)、超時(shí)事務(wù)數(shù)等

執(zhí)行隊(duì)列

隊(duì)列名稱、執(zhí)行線程總數(shù)、當(dāng)前空閑執(zhí)行線程數(shù)、未處理請(qǐng)求最長(zhǎng)時(shí)間(分鐘)、隊(duì)列中未處理的請(qǐng)求數(shù)、隊(duì)列已經(jīng)處理的請(qǐng)求數(shù)等

?Jms信息

JMS連接總數(shù)、JMS當(dāng)前連接總數(shù)、JMS最高連接數(shù)、JMS Server總數(shù)、當(dāng)前JMS Server總數(shù)、JMS Server歷史中最高總數(shù)、JMS Session總數(shù)、當(dāng)前JMS Session數(shù)、最高JMS Session數(shù)、已接收J(rèn)MS消息數(shù)、未處理JMS消息數(shù)等


第2章 中間件實(shí)時(shí)監(jiān)控

? ? ? ? 通過(guò)建立全面的監(jiān)控運(yùn)維體系,北京智和信中間件監(jiān)控運(yùn)維方案實(shí)時(shí)監(jiān)控中間件的各項(xiàng)關(guān)鍵性能指標(biāo),包括:CPU/內(nèi)存使用率、實(shí)時(shí)?流量/帶寬、執(zhí)行隊(duì)列等。針對(duì)各類中間件特點(diǎn)深入監(jiān)控其內(nèi)部組件和整體運(yùn)行狀態(tài),提升中間件可靠性,保障業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行。

2.1.自動(dòng)發(fā)現(xiàn)中間件設(shè)備

? ? ? ? 智和信通具備獨(dú)特的中間件自動(dòng)發(fā)現(xiàn)技術(shù),在網(wǎng)絡(luò)可達(dá)范圍內(nèi),僅需輸入IP范圍即可自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)中的中間件及其他設(shè)備,識(shí)別中間件品牌、版本的信息,獲取中間件內(nèi)部資源,匹配故障與性能監(jiān)視器,并自動(dòng)發(fā)現(xiàn)中間件與其他設(shè)備的連接關(guān)系,生成可視化鏈路,通過(guò)可視拓?fù)鋭?dòng)態(tài)展示中間件、鏈路的運(yùn)行狀態(tài)。

2.1.1.自動(dòng)生成網(wǎng)絡(luò)拓?fù)?/strong>

? ? ? ? 方案以圖形拓?fù)涞男问秸宫F(xiàn)中間件在網(wǎng)絡(luò)中和其他設(shè)備間的拓?fù)潢P(guān)系,支持樹形結(jié)構(gòu)和平面結(jié)構(gòu)的聯(lián)動(dòng)展示,也可以按片區(qū)、按地域、按層級(jí)等多種布局方式劃分網(wǎng)絡(luò),在拓?fù)渲幸圆煌伾珗D標(biāo)、光效展現(xiàn)中間件的實(shí)時(shí)狀態(tài)信息。


2.1.2.可視化展示中間件資源

? ? ? ? 在拓?fù)鋱D的基礎(chǔ)上,進(jìn)一步展示中間件的內(nèi)部細(xì)節(jié),以圖形方式展示中間件基礎(chǔ)信息、CPU、內(nèi)存、執(zhí)行隊(duì)列、線程池、JVM信息、連接池信息等關(guān)鍵指標(biāo),對(duì)中間件進(jìn)行細(xì)化監(jiān)控,實(shí)時(shí)告警,事前管理,降低故障發(fā)生率。


2.2.中間件性能態(tài)勢(shì)感知

? ? ? ? 中間件的運(yùn)行性能將直接影響業(yè)務(wù)系統(tǒng)的響應(yīng)速度和穩(wěn)定,同時(shí)定時(shí)監(jiān)測(cè)中間件的相關(guān)性能情況,持續(xù)觀測(cè)、多維管理,通過(guò)分析、展示中間件性能態(tài)勢(shì),實(shí)現(xiàn)對(duì)中間件設(shè)備的“可觀、可管、可控”。

2.2.1.全面監(jiān)控中間件性能

? ? ? ? 全面采集中間件的各項(xiàng)性能指標(biāo),如JVM堆棧利用率、JVM堆中內(nèi)存、活動(dòng)連接數(shù)、等待連接數(shù)、空閑連接數(shù)、執(zhí)行線程總數(shù)、當(dāng)前空閑執(zhí)行線程數(shù)等,并可按照時(shí)間范圍、資源類型、性能指標(biāo)等多種維度,以圖形、表格等多種形式進(jìn)行展示。


2.2.2.實(shí)時(shí)、歷史性能分析

? ? ? ? 對(duì)實(shí)時(shí)、歷史性能數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,通過(guò)曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標(biāo)變化。運(yùn)維人員能隨時(shí)把握中間件性能變化態(tài)勢(shì),防患于未然。

2.2.3.多中間件性能對(duì)比

? ? ? ? 支持選擇多臺(tái)中間件進(jìn)行同維度性能數(shù)據(jù)分析,提供可視化性能對(duì)比視圖,通過(guò)性能對(duì)比分析中間件性能變化趨勢(shì)。


2.3.中間件自動(dòng)巡檢

? ? ? ? 可自定義中間件的巡檢策略,預(yù)設(shè)時(shí)間自動(dòng)執(zhí)行中間件巡檢,定期巡查中間件實(shí)時(shí)運(yùn)行狀態(tài),并向指定郵箱發(fā)送結(jié)果報(bào)告,可自行選擇要統(tǒng)計(jì)的中間件所屬網(wǎng)絡(luò)、中間件類型、中間件資源、中間件支撐的業(yè)務(wù)、中間件關(guān)聯(lián)的鏈路等范圍類型,生成巡檢報(bào)表。


2.4.日志與事件管理

? ? ? ? 接收中間件主動(dòng)發(fā)送如連接池泄露、連接失敗、內(nèi)存泄漏、線程死鎖、創(chuàng)建連接失敗、連接池已滿、連接數(shù)據(jù)庫(kù)超時(shí)、鎖超時(shí)、服務(wù)器無(wú)響應(yīng)等事件與日志消息,集中存儲(chǔ)、解析處理后,將錯(cuò)誤、告警、攻擊行為等異常信息及時(shí)地通知用戶。通過(guò)統(tǒng)一界面集中管理事件與日志,提高其完整性和可追溯性,幫助用戶快速定位問(wèn)題并采取相應(yīng)的解決措施。


2.5.故障告警與智能收斂

? ? ? ? 搭載多種告警機(jī)制,自定義配置告警閾值,具備主動(dòng)的故障監(jiān)控功能,從眾多的事件和狀態(tài)中,系統(tǒng)地將零散的狀態(tài)信息,總結(jié)成為當(dāng)前狀態(tài),并對(duì)異常狀態(tài)進(jìn)行告警,第一時(shí)間獲取準(zhǔn)確的告警信息,快速標(biāo)示已執(zhí)行操作的告警,迅速定位產(chǎn)生告警的中間件,提升告警處理效率,極大降低因中間件故障帶來(lái)的損失。


? ? ? ? 告警管理采用自動(dòng)去重、風(fēng)暴抑制、關(guān)聯(lián)聚合、維護(hù)期時(shí)間屏蔽、依賴屏蔽等多種智能告降噪機(jī)制,通過(guò)AI算法,對(duì)各類告警進(jìn)行自動(dòng)壓縮收斂,減少90%的無(wú)效告警,抑制告警風(fēng)暴,有效避免誤報(bào)和漏報(bào),直達(dá)故障根因。

第3章 中間件承載的業(yè)務(wù)狀態(tài)撥測(cè)

? ? ? ? 針對(duì)中間件所支撐的業(yè)務(wù)應(yīng)用性能與用戶體驗(yàn)進(jìn)行檢測(cè)分析,無(wú)需安裝插件就可以為用戶提供開箱即用的企業(yè)級(jí)主動(dòng)撥測(cè)式業(yè)務(wù)監(jiān)測(cè)。以拓?fù)湫问秸故久總€(gè)業(yè)務(wù)流程中的每臺(tái)相關(guān)設(shè)備,支持設(shè)備邏輯視圖和面板視圖,展示業(yè)務(wù)流程中涉及的所有的設(shè)備之間的鏈路關(guān)系,流程方向。


? ? ? ? 構(gòu)建包含各業(yè)務(wù)整體流程的調(diào)用依賴關(guān)系圖譜,展示業(yè)務(wù)部署中網(wǎng)絡(luò)設(shè)備間多維度關(guān)系拓?fù)?。?duì)從業(yè)務(wù)的前臺(tái)受理到真正完成的整個(gè)業(yè)務(wù)流程所依賴的業(yè)務(wù)應(yīng)用、中間件、中間件、中間件、操作系統(tǒng)等進(jìn)行實(shí)時(shí)監(jiān)控分析,呈現(xiàn)業(yè)務(wù)各節(jié)點(diǎn)的實(shí)時(shí)運(yùn)行狀態(tài),包括用戶體驗(yàn)、節(jié)點(diǎn)可用性、節(jié)點(diǎn)負(fù)載等狀態(tài)信息,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動(dòng)運(yùn)維實(shí)現(xiàn)故障自愈。

第4章 統(tǒng)計(jì)報(bào)表和大屏展示

? ? ? ? 通過(guò)定義中間件相關(guān)數(shù)據(jù)報(bào)表的能力,實(shí)現(xiàn)中間件性能和狀態(tài)的靈活展現(xiàn)和統(tǒng)計(jì)分析,通過(guò)對(duì)比、TOPN等分析方式并結(jié)合報(bào)表排序規(guī)則、過(guò)濾規(guī)則等能力,周期自動(dòng)生成報(bào)表,幫助用戶更好地了解中間件的各項(xiàng)負(fù)載情況和運(yùn)行態(tài)勢(shì),為優(yōu)化資源配置和性能調(diào)整提供依據(jù)。


? ? ? ? 通過(guò)大屏展示核心運(yùn)維數(shù)據(jù)態(tài)勢(shì),細(xì)粒度可達(dá)網(wǎng)絡(luò)中中間件、中間件資源和鏈路。所有的網(wǎng)絡(luò)故障與性能瓶頸都一目了然地呈現(xiàn),大大降低了管理成本,同時(shí)也提高了運(yùn)維人員處理故障的能力,節(jié)省的故障處理時(shí)間,為運(yùn)維人員管理網(wǎng)絡(luò)提供了可靠的保證。


第5章 中間件遠(yuǎn)程控制和編排式配置

? ? ? ? 方案提供中間件遠(yuǎn)程控制的能力,采用“監(jiān)控+運(yùn)維+控制”的方式,將不同類型、不同版本的中間件統(tǒng)一納入控制管理。通過(guò)智能算法對(duì)中間件的資源配置進(jìn)行智能動(dòng)態(tài)調(diào)整,當(dāng)中間件出現(xiàn)性能瓶頸時(shí),自動(dòng)調(diào)優(yōu)資源配置,優(yōu)化中間件運(yùn)行環(huán)境,當(dāng)中間件發(fā)生故障時(shí),自動(dòng)啟動(dòng)自愈機(jī)制,快速恢復(fù)中間件的正常運(yùn)行。

5.1.中間件遠(yuǎn)程配置執(zhí)行

? ? ? ? 將周期性、重復(fù)性、規(guī)律性的大量日常中間件配置工作,如啟動(dòng)/停止服務(wù)、定期備份中間件配置、修改JVM參數(shù)等運(yùn)維工作,轉(zhuǎn)化為依托于平臺(tái)的自動(dòng)執(zhí)行工作流,實(shí)現(xiàn)對(duì)中間件的批量、定時(shí)自動(dòng)化控制管理。

5.2.故障自愈以中間件離線重啟為例

? ? ? ? 以中間件實(shí)時(shí)監(jiān)控和日志、事件管理為基礎(chǔ),通過(guò)多指標(biāo)聚合檢測(cè)動(dòng)態(tài)識(shí)別中間件異常,智能判斷告警類型及級(jí)別,利用自動(dòng)化故障診斷和修復(fù)能力,實(shí)現(xiàn)對(duì)中間件常規(guī)故障的自動(dòng)處置,特殊告警觸發(fā)升級(jí)與工單,最終實(shí)現(xiàn)故障恢復(fù),減少人工干預(yù),提高運(yùn)維效率。

? ? ? ? 下面以中間件離線重啟為例,介紹如何通過(guò)智和網(wǎng)管平臺(tái)實(shí)現(xiàn)中間件故障自愈。

? ? ? ? 效果要求:當(dāng)中間件掉線時(shí),觸發(fā)自動(dòng)重啟上線策略,恢復(fù)中間件運(yùn)行。

? ? ? ? 第一步:將需要管理的中間件納入平臺(tái)進(jìn)行監(jiān)控,并設(shè)置中間件在線狀態(tài)監(jiān)視器,中間件離線進(jìn)行告警。

? ? ? ? 第二步:進(jìn)入安管模塊的運(yùn)維編排菜單,創(chuàng)建【中間件離線重啟】策略。根據(jù)真實(shí)排障過(guò)程,通過(guò)進(jìn)行策略節(jié)點(diǎn)拖拽編排的方式規(guī)劃自愈流程。


? ? ? ? 第三步:配置觸發(fā)方式。方式支持通過(guò)告警觸發(fā)和通過(guò)時(shí)間觸發(fā)兩種方式進(jìn)行,為實(shí)現(xiàn)故障自愈的效果,我們選擇通過(guò)匹配告警的方式觸發(fā)策略。選定觸發(fā)設(shè)備,并以在線狀態(tài)為監(jiān)控指標(biāo),當(dāng)出現(xiàn)掉線告警時(shí),自動(dòng)觸發(fā)自愈策略。


? ? ? ? 編排流程配置完成后,中間件出現(xiàn)掉線告警時(shí),立即觸發(fā)中間件自動(dòng)重啟作業(yè)流,自動(dòng)執(zhí)行編排內(nèi)的操作,對(duì)故障進(jìn)行校驗(yàn)和處置。并在執(zhí)行過(guò)程中,對(duì)每一步處置操作進(jìn)行記錄形成日志,確保有跡可循。

5.3.配置備份、對(duì)比與恢復(fù)

? ? ? ? 支持中間件配置的批量備份、下載、周期性備份、查看等,對(duì)中間件的多個(gè)備份文件進(jìn)行對(duì)比。定期自動(dòng)對(duì)中間件配置進(jìn)行巡檢備份,并可進(jìn)行對(duì)比分析,為用戶管理網(wǎng)絡(luò)做出合理的建議提供數(shù)據(jù)支撐,支持進(jìn)行已備份配置間的對(duì)比分析和針對(duì)性的配置恢復(fù)。


第6章 應(yīng)用價(jià)值

? ? ? ? 北京智和信通為用戶提供高可用的中間件監(jiān)控運(yùn)維與故障自愈方案,通過(guò)監(jiān)控中間件的運(yùn)行狀態(tài)和日志,迅速發(fā)現(xiàn)并診斷出現(xiàn)的異常問(wèn)題,并提供詳細(xì)的故障信息,協(xié)助運(yùn)維人員快速定位故障源頭。更值得一提的是,借助于自動(dòng)化運(yùn)維編排能力,可對(duì)常見中間件故障實(shí)現(xiàn)自愈。這意味著在很多情況下,系統(tǒng)可以自動(dòng)修復(fù)問(wèn)題,而無(wú)需人工干預(yù),極大地提高了運(yùn)維效率和系統(tǒng)的穩(wěn)定性。

? ? ? ? 平臺(tái)的告警和通知機(jī)制非常靈活,在中間件運(yùn)行出現(xiàn)特定閾值或異常時(shí),立即通知運(yùn)維人員,通過(guò)智能降噪機(jī)制,更準(zhǔn)確地識(shí)別與定位關(guān)鍵異常,從而在對(duì)關(guān)聯(lián)業(yè)務(wù)影響最小的情況下進(jìn)行故障處置。通過(guò)定時(shí)捕獲和大數(shù)據(jù)分析等技術(shù),識(shí)別潛在的性能瓶頸,并通過(guò)IT資源的調(diào)整和優(yōu)化提升中間件的響應(yīng)速度,也保障了整個(gè)業(yè)務(wù)系統(tǒng)的流暢運(yùn)行。

? ? ? ? 對(duì)中間件進(jìn)行實(shí)時(shí)監(jiān)控和管理的同時(shí),方案兼顧對(duì)網(wǎng)絡(luò)設(shè)備、服務(wù)器、數(shù)據(jù)庫(kù)、應(yīng)用等整個(gè)IT基礎(chǔ)設(shè)施的立體監(jiān)測(cè),不僅支持多源數(shù)據(jù)的統(tǒng)一收集與處理,還提供了直觀的監(jiān)控儀表板和定制化報(bào)告功能,讓運(yùn)維人員能夠迅速把握IT系統(tǒng)全局運(yùn)行態(tài)勢(shì),做出精準(zhǔn)決策。