? ? ? ? 隨著信息技術(shù)發(fā)展,服務(wù)器已經(jīng)成為支撐各類應(yīng)用系統(tǒng)的核心基礎(chǔ)設(shè)施。業(yè)務(wù)數(shù)量的日益增長和穩(wěn)定運行的高要求,也給服務(wù)器的穩(wěn)定性與可靠性建立了更高的標(biāo)準(zhǔn)。然而,傳統(tǒng)的服務(wù)器管理方式往往難以發(fā)現(xiàn)潛在問題,導(dǎo)致故障預(yù)警與處置的滯后,進(jìn)而影響業(yè)務(wù)的正常運行。
? ? ? ? 北京智和信通服務(wù)器監(jiān)控運維方案通過對服務(wù)器高效、實時的自動化監(jiān)控和預(yù)警,及時發(fā)現(xiàn)并處理潛在問題,避免故障的發(fā)生或擴大,提升服務(wù)器運行效率和穩(wěn)定性,保障業(yè)務(wù)的持續(xù)穩(wěn)定運行。
第1章 服務(wù)器監(jiān)控范圍與指標(biāo)
? ? ? ? 智和信通方案采取主動輪詢結(jié)合日志、事件分析的方式,在主動收集服務(wù)器性能數(shù)據(jù)的基礎(chǔ)上,接收服務(wù)器發(fā)送的事件和日志信息,對服務(wù)器狀態(tài)進(jìn)行全面感知。
1.1.常見服務(wù)器類型和品牌
? ? ? ? 方案涵蓋的服務(wù)器類型包括常規(guī)服務(wù)器、虛擬化服務(wù)器、云服務(wù)器、小型機、存儲服務(wù)器、超融合服務(wù)器集群等,支持的操作系統(tǒng)包括Windows、Linux、Unix、Aix、Solaris、國產(chǎn)中標(biāo)麒麟、銀河麒麟、紅旗Linux、鴻蒙系統(tǒng)、AliOS、SPGnux、Deepin、華為歐拉等。
? ? ? ? 目前,已實現(xiàn)對國內(nèi)外常見服務(wù)器品牌,如:華為、H3C、銳捷、浪潮、聯(lián)想、HP、IBM、DELL、中科曙光、深信服等,小眾或較為老舊的品牌型號也可通過靈活可配的模型庫進(jìn)行擴展適配。
1.2.常見資源監(jiān)測點和指標(biāo)
? ? ? ? 方案通過帶內(nèi)和帶外的方式對服務(wù)的硬件狀態(tài)、系統(tǒng)狀態(tài)和服務(wù)器上運行的應(yīng)用、業(yè)務(wù)等進(jìn)行監(jiān)控。內(nèi)置CPU、內(nèi)存、網(wǎng)卡、磁盤、溫度、電壓、風(fēng)扇等多種資源監(jiān)測點和對應(yīng)的監(jiān)測指標(biāo),未覆蓋的資源和指標(biāo)也可以通過模型庫不斷進(jìn)行拓展。
資源監(jiān)測點 | 監(jiān)測指標(biāo) |
基礎(chǔ)信息 | 品牌、型號、序列號等 |
Ping | 服務(wù)成功率、平均響應(yīng)時間、丟包率、抖動等 |
CPU | 使用率、線程數(shù)、進(jìn)程數(shù)、會話數(shù)、頻率、型號、主頻、生產(chǎn)廠家、核數(shù)、一級緩存、二級緩存、三級緩存等 |
物理內(nèi)存 | 使用率、可用內(nèi)存大小、總內(nèi)存空間、型號、類型、最大頻率、生產(chǎn)廠家、部件號、序列號等 |
虛擬內(nèi)存 | 使用率、可用內(nèi)存大小、總內(nèi)存空間等 |
硬盤 | 型號、序列號、生產(chǎn)廠家、固件版本、類型、轉(zhuǎn)速、容量、出廠日期等 |
磁盤 | 狀態(tài)、名稱、磁盤序列號、使用率、可用空間、總磁盤空間、容量預(yù)測、磁盤I/O、磁盤隊列長度、生產(chǎn)廠家、部件號、介質(zhì)類型等 |
網(wǎng)卡 | 狀態(tài)、序列號、生產(chǎn)廠家等 |
網(wǎng)絡(luò)接口 | 狀態(tài)、輸入/輸出流量、輸入/輸出帶寬、輸入/輸出速率、丟包率、利用率、誤碼率等 |
進(jìn)程 | 狀態(tài)、ID、名稱、路徑、參數(shù)、系統(tǒng)進(jìn)程數(shù)、運行進(jìn)程數(shù)、空閑進(jìn)程數(shù)、CPU占用率 內(nèi)存占用率等 |
主板 | 型號、序列號、固件版本、電壓、溫度等 |
通信端口 | 狀態(tài) |
服務(wù) | 狀態(tài)、名稱、數(shù)量等 |
溫度 | 健康狀態(tài)、運行狀態(tài)、實時溫度值等 |
電源 | 健康狀態(tài)、運行狀態(tài)、電源功率、槽位號、序列號、冗余狀態(tài)、型號、槽位號、固件版本、工作模式、輸入模式等 |
風(fēng)扇 | 健康狀態(tài)、運行狀態(tài)、轉(zhuǎn)速、消耗功率、風(fēng)扇利用率等 |
文件/文件夾 | 狀態(tài)、大小、類型、修改、數(shù)量等 |
1.3.服務(wù)器品牌型號及指標(biāo)擴展
? ? ? ? 方案采取用戶自定義擴展服務(wù)器品牌、類型及其資源的方式,賦予用戶強大的適配能力,最大可能地實現(xiàn)對不同時期、不同品牌、不同型號服務(wù)器的管控。
? ? ? ? 支持自定義服務(wù)器類型、服務(wù)器資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等,提供配置服務(wù)器模板的功能,允許用戶自定義服務(wù)器真實面板圖。
第2章 服務(wù)器實時監(jiān)控
? ? ? ? 服務(wù)器承載大量業(yè)務(wù),若出現(xiàn)故障則極有可能導(dǎo)致業(yè)務(wù)的中斷和數(shù)據(jù)的丟失,因此需要對服務(wù)器的各項性能指標(biāo)進(jìn)行實時監(jiān)控,發(fā)現(xiàn)性能瓶頸和潛在的故障風(fēng)險。
2.1.服務(wù)器圖像化監(jiān)控
2.1.1.自動發(fā)現(xiàn)服務(wù)器及其他設(shè)備
? ? ? ? 在網(wǎng)絡(luò)可達(dá)范圍內(nèi),僅需輸入IP范圍即可自動發(fā)現(xiàn)網(wǎng)絡(luò)中的服務(wù)器及其他設(shè)備,識別其廠商、型號,生成資源邏輯拓?fù)浠蛘鎸嵜姘鍒D,匹配故障與性能監(jiān)視器,并自動發(fā)現(xiàn)服務(wù)器與交換機、服務(wù)器與其他設(shè)備直接的連接關(guān)系,生成可視化鏈路,通過可視拓?fù)鋭討B(tài)展示服務(wù)器、鏈路的運行狀態(tài)。
2.1.2.自動生成網(wǎng)絡(luò)拓?fù)?/strong>
? ? ? ? 方案以圖形化方式系統(tǒng)展現(xiàn)網(wǎng)絡(luò)拓?fù)潢P(guān)系,支持樹形結(jié)構(gòu)和平面結(jié)構(gòu)的聯(lián)動展示,也可以按片區(qū)、按地域、按層級等多種布局方式劃分網(wǎng)絡(luò),在拓?fù)渲幸圆煌伾珗D標(biāo)、光效展現(xiàn)服務(wù)器的實時狀態(tài)信息。
2.1.3.可視化展示服務(wù)器資源
? ? ? ? 在拓?fù)鋱D的基礎(chǔ)上,進(jìn)一步展示服務(wù)器的細(xì)節(jié),可以是其物理組件,也可以是用戶定義的其他監(jiān)控對象。提供資源邏輯拓?fù)?,以圖形方式展示內(nèi)存、CPU、磁盤、進(jìn)程、服務(wù)、電源、風(fēng)扇、溫度等資源信息,對服務(wù)器進(jìn)行細(xì)化監(jiān)控,實時告警,對設(shè)備進(jìn)行事前管理,降低故障發(fā)生率。
2.1.4.智能監(jiān)控鏈路
? ? ? ? 智能識別鏈路關(guān)系,支持自動發(fā)現(xiàn)或手動編輯服務(wù)器之間、服務(wù)器和其他設(shè)備之間的鏈路、運行狀態(tài)、流量性能數(shù)據(jù)。通過直觀的拓?fù)鋱D幫助網(wǎng)絡(luò)管理人員實時了解網(wǎng)絡(luò)鏈接情況,配置情況及服務(wù)器運行情況。
? ? ? ? 支持展示上傳流量、下載流量、狀態(tài)、接收/發(fā)送數(shù)據(jù)包量、上傳下載丟包率、包錯誤率、上傳下載帶寬使用率、連通狀態(tài)、管理狀態(tài)等。
2.2.服務(wù)器性能態(tài)勢感知
? ? ? ? 實時監(jiān)測并感知服務(wù)器的相關(guān)性能情況,多維度處理、分析、展示服務(wù)器性能態(tài)勢,實現(xiàn)“可觀、可管、可控”。
2.2.1.全面監(jiān)控服務(wù)器性能
? ? ? ? 全面采集服務(wù)器的各項性能指標(biāo),如CPU使用率、內(nèi)存使用率、磁盤空間、網(wǎng)絡(luò)帶寬、風(fēng)扇狀態(tài)、電源狀態(tài)等,并可按照時間范圍、資源類型、性能指標(biāo)等多種維度,以圖形、表格等多種形式進(jìn)行展示。
2.2.2.實時、歷史性能分析
? ? ? ? 對實時、歷史性能數(shù)據(jù)進(jìn)行統(tǒng)計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標(biāo)變化。運維人員能隨時把握服務(wù)器性能變化態(tài)勢,防患于未然。
2.2.3.多服務(wù)器性能對比
? ? ? ? 支持選擇多臺服務(wù)器進(jìn)行同維度性能數(shù)據(jù)分析,提供可視化性能對比視圖,通過性能對比分析服務(wù)器性能變化趨勢。
2.2.4.磁盤容量預(yù)測
? ? ? ? 通過智能算法分析磁盤容量歷史數(shù)據(jù),生成符合未來趨勢的模擬數(shù)據(jù)和容量預(yù)測,并根據(jù)容量可使用時間進(jìn)行自定義預(yù)警,優(yōu)化資源規(guī)劃。
2.3.日志與事件管理
? ? ? ? 接收服務(wù)器主動發(fā)送如服務(wù)器訪問量、用戶登錄、用戶注銷、登錄失敗、操作系統(tǒng)啟動、操作系統(tǒng)關(guān)鍵性停止、系統(tǒng)啟動/重新啟動、傳感器故障、傳感器恢復(fù)等事件與日志消息,集中存儲、解析處理后,將錯誤、告警、攻擊行為等異常信息及時地通知用戶。通過統(tǒng)一界面集中管理事件與日志,提高其完整性和可追溯性,幫助用戶快速定位問題并采取相應(yīng)的解決措施。
2.4.故障告警與智能收斂
? ? ? ? 搭載多種告警機制,自定義配置告警閾值,具備主動的故障監(jiān)控功能,從眾多的事件和狀態(tài)中,系統(tǒng)地將零散的狀態(tài)信息,總結(jié)成為當(dāng)前狀態(tài),并對異常狀態(tài)進(jìn)行告警,第一時間獲取準(zhǔn)確的告警信息,快速標(biāo)示已執(zhí)行操作的告警,迅速定位產(chǎn)生告警的服務(wù)器,提升告警處理效率,極大降低因服務(wù)器故障帶來的損失。
? ? ? ? 告警管理采用自動去重、風(fēng)暴抑制、關(guān)聯(lián)聚合、維護(hù)期時間屏蔽、依賴屏蔽等多種智能告降噪機制,通過AI算法,對各類告警進(jìn)行自動壓縮收斂,減少90%的無效告警,抑制告警風(fēng)暴,有效避免誤報和漏報,直達(dá)故障根因。
2.5.服務(wù)器狀態(tài)自動巡檢
? ? ? ? 可自定義巡檢策略,預(yù)設(shè)執(zhí)行時間進(jìn)行自動化巡檢,定期巡查服務(wù)器實時運行狀態(tài),并向指定郵箱發(fā)送結(jié)果報告,把握網(wǎng)絡(luò)運行中的易出現(xiàn)問題的環(huán)節(jié),做到預(yù)防為先??勺孕羞x擇要統(tǒng)計的網(wǎng)絡(luò)范圍、服務(wù)器類型、資源類型、服務(wù)器支撐的業(yè)務(wù)、服務(wù)器關(guān)聯(lián)的鏈路等生成巡檢報表。
2.6.服務(wù)器流量透視
? ? ? ? 提供端到端的流量透視能力,從服務(wù)器主機、接口到服務(wù)、應(yīng)用、會話等層級的實時流量監(jiān)控和歷史流量分析,識別帶寬消耗較大的應(yīng)用程序、服務(wù)、協(xié)議,避免網(wǎng)絡(luò)容量過載,監(jiān)控網(wǎng)絡(luò)攻擊和惡意流量,提升最終用戶網(wǎng)絡(luò)體驗。
第3章?服務(wù)器承載的業(yè)務(wù)狀態(tài)撥測
? ? ? ? 針對服務(wù)器支撐的業(yè)務(wù)應(yīng)用性能與用戶體驗進(jìn)行檢測分析,無需安裝插件就可以為用戶提供開箱即用的企業(yè)級主動撥測式業(yè)務(wù)監(jiān)測。以拓?fù)湫问秸故久總€業(yè)務(wù)流程中的每臺相關(guān)設(shè)備,支持設(shè)備邏輯視圖和面板視圖,展示業(yè)務(wù)流程中涉及的所有的設(shè)備之間的鏈路關(guān)系,流程方向。
? ? ? ? 構(gòu)建包含各業(yè)務(wù)整體流程的調(diào)用依賴關(guān)系圖譜,展示業(yè)務(wù)部署中網(wǎng)絡(luò)設(shè)備間多維度關(guān)系拓?fù)洹臉I(yè)務(wù)的前臺受理到真正完成的整個業(yè)務(wù)流程所依賴的業(yè)務(wù)應(yīng)用、服務(wù)器、中間件、數(shù)據(jù)庫、操作系統(tǒng)等進(jìn)行實時監(jiān)控分析,呈現(xiàn)業(yè)務(wù)各節(jié)點的實時運行狀態(tài),包括用戶體驗、節(jié)點可用性、節(jié)點負(fù)載等狀態(tài)信息,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運維實現(xiàn)故障自愈。
第4章 統(tǒng)計報表和大屏展示
? ? ? ? 通過定義服務(wù)器相關(guān)數(shù)據(jù)報表的能力,實現(xiàn)服務(wù)器性能和狀態(tài)的靈活展現(xiàn)和統(tǒng)計分析,通過同比、環(huán)比、TOPN等分析方式并結(jié)合報表排序規(guī)則、過濾規(guī)則等能力,周期自動生成報表,幫助用戶更好地了解服務(wù)器的各項負(fù)載情況和運行態(tài)勢,為優(yōu)化資源配置和性能調(diào)整提供依據(jù)。
? ? ? ? 通過大屏展示核心運維數(shù)據(jù)態(tài)勢,細(xì)粒度可達(dá)網(wǎng)絡(luò)中服務(wù)器、服務(wù)器資源和鏈路。所有的網(wǎng)絡(luò)故障與性能瓶頸都一目了然地呈現(xiàn),大大降低了管理成本,同時也提高了運維人員處理故障的能力,節(jié)省的故障處理時間,為運維人員管理網(wǎng)絡(luò)提供了可靠的保證。
第5章 服務(wù)器遠(yuǎn)程控制和編排式配置
? ? ? ? 方案提供服務(wù)器遠(yuǎn)程控制的能力,采用“監(jiān)控+運維+控制”的方式,將不同類型、不同型號、不同廠商的服務(wù)器統(tǒng)一納入控制,集中管理。通過智能算法對服務(wù)器的資源配置進(jìn)行智能動態(tài)調(diào)整,以便更高效地利用資源,降低能耗。
5.1.服務(wù)器遠(yuǎn)程配置執(zhí)行
? ? ? ? 將周期性、重復(fù)性、規(guī)律性的大量日常服務(wù)器配置工作,如批量分發(fā)配置文件、一鍵開關(guān)機、進(jìn)程管理、應(yīng)用管理、配置SSL證書、限制遠(yuǎn)程訪問、定期備份服務(wù)器數(shù)據(jù)等,轉(zhuǎn)化為依托于平臺的自動執(zhí)行工作流,實現(xiàn)對服務(wù)器的批量、定時等自動化控制。
5.2.故障自愈以服務(wù)器磁盤爆滿自動清理為例
? ? ? ? 以服務(wù)器實時監(jiān)控和日志、事件管理為基礎(chǔ),動態(tài)發(fā)現(xiàn)網(wǎng)絡(luò)故障,智能判斷告警類型及級別,利用自動化故障診斷和修復(fù)能力,實現(xiàn)常規(guī)故障自動處置,特殊告警觸發(fā)升級與工單,最終實現(xiàn)故障恢復(fù),減少人工干預(yù),提高運維效率。
? ? ? ? 下面以服務(wù)器磁盤爆滿自動清理為例,介紹如何通過智和網(wǎng)管平臺實現(xiàn)服務(wù)器故障自愈。
效果要求:當(dāng)服務(wù)器磁盤使用率超過90%時,觸發(fā)自動清理策略,釋放磁盤空間。
第一步:將需要管理的服務(wù)器納入平臺進(jìn)行監(jiān)控,并將監(jiān)視器設(shè)置為磁盤使用率超過90%進(jìn)行嚴(yán)重級別告警。
第二步:進(jìn)入安管模塊的運維編排菜單,創(chuàng)建磁盤爆滿自動清理策略。根據(jù)真實排障過程,通過進(jìn)行策略節(jié)點拖拽編排的方式規(guī)劃自愈流程。
第三步:配置觸發(fā)方式。方式支持通過告警觸發(fā)和通過時間觸發(fā)兩種方式進(jìn)行,為實現(xiàn)故障自愈的效果,我們選擇通過匹配告警的方式觸發(fā)策略。
? ? ? ? 編排流程配置完成后,設(shè)備出現(xiàn)對應(yīng)的嚴(yán)重級別告警后,立即觸發(fā)磁盤清理策略,自動執(zhí)行編排內(nèi)的操作,對故障進(jìn)行校驗和處置。并在執(zhí)行過程中,對每一步處置操作進(jìn)行記錄形成日志,確保有跡可循。
5.3.配置備份、對比與恢復(fù)
? ? ? ? 支持配置文件批量備份、下載、周期性備份、查看等,對服務(wù)器的多個備份文件進(jìn)行對比。定期自動對服務(wù)器配置進(jìn)行巡檢備份,并可進(jìn)行對比分析,為用戶管理網(wǎng)絡(luò)做出合理的建議提供數(shù)據(jù)支撐,支持進(jìn)行已備份配置間的對比分析和針對性的配置恢復(fù)。
第6章 服務(wù)器資產(chǎn)CMDB管理
? ? ? ? 通過構(gòu)建服務(wù)器資產(chǎn)數(shù)據(jù)庫,將服務(wù)器的信息包括資產(chǎn)編號、資產(chǎn)名稱、品牌型號、來源、購買日期、硬盤容量、處理器、內(nèi)存容量、機箱規(guī)格、負(fù)責(zé)人等信息以及維保到期時間、維保單位等維保信息統(tǒng)一管理。
? ? ? ? 動態(tài)感知納入監(jiān)控的服務(wù)器運行狀態(tài),并以圖譜的方式呈現(xiàn)服務(wù)器與其他資產(chǎn)、配品配件、機房、機柜、網(wǎng)絡(luò)鏈路、使用人等靜態(tài)關(guān)聯(lián)關(guān)系。
第7章 服務(wù)器運維工作全面無紙化
? ? ? ? 結(jié)合服務(wù)器運維工作,如服務(wù)器采購、維修、更換等業(yè)務(wù)需求場景,自定義工單模板內(nèi)的字段,并對字段排序進(jìn)行調(diào)整,使工單根據(jù)業(yè)務(wù)的不同更加貼合用戶實際使用情況。將服務(wù)器運維相關(guān)工作全面轉(zhuǎn)為無紙化辦公,簡化運維工作流程,在每個處理流程的節(jié)點上責(zé)任到人。
第8章 應(yīng)用價值
? ? ? ? 北京智和信通服務(wù)器監(jiān)控運維方案為用戶提供了一個全面而高效的工具,以管理其IT基礎(chǔ)架構(gòu),幫助用戶日常運維工作效率大幅提升。通過數(shù)據(jù)分析報告用戶可以深入了解服務(wù)器的運行狀態(tài)和系統(tǒng)性能,從而最大化地挖掘和利用服務(wù)器的價值,避免資源不必要的浪費。
? ? ? ? 通過此方案的實施實現(xiàn)對服務(wù)器的實時監(jiān)控,運維團隊能夠及時獲取硬件狀態(tài)、系統(tǒng)性能和網(wǎng)絡(luò)連接等關(guān)鍵信息,整體運維工作從傳統(tǒng)的被動響應(yīng)模式轉(zhuǎn)變?yōu)榉e極主動的預(yù)防策略。一旦系統(tǒng)檢測到異常信息,便會立即觸發(fā)告警機制,并結(jié)合自動化運維能力,快速實現(xiàn)故障自愈。這種轉(zhuǎn)變不僅顯著減少了因系統(tǒng)故障導(dǎo)致的宕機時間,也極大地降低了上層業(yè)務(wù)中斷的風(fēng)險。通過保障企業(yè)的業(yè)務(wù)連續(xù)性,為用戶避免因業(yè)務(wù)中斷而可能造成的經(jīng)濟損失。
? ? ? ? 此外,方案還具備強大的擴展性和靈活性,能夠輕松應(yīng)對企業(yè)不斷變化的服務(wù)器管控需求。隨著企業(yè)業(yè)務(wù)的快速發(fā)展,服務(wù)器數(shù)量和規(guī)模也會不斷增長,而此方案可以通過簡單的配置和擴展,保持對服務(wù)器的持續(xù)監(jiān)控。
? ? ? ? 同時,方案還提供了豐富的自定義功能,用戶可以根據(jù)自己的實際需求和業(yè)務(wù)特點,定制個性化的監(jiān)控指標(biāo)、告警規(guī)則、報告內(nèi)容等,從而更好地滿足差異化運維需求。這種靈活性使得方案能夠廣泛應(yīng)用于不同行業(yè)、不同規(guī)模的用戶,幫助用戶實現(xiàn)更加高效、可靠的服務(wù)器監(jiān)控運維管理。
? ? ? ? 總體而言,北京智和信通服務(wù)器監(jiān)控運維方案不僅提供了全面的服務(wù)器監(jiān)控功能,還具備強大的自動化運維和故障自愈能力,能夠幫助用戶實現(xiàn)更加高效、可靠的服務(wù)器運維管理。