通過自動化運維實現(xiàn)無人值守的故障自愈

通過自動化運維實現(xiàn)無人值守的故障自愈

? ? ? ? 故障自愈指實時發(fā)現(xiàn)告警,預(yù)診斷分析,自動恢復(fù)故障,并打通周邊系統(tǒng)實現(xiàn)故障的快速恢復(fù)。通過故障自愈提升企業(yè)網(wǎng)絡(luò)系統(tǒng)可用性、降低排障處置人力投入,實現(xiàn)從“人工處置”到“無人值守”的轉(zhuǎn)變。

? ? ? ? 針對運維中對故障自愈能力的需求,北京智和信通在實時監(jiān)控告警的基礎(chǔ)上,搭載可視化運維配置模塊,通過賦予用戶自定義編輯故障自愈策略的能力,實現(xiàn)無需針對告警進(jìn)行手動處置,只需預(yù)編排告警處理流程,平臺根據(jù)場景自動觸發(fā),從而做到故障自愈。

第1章?故障自愈──以(磁盤爆滿自動清理為例)

? ? ? ? 對各類設(shè)備進(jìn)行批量、定時、條件觸發(fā)等操作,通過自動化執(zhí)行實現(xiàn)在網(wǎng)絡(luò)、設(shè)備出現(xiàn)故障時的自動排障和自愈,釋放運維人力。下面以磁盤爆滿自動清理為例,介紹如何通過智和網(wǎng)管平臺實現(xiàn)故障自愈。

? ? ? ? 效果要求:當(dāng)服務(wù)器磁盤使用率超過90%時,觸發(fā)自動清理策略,釋放磁盤空間。

? ? ? ? 第一步:將需要管理的服務(wù)器納入平臺進(jìn)行監(jiān)控,并將監(jiān)視器設(shè)置為磁盤使用率超過90%進(jìn)行嚴(yán)重告警。

? ? ? ? 第二步:進(jìn)入安管模塊的運維編排菜單,創(chuàng)建磁盤爆滿自動清理策略。根據(jù)真實排障過程,通過進(jìn)行策略節(jié)點拖拽編排的方式規(guī)劃自愈流程。


? ? ? ? 第三步:配置觸發(fā)方式。方式支持通過告警觸發(fā)和通過時間觸發(fā)兩種方式進(jìn)行,為實現(xiàn)故障自愈的效果,我們選擇通過匹配告警的方式觸發(fā)策略。


? ? ? ? 編排流程配置完成后,設(shè)備出現(xiàn)對應(yīng)的嚴(yán)重級別告警后,立即觸發(fā)磁盤清理策略,自動執(zhí)行編排內(nèi)的操作,對故障進(jìn)行校驗和處置。并在執(zhí)行過程中,對每一步處置操作進(jìn)行記錄形成日志,確保有跡可循。

第2章?自定義應(yīng)急處置,實現(xiàn)多場景下故障自愈

? ? ? ? 在故障自愈方案中,核心是精確定位告警并匹配到適宜用戶應(yīng)用場景的故障自愈策略。一個符合用戶需求的自愈策略,將為用戶節(jié)約80%的故障處理時間。

? ? ? ? 因此,北京智和信通提供從實時監(jiān)控異常狀態(tài)到告警收斂降噪、定位故障根因的高精確告警方案,并通過可視化編排工具,支持以拖拽的方式快速簡單地完成作業(yè)流程的配置,將復(fù)雜的運維工作和任務(wù)轉(zhuǎn)變?yōu)橐恢碌?,可?fù)用的、可度量和有效的工作流,實現(xiàn)自動化運維。


? ? ? ? 故障自愈方案的整體流程從獲取精準(zhǔn)告警開始,到預(yù)診斷分析,判斷告警類型和級別,一般告警觸發(fā)自愈策略,平臺進(jìn)行自動恢復(fù),嚴(yán)重復(fù)雜告警則通過告警通知、運維工單等形式通知運維管理人員,進(jìn)行人工處理,從而實現(xiàn)故障的快速治愈。

第3章?實時發(fā)現(xiàn)異常,智能故障收斂

? ? ? ? 智和信通故障自愈方案一體化集中監(jiān)控各類IT資源,全量匯聚性能、事件、日志、流量等異常告警信息。充分利用積累的有效定障、排障經(jīng)驗,打通綜合監(jiān)控、IP合規(guī)性監(jiān)測、流量透視、自動運維、運維工單等關(guān)聯(lián)數(shù)據(jù),實現(xiàn)從告警檢測到排障恢復(fù)的全生命周期閉環(huán)管理。

3.1.實時監(jiān)控,全面匯聚告警信息

? ? ? ? 實時監(jiān)控、感知全網(wǎng)性能狀態(tài),通過主動淪陷與日志解析的方式,動態(tài)呈現(xiàn)網(wǎng)絡(luò)態(tài)勢,覆蓋網(wǎng)絡(luò)中各類軟硬件設(shè)備,洞察設(shè)備、資源、鏈路性能。采用多種告警機(jī)制,自定義配置告警閾值,從眾多的狀態(tài)信息和日志數(shù)據(jù)中,將零散的信息總結(jié)成當(dāng)前態(tài)勢并進(jìn)行實時分析,對異常情況進(jìn)行告警。


3.2.事件接收,日志匯總分析

? ? ? ? 接收Trap、Syslog、Filter Alarm等事件信息和設(shè)備日志數(shù)據(jù),集中存儲、解析、提取有效信息,將事件與日志存儲為可統(tǒng)計分析的結(jié)構(gòu)化數(shù)據(jù),呈現(xiàn)日志數(shù)據(jù)價值。根據(jù)對事件、日志數(shù)據(jù)的挖掘與分析,通過配置告警規(guī)則和場景,將異常日志自動轉(zhuǎn)化為告警,定位其影響范圍。


3.3.告警降噪,快速定位根因

? ? ? ? 采用自動去重、風(fēng)暴抑制、關(guān)聯(lián)聚合、維護(hù)期時間屏蔽、依賴屏蔽等多種智能告警降噪機(jī)制,通過AI算法,對各類告警進(jìn)行自動壓縮收斂,減少90%的無效告警,抑制告警風(fēng)暴,直達(dá)故障根因。包括事件過濾機(jī)制、故障事件上報機(jī)制、故障事件呈現(xiàn)過濾、故障事件入庫過濾、故障事件確認(rèn)等處理機(jī)制,有效避免誤報和漏報。


? ? ? ? 一步定位到發(fā)生故障的源頭設(shè)備,基于混合算法,快速檢索異常問題關(guān)聯(lián)涉及的各項維度與影響范圍,快速定位問題邊界。及時進(jìn)行排障處置,支持以拓?fù)鋱D的方式回放歷史告警下的設(shè)備告警變化、拓?fù)鋱D和鏈路告警變化,支持快進(jìn)、后退等播放操作,有效地預(yù)防更加嚴(yán)重的故障發(fā)生。


第4章?可視化場景編排,提升復(fù)雜故障處置能力

? ? ? ? 方案具備拖拽式場景編排能力,可以靈活地定制運維場景,自動執(zhí)行編排流程。整體運維操作過程和執(zhí)行結(jié)果均以可視化的方式進(jìn)行呈現(xiàn)。不限制作業(yè)流程及流程內(nèi)節(jié)點配置數(shù)量,全面滿足不同運維需求,同時支持高性能的多條編排流程并發(fā)執(zhí)行,加快排障處置效率。


? ? ? ? 平臺內(nèi)置多種原子運維命令,滿足用戶日?;具\維需求,同時支持用戶配置專屬策略,通過對原子策略的組合復(fù)用,實現(xiàn)針對不同運維場景的策略模板,滿足不同設(shè)備在不同運維場景下的特有需求。

? ? ? ? 通過可視化編排以拖拽的方式快速簡單地完成作業(yè)流程的配置,將復(fù)雜的運維工作和任務(wù)轉(zhuǎn)變?yōu)橐恢碌?,可?fù)用的、可度量和有效的工作流,實現(xiàn)自動化運維。

? ? ? ? 智和信通故障自愈方案通過“監(jiān)控+運維+控制”相結(jié)合的方式,將日常所需的各類故障排查、處置工作以策略模板的形式提供給用戶,確保每個操作安全高效,全面提升告警排障效率。