網(wǎng)絡運維 設備管控

如何實現(xiàn)網(wǎng)絡安全監(jiān)控運維?

通過自動化運維實現(xiàn)無人值守的故障自愈

通過自動化運維實現(xiàn)無人值守的故障自愈
    馬上咨詢

    ? ? ? ? 故障自愈指實時發(fā)現(xiàn)告警,預診斷分析,自動恢復故障,并打通周邊系統(tǒng)實現(xiàn)故障的快速恢復。通過故障自愈提升企業(yè)網(wǎng)絡系統(tǒng)可用性、降低排障處置人力投入,實現(xiàn)從“人工處置”到“無人值守”的轉(zhuǎn)變。

    ? ? ? ? 針對運維中對故障自愈能力的需求,北京智和信通在實時監(jiān)控告警的基礎上,搭載可視化運維配置模塊,通過賦予用戶自定義編輯故障自愈策略的能力,實現(xiàn)無需針對告警進行手動處置,只需預編排告警處理流程,平臺根據(jù)場景自動觸發(fā),從而做到故障自愈。

    第1章?故障自愈──以(磁盤爆滿自動清理為例)

    ? ? ? ? 對各類設備進行批量、定時、條件觸發(fā)等操作,通過自動化執(zhí)行實現(xiàn)在網(wǎng)絡、設備出現(xiàn)故障時的自動排障和自愈,釋放運維人力。下面以磁盤爆滿自動清理為例,介紹如何通過智和網(wǎng)管平臺實現(xiàn)故障自愈。

    ? ? ? ? 效果要求:當服務器磁盤使用率超過90%時,觸發(fā)自動清理策略,釋放磁盤空間。

    ? ? ? ? 第一步:將需要管理的服務器納入平臺進行監(jiān)控,并將監(jiān)視器設置為磁盤使用率超過90%進行嚴重告警。

    ? ? ? ? 第二步:進入安管模塊的運維編排菜單,創(chuàng)建磁盤爆滿自動清理策略。根據(jù)真實排障過程,通過進行策略節(jié)點拖拽編排的方式規(guī)劃自愈流程。


    ? ? ? ? 第三步:配置觸發(fā)方式。方式支持通過告警觸發(fā)和通過時間觸發(fā)兩種方式進行,為實現(xiàn)故障自愈的效果,我們選擇通過匹配告警的方式觸發(fā)策略。


    ? ? ? ? 編排流程配置完成后,設備出現(xiàn)對應的嚴重級別告警后,立即觸發(fā)磁盤清理策略,自動執(zhí)行編排內(nèi)的操作,對故障進行校驗和處置。并在執(zhí)行過程中,對每一步處置操作進行記錄形成日志,確保有跡可循。

    第2章?自定義應急處置,實現(xiàn)多場景下故障自愈

    ? ? ? ? 在故障自愈方案中,核心是精確定位告警并匹配到適宜用戶應用場景的故障自愈策略。一個符合用戶需求的自愈策略,將為用戶節(jié)約80%的故障處理時間。

    ? ? ? ? 因此,北京智和信通提供從實時監(jiān)控異常狀態(tài)到告警收斂降噪、定位故障根因的高精確告警方案,并通過可視化編排工具,支持以拖拽的方式快速簡單地完成作業(yè)流程的配置,將復雜的運維工作和任務轉(zhuǎn)變?yōu)橐恢碌?,可復用的、可度量和有效的工作流,實現(xiàn)自動化運維。


    ? ? ? ? 故障自愈方案的整體流程從獲取精準告警開始,到預診斷分析,判斷告警類型和級別,一般告警觸發(fā)自愈策略,平臺進行自動恢復,嚴重復雜告警則通過告警通知、運維工單等形式通知運維管理人員,進行人工處理,從而實現(xiàn)故障的快速治愈。

    第3章?實時發(fā)現(xiàn)異常,智能故障收斂

    ? ? ? ? 智和信通故障自愈方案一體化集中監(jiān)控各類IT資源,全量匯聚性能、事件、日志、流量等異常告警信息。充分利用積累的有效定障、排障經(jīng)驗,打通綜合監(jiān)控、IP合規(guī)性監(jiān)測、流量透視、自動運維、運維工單等關聯(lián)數(shù)據(jù),實現(xiàn)從告警檢測到排障恢復的全生命周期閉環(huán)管理。

    3.1.實時監(jiān)控,全面匯聚告警信息

    ? ? ? ? 實時監(jiān)控、感知全網(wǎng)性能狀態(tài),通過主動淪陷與日志解析的方式,動態(tài)呈現(xiàn)網(wǎng)絡態(tài)勢,覆蓋網(wǎng)絡中各類軟硬件設備,洞察設備、資源、鏈路性能。采用多種告警機制,自定義配置告警閾值,從眾多的狀態(tài)信息和日志數(shù)據(jù)中,將零散的信息總結(jié)成當前態(tài)勢并進行實時分析,對異常情況進行告警。


    3.2.事件接收,日志匯總分析

    ? ? ? ? 接收Trap、Syslog、Filter Alarm等事件信息和設備日志數(shù)據(jù),集中存儲、解析、提取有效信息,將事件與日志存儲為可統(tǒng)計分析的結(jié)構(gòu)化數(shù)據(jù),呈現(xiàn)日志數(shù)據(jù)價值。根據(jù)對事件、日志數(shù)據(jù)的挖掘與分析,通過配置告警規(guī)則和場景,將異常日志自動轉(zhuǎn)化為告警,定位其影響范圍。


    3.3.告警降噪,快速定位根因

    ? ? ? ? 采用自動去重、風暴抑制、關聯(lián)聚合、維護期時間屏蔽、依賴屏蔽等多種智能告警降噪機制,通過AI算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,直達故障根因。包括事件過濾機制、故障事件上報機制、故障事件呈現(xiàn)過濾、故障事件入庫過濾、故障事件確認等處理機制,有效避免誤報和漏報。


    ? ? ? ? 一步定位到發(fā)生故障的源頭設備,基于混合算法,快速檢索異常問題關聯(lián)涉及的各項維度與影響范圍,快速定位問題邊界。及時進行排障處置,支持以拓撲圖的方式回放歷史告警下的設備告警變化、拓撲圖和鏈路告警變化,支持快進、后退等播放操作,有效地預防更加嚴重的故障發(fā)生。


    第4章?可視化場景編排,提升復雜故障處置能力

    ? ? ? ? 方案具備拖拽式場景編排能力,可以靈活地定制運維場景,自動執(zhí)行編排流程。整體運維操作過程和執(zhí)行結(jié)果均以可視化的方式進行呈現(xiàn)。不限制作業(yè)流程及流程內(nèi)節(jié)點配置數(shù)量,全面滿足不同運維需求,同時支持高性能的多條編排流程并發(fā)執(zhí)行,加快排障處置效率。


    ? ? ? ? 平臺內(nèi)置多種原子運維命令,滿足用戶日常基本運維需求,同時支持用戶配置專屬策略,通過對原子策略的組合復用,實現(xiàn)針對不同運維場景的策略模板,滿足不同設備在不同運維場景下的特有需求。

    ? ? ? ? 通過可視化編排以拖拽的方式快速簡單地完成作業(yè)流程的配置,將復雜的運維工作和任務轉(zhuǎn)變?yōu)橐恢碌?,可復用的、可度量和有效的工作流,實現(xiàn)自動化運維。

    ? ? ? ? 智和信通故障自愈方案通過“監(jiān)控+運維+控制”相結(jié)合的方式,將日常所需的各類故障排查、處置工作以策略模板的形式提供給用戶,確保每個操作安全高效,全面提升告警排障效率。