近年來,某銀行總行中心業(yè)務持續(xù)發(fā)展,各項業(yè)務數(shù)量與復雜度復雜的逐年上升,信息系統(tǒng)數(shù)量增加且規(guī)模不斷擴大,作為支撐的網(wǎng)絡設備數(shù)量逐漸增長、類型不斷增加。為保障業(yè)務連續(xù)性,其上線了各類運管工具,然而,現(xiàn)有運管工具多,相互獨立,缺少關聯(lián),數(shù)據(jù)分散,導致工具聯(lián)動弱、監(jiān)控處置慢、運維效率低,且部分系統(tǒng)易用性差難以靈活擴展、配置。因此,急需一款集中運維監(jiān)控平臺,替換老舊監(jiān)控平臺,形成統(tǒng)一的運維管理,實現(xiàn)統(tǒng)一監(jiān)控、統(tǒng)一告警、統(tǒng)一分析。
項目現(xiàn)狀
某銀行總行中心目前因設備類型與品牌型號復雜,采用了多種運管工具進行管理,工具相互獨立,難以滿足其日益豐富的運維需求?,F(xiàn)急促統(tǒng)一監(jiān)控運維平臺對設備進行集中監(jiān)控,打通數(shù)據(jù)孤島,實現(xiàn)跨團隊數(shù)據(jù)共享及宏觀統(tǒng)一監(jiān)控。
設備類型:Aix、Windows Server、Centos等操作系統(tǒng);DB2、MySQL、Gbase等數(shù)據(jù)庫;nginx、WAS、MQ等中間庫;浪潮、華三、曙光等品牌服務器;浪潮、IBM等小型機;docker容器;存儲設備、安全設備、網(wǎng)絡設備等。
設備數(shù)量:1600+臺設備。
部署需求:兩地三中心部署。
功能需求:
智和信通方案
經(jīng)過與某銀行總行中心運維團隊的深入交流和詳細需求調研,智和信通通過分布式部署的方式支撐其兩地三中心架構,在北京中心、北京災備中心、某地分中心分別部署智和網(wǎng)管平臺,同時提供容災機制,任一中心出現(xiàn)問題可以無縫被其他中心接管。最終實現(xiàn),運維數(shù)據(jù)全量同步,在任意中心均可查看全部數(shù)據(jù)的同時,各中心可分別管理各自下屬的設備,北京中心可以對全部設備進行管理、查看。
兼容信創(chuàng)國產(chǎn)生態(tài),產(chǎn)品安全可控
立足于北京智和信通10年的國產(chǎn)融合經(jīng)驗,智和信通全部產(chǎn)品與國產(chǎn)軟硬件產(chǎn)品深度適配,涉及的產(chǎn)品與模塊,均由北京智和信通自主研發(fā),從功能模塊、數(shù)據(jù)庫、界面全部基于統(tǒng)一Java技術平臺和統(tǒng)一數(shù)據(jù)關系模型,不包含任何第三方功能庫。在支撐用戶構建信創(chuàng)環(huán)境的同時,也針對各類信創(chuàng)設備、服務組件等提供相應的運維服務,在降本增效的同時,促進政企用戶業(yè)務創(chuàng)新發(fā)展。
智能發(fā)現(xiàn)技術,一鍵發(fā)現(xiàn)網(wǎng)絡設備
通過智能發(fā)現(xiàn)技術,在智和網(wǎng)管平臺中用戶僅需輸入IP范圍一步操作,即可自動完成網(wǎng)絡設備發(fā)現(xiàn)、設備類型識別、設備鏈路發(fā)現(xiàn)、設備故障和性能采集、鏈路流量和狀態(tài)以及網(wǎng)絡拓撲生成。并且在自動發(fā)現(xiàn)的過程中可以搜索到網(wǎng)絡設備,并識別設備類型和廠商型號,生成設備的面板圖或搜索設備資源,如:板卡、端口、CPU、內(nèi)存、磁盤等,并發(fā)現(xiàn)設備之間的鏈路關系。
自動生產(chǎn)網(wǎng)絡拓撲,網(wǎng)絡架構可觀測
已發(fā)現(xiàn)的設備、資源、鏈路可自動生產(chǎn)網(wǎng)絡拓撲,以圖形方式整體觀測,并以聲光進行告警提醒。實時分析資源當前性能和運行狀態(tài),直觀反映資源的動態(tài)變化對支撐業(yè)務的影響。同時,采取統(tǒng)一數(shù)據(jù)標準,對整體網(wǎng)絡中的IP地址進行梳理和管理,建立IP與MAC對應關系庫,端到端規(guī)劃、部署、管理和監(jiān)控IP地址使用情況。
海量設備集中監(jiān)控,統(tǒng)一管理
集中監(jiān)控中心的各類設備,統(tǒng)一監(jiān)控配置和策略,獲取網(wǎng)絡設備、硬件服務器、存儲設備的性能運行數(shù)據(jù)、日志事件數(shù)據(jù)、流量數(shù)據(jù)等。監(jiān)控策略根據(jù)資源類型的不同,涵蓋狀態(tài)信息、響應時長、使用率、輸出輸入流量、輸入輸出帶寬、時延、命中率、讀寫速度等方方面面。整個監(jiān)控指標體系,支持完全自定義,根據(jù)設備不同應用場景的不同進行差異化配置。
全網(wǎng)告警信息集中處理,告警無延遲
全量匯聚異常告警信息,基于故障模型和AI算法分析故障原因,分析、壓縮、并歸關聯(lián)故障信息,降低故障風暴,秒級定位故障位置,主動出擊快速排障,故障處置全流程展示。根據(jù)各省管理權限及人員排班安排,定義告警通知策略,從系統(tǒng)內(nèi)聲光閃爍到郵件、短信通知,運維人員第一時間獲知告警信息,排障處置責任到人。
全網(wǎng)流量透視,端到端分析流量布局
支持通過Flow流量數(shù)據(jù),提供端到端的流量監(jiān)控能力,從設備、接口、IP、服務、應用、會話、QoS等層級的實時流量監(jiān)控和歷史流量分析,識別帶寬消耗較大的應用程序、服務、協(xié)議或IP地址,避免網(wǎng)絡容量過載,并提升最終網(wǎng)絡體驗。
全景業(yè)務觀測,智能業(yè)務、應用監(jiān)管
智能化、自動化的業(yè)務監(jiān)管方案,支持可量化、可視化的技術手段,全面監(jiān)控IT業(yè)務系統(tǒng)服務的響應性能,幫助用戶準確感知整體業(yè)務的性能和質量狀況。提供業(yè)務拓撲、可用性撥測、調用鏈追蹤、業(yè)務告警、根因定位等能力。
7×24小時不間斷監(jiān)控,運維數(shù)據(jù)大屏展示
智和網(wǎng)管平臺平臺內(nèi)置5種大屏樣式與自定義大屏能力,適配各種應用場景,二十四小時不間斷監(jiān)控,細粒度可達網(wǎng)絡中每個設備、資源和鏈路。所有的網(wǎng)絡故障都一目了然地呈現(xiàn),大大降低了管理成本,同時也提高了運維人員處理故障的能力,節(jié)省的故障處理時間,為運維人員管理網(wǎng)絡提供了可靠的保證。
多維度權限劃分,軟件安全可靠
提供給該中心多角色管理員分權管理網(wǎng)絡能力,角色與地域權限立體化管理,使各種角度的運維人員責權分明。對不同的管理人員分配不同的操作權限,可以對不同的管理人員分配不同的網(wǎng)絡,做到粗、細粒度的權限控制,避免越權管理。同時,針對危險操作,能夠有良好的提示以及提供日志記錄。
二次開發(fā)平臺,具備靈活擴展能力
二次開發(fā)平臺在基礎框架、可重用組件和軟件功能之間保持隔離,既確保了快速定制又不損失組件化、架構化特性,該中心研發(fā)人員可選中API或代碼的形式對平臺進行二次開發(fā),提高研發(fā)效率。同時,智和信通提供全套開發(fā)資料以及完善的培訓服務,該中心可以隨心定制出符合自身需求的運維監(jiān)控功能。
應用價值
通過上線智和網(wǎng)管平臺該中心實現(xiàn)兩地三中心設備集中管理,當出現(xiàn)故障時可進行關聯(lián)分析,通過跨崗位信息聯(lián)動,為運維人員提供更加便捷的故障分析和處置手段,在降低故障發(fā)生概率的同時,在故障發(fā)生后,“早感知、快定位、急止損、優(yōu)改進”,降低影響范圍。為日常運維保障、高層管理決策提供支撐,助力保障業(yè)務連續(xù)性。