某鐵路信息中心運營監(jiān)測項目

某鐵路信息中心運營監(jiān)測項目

? ? ? ? 某鐵路信息中心承擔大量實時監(jiān)測、例行巡檢和排障維護等工作,為鞏固信息化建設(shè)成果,提高整體運維效果,保障鐵路信息系統(tǒng)穩(wěn)定運行,需對現(xiàn)有網(wǎng)絡(luò)監(jiān)測系統(tǒng)進行升級改造。

設(shè)備類型:服務(wù)器、交換機、數(shù)據(jù)庫、中間件、虛擬機、磁盤陣列、應(yīng)用軟件、操作系統(tǒng)、云平臺等。

設(shè)備品牌:華為、H3C、深信服、MySQL、Oracle、Tomcat、JBoss、RabbitMQ、Nginx、中鐵信安、聯(lián)想、IBM、CentOS、Red Hat、Windows Server等。

功能需求:

  • 實現(xiàn)數(shù)據(jù)中心與異地機房內(nèi)不同品牌、型號的網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲設(shè)備等統(tǒng)一納管;
  • 提供詳細的設(shè)備監(jiān)控指標庫,支持對不同設(shè)備的CPU、內(nèi)存、磁盤、網(wǎng)口、溫度等指標進行實時監(jiān)控;
  • 提供實時的設(shè)備掉線、鏈路斷開告警;
  • 自動定位故障位置和故障影響范圍,提升排障效率;
  • 具備告警分析管理能力,能夠解決誤報錯報問題,提高告警準確度,可以通過多種途徑觸達告警信息;
  • 提升例行巡檢效率,自動化生成巡檢月報、半年報、年報等報告;
  • 解決現(xiàn)有工具下無法對業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫、中間件的監(jiān)控運維難題;
  • 可以對日志數(shù)據(jù)進行梳理、解析,實現(xiàn)日志數(shù)據(jù)結(jié)構(gòu)化存儲展示并將異常轉(zhuǎn)化為告警,解決日志信息復(fù)雜、難管理的問題;
  • 解決人工進行設(shè)備配置管理工作量大且操作復(fù)雜的問題,能夠快捷地對設(shè)備配置進行管理;
  • 實現(xiàn)運維知識的積累,構(gòu)建運維知識庫。


智和信通方案

? ? ? ? 智和信通在深入理解某鐵路信息中心的運維需求后,提出了一系列針對性的解決方案,旨在提升其監(jiān)控運維平臺的運行效率、穩(wěn)定性和智能化水平,并通過此解決方案的實施助力信息中心運維工作更加高效、穩(wěn)定地進行。


異地設(shè)備統(tǒng)一納管

? ? ? ? 在網(wǎng)絡(luò)可達范圍內(nèi),僅需輸入IP范圍即可自動發(fā)現(xiàn)信息中心和異地機房中的各類設(shè)備,對設(shè)備進行統(tǒng)一納管。

? ? ? ? 識別其廠商、型號,生成資源邏輯拓撲或真實面板圖,匹配故障與性能監(jiān)視器,并自動發(fā)現(xiàn)設(shè)備間連接關(guān)系,生成可視化鏈路,通過可視拓撲動態(tài)展示設(shè)備、鏈路的運行狀態(tài)。


豐富且可擴展的監(jiān)控指標庫

? ? ? ? 針對某鐵路信息中心的設(shè)備品牌和型號,在匹配我們標準模型庫的基礎(chǔ)上,通過SNMP、IPMI、SSH、Telnet等協(xié)議對設(shè)備及監(jiān)控指標進行擴展。

  • 對服務(wù)器的監(jiān)控指標:服務(wù)器品牌、型號、序列號、開機時長、CPU使用率、內(nèi)存使用率、硬盤容量、磁盤使用率、磁盤容量預(yù)測、磁盤I/O、電源狀態(tài)、溫度信息、風扇狀態(tài)、網(wǎng)絡(luò)接口流量帶寬等;
  • 對交換機的監(jiān)控指標:交換機品牌、型號、CPU使用率、內(nèi)存使用率、電源狀態(tài)、風扇狀態(tài)、端口流量、網(wǎng)口狀態(tài)、網(wǎng)口輸入輸出流量、網(wǎng)口輸入輸出帶寬等;
  • 數(shù)據(jù)庫的監(jiān)控:表空間、鎖數(shù)量、死鎖、并發(fā)數(shù)、連接數(shù)、緩存命中率、讀寫次數(shù)、讀寫速度、讀命中率、已用空間、最大空間等。
  • 中間件的監(jiān)控:線程數(shù)、內(nèi)存占用量、會話數(shù)、繁忙線程數(shù)量、請求服務(wù)數(shù)、請求服務(wù)錯誤數(shù)、連接數(shù)等。
  • 虛擬機的監(jiān)控:虛擬機類型、CPU使用率、內(nèi)存使用率、磁盤使用率、磁盤容量、網(wǎng)口狀態(tài)、網(wǎng)口輸入輸出流量、網(wǎng)口輸入輸出帶寬等。
  • 磁盤陣列的監(jiān)控:CPU使用率、內(nèi)存使用率、磁盤空間使用率、磁盤I/O、網(wǎng)口狀態(tài)、接口流量等。
  • 操作系統(tǒng)的監(jiān)控:Ping、CPU使用率、內(nèi)存大小、內(nèi)存使用率磁盤空間、磁盤使用率、網(wǎng)口狀態(tài)、發(fā)送/接收流量、發(fā)送/接收帶寬、發(fā)送/接收丟包率、發(fā)送/接收錯誤包率、廣播包故障率、進程狀態(tài)、端口狀態(tài)等。
  • 云平臺的監(jiān)控:磁盤可用資源、內(nèi)存使用率、CPU使用率、吞吐量等。


全面的告警管理,支持多種通知方式

? ? ? ? 支持多種告警機制,自定義配置告警閾值,具備主動的故障監(jiān)控告警功能,第一時間獲取準確的告警信息,快速標示已執(zhí)行操作的告警,迅速定位告警設(shè)備,提升告警處理效率,極大降低因網(wǎng)絡(luò)故障帶來的損失。

? ? ? ? 采用自動去重、風暴抑制、關(guān)聯(lián)聚合、維護期時間屏蔽、依賴屏蔽等多種智能告警降噪機制,對各類告警進行自動壓縮收斂,有效避免誤報和漏報。告警發(fā)生后,檢索異常問題關(guān)聯(lián)涉及的各項維度與影響范圍,一步定位到發(fā)生故障的源頭設(shè)備,快速定位故障根因。提供界面顏色、提示聲、光效閃爍、信息列表、Email、短信、釘釘、企業(yè)微信、個人微信等多種通知渠道,告警通知無延遲。


多維度性能管理,感知網(wǎng)絡(luò)狀態(tài)

? ? ? ? 實時監(jiān)測并感知網(wǎng)絡(luò)性能狀態(tài),全面覆蓋用戶IT環(huán)境。采集納入監(jiān)控的服務(wù)器、交換機、數(shù)據(jù)庫、中間件、虛擬機、磁盤陣列、應(yīng)用軟件、操作系統(tǒng)、云平臺等設(shè)備的性能指標。支持對實時、歷史性能數(shù)據(jù)進行統(tǒng)計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。


設(shè)備事件、日志集中管理

? ? ? ? 全面設(shè)備主動發(fā)送的Trap、Syslog、Filter Alarm等事件與日志消息,進行集中存儲和解析并提取有效信息,將日志存儲為可統(tǒng)計分析的結(jié)構(gòu)化數(shù)據(jù)。根據(jù)對日志數(shù)據(jù)的挖掘與分析,通過配置告警規(guī)則和場景,將異常日志自動轉(zhuǎn)化為告警,定位其影響范圍。


端到端業(yè)務(wù)撥測,構(gòu)建業(yè)務(wù)依賴關(guān)系圖片

? ? ? ? 針對用戶貨運系統(tǒng)、調(diào)度系統(tǒng)、車流服務(wù)等業(yè)務(wù)應(yīng)用性能與用戶體驗進行檢測分析,以拓撲形式展示每個業(yè)務(wù)流程中的每臺相關(guān)設(shè)備。按照硬件層-虛擬化層-應(yīng)用服務(wù)層-接口層-數(shù)據(jù)層-界面層-用戶層等建立業(yè)務(wù)依賴關(guān)系圖譜,并以可視化的方式直觀表達各層級對下層的依賴關(guān)系,以及同級之間的依賴關(guān)系。

? ? ? ? 對從業(yè)務(wù)的前臺受理到真正完成的整個業(yè)務(wù)流程所依賴的業(yè)務(wù)應(yīng)用、服務(wù)器、中間件、數(shù)據(jù)庫、操作系統(tǒng)等進行實時監(jiān)控分析,呈現(xiàn)業(yè)務(wù)各節(jié)點的實時運行狀態(tài),包括用戶體驗、節(jié)點可用性、節(jié)點負載等狀態(tài)信息,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運維實現(xiàn)故障自愈。


全量自動巡檢,解放人力

? ? ? ? 支持自定義巡檢策略,對設(shè)備的運行情況進行統(tǒng)計和報表生成,并可預(yù)設(shè)時間巡檢策略執(zhí)行時間,進行自動化巡檢,如自動每周、每月、每年的固定時間對設(shè)備當前狀態(tài)進行巡檢,可向指定郵箱發(fā)送巡檢結(jié)果報告,實現(xiàn)對網(wǎng)絡(luò)設(shè)備的定期檢查,把握網(wǎng)絡(luò)運行中的易出現(xiàn)問題的環(huán)節(jié),做到預(yù)防為先。


設(shè)備遠程控制,配置文件備份對比

? ? ? ? 將周期性、重復(fù)性、規(guī)律性的大量日常服務(wù)器配置工作,如批量分發(fā)配置文件、一鍵開關(guān)機、進程管理、應(yīng)用管理、端口限速、ACL配置等,轉(zhuǎn)化為依托于平臺的自動執(zhí)行工作流,實現(xiàn)對服務(wù)器的批量、定時等自動化控制。

? ? ? ? 也支持配置文件批量備份、下載、周期性備份、查看等,對設(shè)備的多個備份文件進行對比。定期自動對設(shè)備策略進行巡檢備份,并可進行對比分析。


構(gòu)建運維知識庫,促進知識共享協(xié)作

? ? ? ? 將各類運維操作、故障判斷等經(jīng)驗,轉(zhuǎn)化為存在于平臺內(nèi)的知識,形成團隊知識庫。涵蓋知識的存儲、檢索、更新、維護、審核,將運維工作中所需的運維文檔、操作指南、排障實踐、處置流程和配置信息等進行分類管理,所有成員均可進行知識分享,從而加速問題解決過程,促進團隊間的知識共享和協(xié)作,提升整體運維效率。


應(yīng)用價值

? ? ? ? 過去某鐵路信息中心網(wǎng)絡(luò)監(jiān)測工作主要依賴于傳統(tǒng)的巡檢和人工排查方式,在引入智和信通運維監(jiān)測平臺對網(wǎng)絡(luò)監(jiān)測系統(tǒng)升級改造后,不僅實現(xiàn)了對某鐵路信息中心網(wǎng)絡(luò)的運行狀態(tài)進行實時監(jiān)控,更實現(xiàn)了全自動巡檢和設(shè)備遠程配置管理,不但有效預(yù)測并防止?jié)撛诠收系陌l(fā)生,也標志著其運維方式從傳統(tǒng)的巡檢和人工排查方式向智能化、自動化運維管理的轉(zhuǎn)變。

? ? ? ? 通過智和信通運維監(jiān)測平臺實時了解網(wǎng)絡(luò)設(shè)備的運行狀況、網(wǎng)絡(luò)流量的變化情況及網(wǎng)絡(luò)拓撲結(jié)構(gòu)的變化等信息,無需再到現(xiàn)場進行巡檢,不僅提高了工作效率,也降低了工作成本。同時,對信息中心網(wǎng)絡(luò)的運行數(shù)據(jù)進行深入挖掘和分析,提供更加準確、全面的故障預(yù)測和預(yù)警,及時發(fā)現(xiàn)網(wǎng)絡(luò)中的潛在故障點,通過多種報警方式,如短信、郵件釘釘、微信等,確保用戶能夠及時接收到故障信息并采取相應(yīng)的處理措施。避免故障擴大化,減少由于設(shè)備故障或網(wǎng)絡(luò)問題導(dǎo)致的鐵路事故。除了實時監(jiān)控和故障預(yù)警外,智和信通運維監(jiān)測平臺還提供了豐富的管理功能。通過平臺對網(wǎng)絡(luò)設(shè)備進行遠程管理和配置,實現(xiàn)設(shè)備的自動化管理和維護。


? ? ? ? 在智和信通運維監(jiān)測平臺的部署和應(yīng)用后,不僅依托于強大的數(shù)據(jù)分析和處理能力,使得用戶可以更加精準地定位故障源頭,并采取有效的措施進行修復(fù),大大提高了運維工作效率,也減少因故障帶來的損失。同時,通過自動化和智能化的運維管理,降低了對人力資源的依賴。運維人員無需再頻繁地進行手動巡檢和排查,而是可以通過平臺自動生成的報告和數(shù)據(jù)分析結(jié)果,快速了解網(wǎng)絡(luò)的運行狀況,極大地提高了運維工作的質(zhì)量和穩(wěn)定性。