關(guān)注用戶(hù)需求
? 提供專(zhuān)屬解決方案

某鐵路信息中心運(yùn)營(yíng)監(jiān)測(cè)項(xiàng)目

智和信通在深入理解某鐵路信息中心的運(yùn)維需求后,提出了一系列針對(duì)性的解決方案,旨在提升其監(jiān)控運(yùn)維平臺(tái)的運(yùn)行效率、穩(wěn)定性和智能化水平,并通過(guò)此解決方案的實(shí)施助力信息中心運(yùn)維工作更加高效、穩(wěn)定地進(jìn)行。

? ? ? ? 某鐵路信息中心承擔(dān)大量實(shí)時(shí)監(jiān)測(cè)、例行巡檢和排障維護(hù)等工作,為鞏固信息化建設(shè)成果,提高整體運(yùn)維效果,保障鐵路信息系統(tǒng)穩(wěn)定運(yùn)行,需對(duì)現(xiàn)有網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)進(jìn)行升級(jí)改造。

設(shè)備類(lèi)型:服務(wù)器、交換機(jī)、數(shù)據(jù)庫(kù)、中間件、虛擬機(jī)、磁盤(pán)陣列、應(yīng)用軟件、操作系統(tǒng)、云平臺(tái)等。

設(shè)備品牌:華為、H3C、深信服、MySQL、Oracle、Tomcat、JBoss、RabbitMQ、Nginx、中鐵信安、聯(lián)想、IBM、CentOS、Red Hat、Windows Server等。

功能需求:

  • 實(shí)現(xiàn)數(shù)據(jù)中心與異地機(jī)房?jī)?nèi)不同品牌、型號(hào)的網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)設(shè)備等統(tǒng)一納管;
  • 提供詳細(xì)的設(shè)備監(jiān)控指標(biāo)庫(kù),支持對(duì)不同設(shè)備的CPU、內(nèi)存、磁盤(pán)、網(wǎng)口、溫度等指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控;
  • 提供實(shí)時(shí)的設(shè)備掉線(xiàn)、鏈路斷開(kāi)告警;
  • 自動(dòng)定位故障位置和故障影響范圍,提升排障效率;
  • 具備告警分析管理能力,能夠解決誤報(bào)錯(cuò)報(bào)問(wèn)題,提高告警準(zhǔn)確度,可以通過(guò)多種途徑觸達(dá)告警信息;
  • 提升例行巡檢效率,自動(dòng)化生成巡檢月報(bào)、半年報(bào)、年報(bào)等報(bào)告;
  • 解決現(xiàn)有工具下無(wú)法對(duì)業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫(kù)、中間件的監(jiān)控運(yùn)維難題;
  • 可以對(duì)日志數(shù)據(jù)進(jìn)行梳理、解析,實(shí)現(xiàn)日志數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)展示并將異常轉(zhuǎn)化為告警,解決日志信息復(fù)雜、難管理的問(wèn)題;
  • 解決人工進(jìn)行設(shè)備配置管理工作量大且操作復(fù)雜的問(wèn)題,能夠快捷地對(duì)設(shè)備配置進(jìn)行管理;
  • 實(shí)現(xiàn)運(yùn)維知識(shí)的積累,構(gòu)建運(yùn)維知識(shí)庫(kù)。


智和信通方案

? ? ? ? 智和信通在深入理解某鐵路信息中心的運(yùn)維需求后,提出了一系列針對(duì)性的解決方案,旨在提升其監(jiān)控運(yùn)維平臺(tái)的運(yùn)行效率、穩(wěn)定性和智能化水平,并通過(guò)此解決方案的實(shí)施助力信息中心運(yùn)維工作更加高效、穩(wěn)定地進(jìn)行。


異地設(shè)備統(tǒng)一納管

? ? ? ? 在網(wǎng)絡(luò)可達(dá)范圍內(nèi),僅需輸入IP范圍即可自動(dòng)發(fā)現(xiàn)信息中心和異地機(jī)房中的各類(lèi)設(shè)備,對(duì)設(shè)備進(jìn)行統(tǒng)一納管。

? ? ? ? 識(shí)別其廠(chǎng)商、型號(hào),生成資源邏輯拓?fù)浠蛘鎸?shí)面板圖,匹配故障與性能監(jiān)視器,并自動(dòng)發(fā)現(xiàn)設(shè)備間連接關(guān)系,生成可視化鏈路,通過(guò)可視拓?fù)鋭?dòng)態(tài)展示設(shè)備、鏈路的運(yùn)行狀態(tài)。


豐富且可擴(kuò)展的監(jiān)控指標(biāo)庫(kù)

? ? ? ? 針對(duì)某鐵路信息中心的設(shè)備品牌和型號(hào),在匹配我們標(biāo)準(zhǔn)模型庫(kù)的基礎(chǔ)上,通過(guò)SNMP、IPMI、SSH、Telnet等協(xié)議對(duì)設(shè)備及監(jiān)控指標(biāo)進(jìn)行擴(kuò)展。

  • 對(duì)服務(wù)器的監(jiān)控指標(biāo):服務(wù)器品牌、型號(hào)、序列號(hào)、開(kāi)機(jī)時(shí)長(zhǎng)、CPU使用率、內(nèi)存使用率、硬盤(pán)容量、磁盤(pán)使用率、磁盤(pán)容量預(yù)測(cè)、磁盤(pán)I/O、電源狀態(tài)、溫度信息、風(fēng)扇狀態(tài)、網(wǎng)絡(luò)接口流量帶寬等;
  • 對(duì)交換機(jī)的監(jiān)控指標(biāo):交換機(jī)品牌、型號(hào)、CPU使用率、內(nèi)存使用率、電源狀態(tài)、風(fēng)扇狀態(tài)、端口流量、網(wǎng)口狀態(tài)、網(wǎng)口輸入輸出流量、網(wǎng)口輸入輸出帶寬等;
  • 對(duì)數(shù)據(jù)庫(kù)的監(jiān)控:表空間、鎖數(shù)量、死鎖、并發(fā)數(shù)、連接數(shù)、緩存命中率、讀寫(xiě)次數(shù)、讀寫(xiě)速度、讀命中率、已用空間、最大空間等。
  • 對(duì)中間件的監(jiān)控:線(xiàn)程數(shù)、內(nèi)存占用量、會(huì)話(huà)數(shù)、繁忙線(xiàn)程數(shù)量、請(qǐng)求服務(wù)數(shù)、請(qǐng)求服務(wù)錯(cuò)誤數(shù)、連接數(shù)等。
  • 對(duì)虛擬機(jī)的監(jiān)控:虛擬機(jī)類(lèi)型、CPU使用率、內(nèi)存使用率、磁盤(pán)使用率、磁盤(pán)容量、網(wǎng)口狀態(tài)、網(wǎng)口輸入輸出流量、網(wǎng)口輸入輸出帶寬等。
  • 對(duì)磁盤(pán)陣列的監(jiān)控:CPU使用率、內(nèi)存使用率、磁盤(pán)空間使用率、磁盤(pán)I/O、網(wǎng)口狀態(tài)、接口流量等。
  • 對(duì)操作系統(tǒng)的監(jiān)控:Ping、CPU使用率、內(nèi)存大小、內(nèi)存使用率磁盤(pán)空間、磁盤(pán)使用率、網(wǎng)口狀態(tài)、發(fā)送/接收流量、發(fā)送/接收帶寬、發(fā)送/接收丟包率、發(fā)送/接收錯(cuò)誤包率、廣播包故障率、進(jìn)程狀態(tài)、端口狀態(tài)等。
  • 對(duì)云平臺(tái)的監(jiān)控:磁盤(pán)可用資源、內(nèi)存使用率、CPU使用率、吞吐量等。


全面的告警管理,支持多種通知方式

? ? ? ? 支持多種告警機(jī)制,自定義配置告警閾值,具備主動(dòng)的故障監(jiān)控告警功能,第一時(shí)間獲取準(zhǔn)確的告警信息,快速標(biāo)示已執(zhí)行操作的告警,迅速定位告警設(shè)備,提升告警處理效率,極大降低因網(wǎng)絡(luò)故障帶來(lái)的損失。

? ? ? ? 采用自動(dòng)去重、風(fēng)暴抑制、關(guān)聯(lián)聚合、維護(hù)期時(shí)間屏蔽、依賴(lài)屏蔽等多種智能告警降噪機(jī)制,對(duì)各類(lèi)告警進(jìn)行自動(dòng)壓縮收斂,有效避免誤報(bào)和漏報(bào)。告警發(fā)生后,檢索異常問(wèn)題關(guān)聯(lián)涉及的各項(xiàng)維度與影響范圍,一步定位到發(fā)生故障的源頭設(shè)備,快速定位故障根因。提供界面顏色、提示聲、光效閃爍、信息列表、Email、短信、釘釘、企業(yè)微信、個(gè)人微信等多種通知渠道,告警通知無(wú)延遲。


多維度性能管理,感知網(wǎng)絡(luò)狀態(tài)

? ? ? ? 實(shí)時(shí)監(jiān)測(cè)并感知網(wǎng)絡(luò)性能狀態(tài),全面覆蓋用戶(hù)IT環(huán)境。采集納入監(jiān)控的服務(wù)器、交換機(jī)、數(shù)據(jù)庫(kù)、中間件、虛擬機(jī)、磁盤(pán)陣列、應(yīng)用軟件、操作系統(tǒng)、云平臺(tái)等設(shè)備的性能指標(biāo)。支持對(duì)實(shí)時(shí)、歷史性能數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,通過(guò)曲線(xiàn)圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標(biāo)變化。


設(shè)備事件、日志集中管理

? ? ? ? 全面設(shè)備主動(dòng)發(fā)送的Trap、Syslog、Filter Alarm等事件與日志消息,進(jìn)行集中存儲(chǔ)和解析并提取有效信息,將日志存儲(chǔ)為可統(tǒng)計(jì)分析的結(jié)構(gòu)化數(shù)據(jù)。根據(jù)對(duì)日志數(shù)據(jù)的挖掘與分析,通過(guò)配置告警規(guī)則和場(chǎng)景,將異常日志自動(dòng)轉(zhuǎn)化為告警,定位其影響范圍。


端到端業(yè)務(wù)撥測(cè),構(gòu)建業(yè)務(wù)依賴(lài)關(guān)系圖片

? ? ? ? 針對(duì)用戶(hù)貨運(yùn)系統(tǒng)、調(diào)度系統(tǒng)、車(chē)流服務(wù)等業(yè)務(wù)應(yīng)用性能與用戶(hù)體驗(yàn)進(jìn)行檢測(cè)分析,以拓?fù)湫问秸故久總€(gè)業(yè)務(wù)流程中的每臺(tái)相關(guān)設(shè)備。按照硬件層-虛擬化層-應(yīng)用服務(wù)層-接口層-數(shù)據(jù)層-界面層-用戶(hù)層等建立業(yè)務(wù)依賴(lài)關(guān)系圖譜,并以可視化的方式直觀表達(dá)各層級(jí)對(duì)下層的依賴(lài)關(guān)系,以及同級(jí)之間的依賴(lài)關(guān)系。

? ? ? ? 對(duì)從業(yè)務(wù)的前臺(tái)受理到真正完成的整個(gè)業(yè)務(wù)流程所依賴(lài)的業(yè)務(wù)應(yīng)用、服務(wù)器、中間件、數(shù)據(jù)庫(kù)、操作系統(tǒng)等進(jìn)行實(shí)時(shí)監(jiān)控分析,呈現(xiàn)業(yè)務(wù)各節(jié)點(diǎn)的實(shí)時(shí)運(yùn)行狀態(tài),包括用戶(hù)體驗(yàn)、節(jié)點(diǎn)可用性、節(jié)點(diǎn)負(fù)載等狀態(tài)信息,快速定位業(yè)務(wù)瓶頸根因,并可根據(jù)用戶(hù)自愈策略,觸發(fā)自動(dòng)運(yùn)維實(shí)現(xiàn)故障自愈。


全量自動(dòng)巡檢,解放人力

? ? ? ? 支持自定義巡檢策略,對(duì)設(shè)備的運(yùn)行情況進(jìn)行統(tǒng)計(jì)和報(bào)表生成,并可預(yù)設(shè)時(shí)間巡檢策略執(zhí)行時(shí)間,進(jìn)行自動(dòng)化巡檢,如自動(dòng)每周、每月、每年的固定時(shí)間對(duì)設(shè)備當(dāng)前狀態(tài)進(jìn)行巡檢,可向指定郵箱發(fā)送巡檢結(jié)果報(bào)告,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)設(shè)備的定期檢查,把握網(wǎng)絡(luò)運(yùn)行中的易出現(xiàn)問(wèn)題的環(huán)節(jié),做到預(yù)防為先。


設(shè)備遠(yuǎn)程控制,配置文件備份對(duì)比

? ? ? ? 將周期性、重復(fù)性、規(guī)律性的大量日常服務(wù)器配置工作,如批量分發(fā)配置文件、一鍵開(kāi)關(guān)機(jī)、進(jìn)程管理、應(yīng)用管理、端口限速、ACL配置等,轉(zhuǎn)化為依托于平臺(tái)的自動(dòng)執(zhí)行工作流,實(shí)現(xiàn)對(duì)服務(wù)器的批量、定時(shí)等自動(dòng)化控制。

? ? ? ? 也支持配置文件批量備份、下載、周期性備份、查看等,對(duì)設(shè)備的多個(gè)備份文件進(jìn)行對(duì)比。定期自動(dòng)對(duì)設(shè)備策略進(jìn)行巡檢備份,并可進(jìn)行對(duì)比分析。


構(gòu)建運(yùn)維知識(shí)庫(kù),促進(jìn)知識(shí)共享協(xié)作

? ? ? ? 將各類(lèi)運(yùn)維操作、故障判斷等經(jīng)驗(yàn),轉(zhuǎn)化為存在于平臺(tái)內(nèi)的知識(shí),形成團(tuán)隊(duì)知識(shí)庫(kù)。涵蓋知識(shí)的存儲(chǔ)、檢索、更新、維護(hù)、審核,將運(yùn)維工作中所需的運(yùn)維文檔、操作指南、排障實(shí)踐、處置流程和配置信息等進(jìn)行分類(lèi)管理,所有成員均可進(jìn)行知識(shí)分享,從而加速問(wèn)題解決過(guò)程,促進(jìn)團(tuán)隊(duì)間的知識(shí)共享和協(xié)作,提升整體運(yùn)維效率。


應(yīng)用價(jià)值

? ? ? ? 過(guò)去某鐵路信息中心網(wǎng)絡(luò)監(jiān)測(cè)工作主要依賴(lài)于傳統(tǒng)的巡檢和人工排查方式,在引入智和信通運(yùn)維監(jiān)測(cè)平臺(tái)對(duì)網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)升級(jí)改造后,不僅實(shí)現(xiàn)了對(duì)某鐵路信息中心網(wǎng)絡(luò)的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控,更實(shí)現(xiàn)了全自動(dòng)巡檢和設(shè)備遠(yuǎn)程配置管理,不但有效預(yù)測(cè)并防止?jié)撛诠收系陌l(fā)生,也標(biāo)志著其運(yùn)維方式從傳統(tǒng)的巡檢和人工排查方式向智能化、自動(dòng)化運(yùn)維管理的轉(zhuǎn)變。

? ? ? ? 通過(guò)智和信通運(yùn)維監(jiān)測(cè)平臺(tái)實(shí)時(shí)了解網(wǎng)絡(luò)設(shè)備的運(yùn)行狀況、網(wǎng)絡(luò)流量的變化情況及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的變化等信息,無(wú)需再到現(xiàn)場(chǎng)進(jìn)行巡檢,不僅提高了工作效率,也降低了工作成本。同時(shí),對(duì)信息中心網(wǎng)絡(luò)的運(yùn)行數(shù)據(jù)進(jìn)行深入挖掘和分析,提供更加準(zhǔn)確、全面的故障預(yù)測(cè)和預(yù)警,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的潛在故障點(diǎn),通過(guò)多種報(bào)警方式,如短信、郵件釘釘、微信等,確保用戶(hù)能夠及時(shí)接收到故障信息并采取相應(yīng)的處理措施。避免故障擴(kuò)大化,減少由于設(shè)備故障或網(wǎng)絡(luò)問(wèn)題導(dǎo)致的鐵路事故。除了實(shí)時(shí)監(jiān)控和故障預(yù)警外,智和信通運(yùn)維監(jiān)測(cè)平臺(tái)還提供了豐富的管理功能。通過(guò)平臺(tái)對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行遠(yuǎn)程管理和配置,實(shí)現(xiàn)設(shè)備的自動(dòng)化管理和維護(hù)。


? ? ? ? 在智和信通運(yùn)維監(jiān)測(cè)平臺(tái)的部署和應(yīng)用后,不僅依托于強(qiáng)大的數(shù)據(jù)分析和處理能力,使得用戶(hù)可以更加精準(zhǔn)地定位故障源頭,并采取有效的措施進(jìn)行修復(fù),大大提高了運(yùn)維工作效率,也減少因故障帶來(lái)的損失。同時(shí),通過(guò)自動(dòng)化和智能化的運(yùn)維管理,降低了對(duì)人力資源的依賴(lài)。運(yùn)維人員無(wú)需再頻繁地進(jìn)行手動(dòng)巡檢和排查,而是可以通過(guò)平臺(tái)自動(dòng)生成的報(bào)告和數(shù)據(jù)分析結(jié)果,快速了解網(wǎng)絡(luò)的運(yùn)行狀況,極大地提高了運(yùn)維工作的質(zhì)量和穩(wěn)定性。