? ? ? ? 隨著云計算、大數(shù)據(jù)技術等發(fā)展,虛擬化的普及不斷深入,已成為現(xiàn)代IT基礎設施建設中不可或缺的組成部分,成為推動企業(yè)數(shù)字化轉型的關鍵力量。虛擬化的應用在降低軟硬件成本和復雜性的同時,如何保障虛擬環(huán)境的高效運行,也給運維人員帶來了更大的挑戰(zhàn)。
? ? ? ? 北京智和信通虛擬化監(jiān)控運維方案通過對虛擬化環(huán)境的實時監(jiān)控和深入管理,提高對虛擬化故障的感知、分析、解決能力,保障其性能高可用和環(huán)境的穩(wěn)定。
第1章?靈活的虛擬化監(jiān)控方式
? ? ? ? 方案提供兩種方式對虛擬機進行監(jiān)控,一種是作為宿主機的虛擬機資源進行監(jiān)控,另一種是將其作為真實主機(操作系統(tǒng))進行監(jiān)控。兩種監(jiān)控方式均通過主動輪詢和日志解析的方式監(jiān)測虛擬機的常見性能,不同方式的監(jiān)控范圍和內(nèi)容有所差異。
1.1.作為宿主機的虛擬機資源監(jiān)控
? ? ? ? 對宿主機可實現(xiàn)如Ping服務成功率、Ping平均響應時間、CPU使用率、內(nèi)存使用率、磁盤使用率、虛擬機(數(shù)量、清單、操作系統(tǒng))、網(wǎng)絡接口流量帶寬等指標的監(jiān)控。
對虛擬機資源可實現(xiàn)如CPU使用率、內(nèi)存利用率、磁盤容量,磁盤使用率、網(wǎng)絡流量等監(jiān)控;在控制方面可以對虛擬機可以進行重啟、備份、鏡像等操作。
1.2.作為真實的主機(操作系統(tǒng))監(jiān)控
? ? ? ? 在此種方式下,根據(jù)虛擬機所安裝的操作系統(tǒng)來進行監(jiān)控和控制,支持的監(jiān)控指標和控制能力和對操作系統(tǒng)的監(jiān)控相同。
? ? ? ? 監(jiān)控指標包括ping、CPU使用率、內(nèi)存使用率、磁盤使用率、網(wǎng)口流量帶寬、進程、服務、TCP連接數(shù)、端口等??刂颇芰Πㄒ绘I開關機、重啟、進程管理、應用管理、容量管理等。
第2章?豐富的虛擬化監(jiān)控范圍與指標
? ? ? ? 方案以實時監(jiān)控和可視化呈現(xiàn)為核心,通過高精準的數(shù)據(jù)采集和智能數(shù)據(jù)分析處理機制,實現(xiàn)對虛擬化環(huán)境的全面監(jiān)測和秒級故障預警。
2.1.虛擬化監(jiān)控模型及指標擴展
? ? ? ? 資源監(jiān)控是對虛擬化環(huán)境進行運維管理的關鍵,方案通過構建對VMware、Xenserver、Hyper-V、KVM、K8s(Kubernates)等關鍵指標的監(jiān)控,幫助運維人員了解虛擬機的工作負載定位其性能瓶頸,并采取相應措施優(yōu)化其性能。
? ? ? ? 同時采取用戶自定義擴展虛擬化類型、版本及其資源的方式,賦予用戶強大的適配能力,其他虛擬化也可通過靈活可配的模型庫進行擴展適配,最大可能地實現(xiàn)對不同品牌、不同版本虛擬化的管控;支持自定義虛擬化類型、虛擬化資源、故障監(jiān)視器、性能監(jiān)視器、TRAP監(jiān)視器等。
2.2.常見虛擬機監(jiān)測點和指標
? ? ? ? 本方案通過主動輪詢和日志解析的方式對虛擬機常見性能指標,如響應時間、CPU使用率、內(nèi)存使用情況、磁盤IO性能以及網(wǎng)絡吞吐量等進行監(jiān)控,同時除內(nèi)置的常見指標外,其他資源和指標也可以通過模型庫不斷進行拓展。
資源監(jiān)測點 | 監(jiān)測指標 | |
宿主機 | 基礎信息 | 品牌、名稱、版本等 |
Ping | 連接狀態(tài)、響應時長、服務成功率等 | |
CPU | CPU使用量、CPU使用率等 | |
內(nèi)存 | 內(nèi)存使用率、活動內(nèi)存、內(nèi)存總量等 | |
磁盤 | 磁盤使用率、磁盤總容量、磁盤讀IO、磁盤寫IO、磁盤讀速率、磁盤容量預測等 | |
網(wǎng)口接口 | 接收/發(fā)送流量、接收/發(fā)送數(shù)據(jù)包數(shù)量、接收/發(fā)送丟包率、接收/發(fā)送速率等 | |
虛擬機 | 虛擬機清單、運行的虛擬機個數(shù)、關閉的虛擬機個數(shù)、其他狀態(tài)的虛擬機個數(shù)等、CPU、內(nèi)存、磁盤等 | |
虛擬機 | 基礎信息 | 操作系統(tǒng)、電源狀態(tài)等 |
Ping | 連接狀態(tài)、響應時長等 | |
CPU | CPU使用量、CPU使用率、CPU個數(shù)等 | |
內(nèi)存 | 內(nèi)存使用率、活動內(nèi)存、內(nèi)存總量等 | |
磁盤 | 磁盤使用率、磁盤總容量、磁盤讀IO、磁盤寫IO、磁盤讀速率、磁盤容量預測等 | |
網(wǎng)口接口 | 接收/發(fā)送流量、接收/發(fā)送數(shù)據(jù)包數(shù)量、接收/發(fā)送丟包率、接收/發(fā)送速率等 | |
進程 | 狀態(tài)、ID、名稱、路徑、參數(shù)、系統(tǒng)進程數(shù)、運行進程數(shù)、空閑進程數(shù)、CPU占用率 內(nèi)存占用率等 | |
文件系統(tǒng) | 狀態(tài)、總空間、剩余空間、文件類型、文件修改、文件數(shù)量等 |
第3章 虛擬化實時監(jiān)控和預警管理
? ? ? ? 針對各類虛擬化場景建立全面的監(jiān)控運維體系,深入監(jiān)控其內(nèi)部資源和整體運行狀態(tài),提升虛擬化環(huán)境可靠性,保障業(yè)務系統(tǒng)穩(wěn)定運行。
3.1.自動發(fā)現(xiàn)虛擬化設備
? ? ? ? 智和信通具備獨特的自動發(fā)現(xiàn)技術,在網(wǎng)絡可達范圍內(nèi),僅需輸入IP范圍即可自動發(fā)現(xiàn)網(wǎng)絡中的宿主機和虛擬機,識別虛擬機類型、版本、操作系統(tǒng)等信息,獲取宿主機和虛擬機內(nèi)部資源,匹配故障與性能監(jiān)視器,并自動發(fā)現(xiàn)虛擬機與其他設備的連接關系,生成可視化鏈路,通過可視拓撲動態(tài)展示虛擬化、鏈路的運行狀態(tài)。
3.2.自動生成網(wǎng)絡拓撲
? ? ? ? 方案以圖形拓撲的形式展現(xiàn)虛擬機在網(wǎng)絡中和其他設備間的拓撲關系,支持樹形結構和平面結構的聯(lián)動展示,也可以按片區(qū)、按地域、按層級等多種布局方式劃分網(wǎng)絡,在拓撲中以不同顏色圖標、光效展現(xiàn)虛擬化的實時狀態(tài)信息。
? ? ? ? 在拓撲圖的基礎上,進一步展示虛擬化的內(nèi)部細節(jié),以圖形方式展示虛擬機CPU使用率、內(nèi)存使用情況、磁盤IO性能以及網(wǎng)絡吞吐量等關鍵指標,對虛擬機進行細化監(jiān)控,實時告警,事前管理,降低故障發(fā)生率。
3.3.虛擬機性能態(tài)勢感知
? ? ? ? 全面采集虛擬機的各項性能指標,如CPU使用率、CPU就緒時間、內(nèi)存使用量、內(nèi)存頁交換率、磁盤讀寫請求、磁盤延遲時間與隊列長度、網(wǎng)絡接口的吞吐量、包傳輸錯誤以及丟棄包等,并按照時間范圍、資源類型、性能指標等多種維度,以圖形、表格等多種形式進行展示。
? ? ? ? 對實時、歷史性能數(shù)據(jù)進行統(tǒng)計分析,通過曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。運維人員能隨時把握虛擬化性能變化態(tài)勢,防患于未然。
? ? ? ? 方案支持選擇多臺虛擬機進行同維度性能數(shù)據(jù)分析,提供可視化性能對比視圖,通過性能對比分析虛擬機性能變化趨勢。
3.4.虛擬機自動巡檢
? ? ? ? 可自定義虛擬機的巡檢策略,預設時間自動執(zhí)行虛擬機巡檢,定期巡查虛擬機實時運行狀態(tài),并向指定郵箱發(fā)送結果報告,可自行選擇要統(tǒng)計的虛擬機所屬網(wǎng)絡、虛擬機類型、虛擬機資源、虛擬機支撐的業(yè)務、虛擬機關聯(lián)的鏈路等范圍類型,生成巡檢報表。
3.5.日志與事件管理
? ? ? ? 接收虛擬機主動發(fā)送如非正常關機、意外重啟、內(nèi)存管理錯誤、進程調(diào)度問題、服務無法正常啟動、應用程序異常終止、應用運行錯誤、登錄失敗、權限變更等事件與日志消息,集中存儲、解析處理后,將錯誤、告警、攻擊行為等異常信息及時地通知用戶。
? ? ? ? 通過實時監(jiān)控虛擬機的日志和事件信息,運維人員能夠準確得知虛擬機資源的使用情況、用戶行為、應用程序錯誤、系統(tǒng)故障等關鍵信息,在統(tǒng)一界面集中管理,及時發(fā)現(xiàn)和解決虛擬機故障、觀察系統(tǒng)運行情況、預測系統(tǒng)的使用情況,作為性能瓶頸和故障排查的重要依據(jù),幫助運維人員更好地維護和管理虛擬化環(huán)境。
3.6.故障告警與智能收斂
? ? ? ? 搭載多種告警機制,自定義配置告警閾值,具備主動的故障監(jiān)控功能,從眾多的事件和狀態(tài)中,系統(tǒng)地將零散的狀態(tài)信息總結成為當前狀態(tài),并對異常狀態(tài)進行告警,第一時間獲取準確的告警信息,快速標示已執(zhí)行操作的告警,迅速定位產(chǎn)生告警的虛擬機,提升告警處理效率,極大降低因虛擬化故障帶來的損失。
? ? ? ? 告警管理采用自動去重、風暴抑制、關聯(lián)聚合、維護期時間屏蔽、依賴屏蔽等多種智能告降噪機制,通過AI算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,有效避免誤報和漏報,直達故障根因。
第4章 虛擬機承載的業(yè)務狀態(tài)撥測
? ? ? ? 針對虛擬機所支撐的業(yè)務應用性能與用戶體驗進行檢測分析,無需安裝插件就可以為用戶提供開箱即用的企業(yè)級主動撥測式業(yè)務監(jiān)測。以拓撲形式展示每個業(yè)務流程中的每臺相關設備,支持設備邏輯視圖和面板視圖,展示業(yè)務流程中涉及的所有的設備之間的鏈路關系,流程方向。
? ? ? ? 構建包含各業(yè)務整體流程的調(diào)用依賴關系圖譜,展示業(yè)務部署中網(wǎng)絡設備間多維度關系拓撲。對從業(yè)務的前臺受理到真正完成的整個業(yè)務流程所依賴的業(yè)務應用、虛擬化、操作系統(tǒng)等進行實時監(jiān)控分析,呈現(xiàn)業(yè)務各節(jié)點的實時運行狀態(tài),包括用戶體驗、節(jié)點可用性、節(jié)點負載等狀態(tài)信息,快速定位業(yè)務瓶頸根因,并可根據(jù)用戶自愈策略,觸發(fā)自動運維實現(xiàn)故障自愈。
第5章 統(tǒng)計報表和大屏展示
? ? ? ? 通過定義虛擬機相關數(shù)據(jù)報表的能力,實現(xiàn)虛擬機性能和狀態(tài)的靈活展現(xiàn)和統(tǒng)計分析,通過對比、TOPN等分析方式并結合報表排序規(guī)則、過濾規(guī)則等能力,周期自動生成報表,幫助用戶更好地了解虛擬機的各項負載情況和運行態(tài)勢,為優(yōu)化資源配置和性能調(diào)整提供依據(jù)。
? ? ? ? 通過大屏展示核心運維數(shù)據(jù)態(tài)勢,細粒度可達網(wǎng)絡中虛擬機、虛擬機資源和鏈路。所有的網(wǎng)絡故障與性能瓶頸都一目了然地呈現(xiàn),大大降低了管理成本,同時也提高了運維人員處理故障的能力,節(jié)省的故障處理時間,為運維人員管理網(wǎng)絡提供了可靠的保證。
第6章 虛擬機遠程控制和編排式配置
? ? ? ? 方案提供虛擬機遠程控制的能力,采用“監(jiān)控+運維+控制”的方式,將不同系統(tǒng)、不同版本的虛擬機統(tǒng)一納入控制管理。通過智能算法對虛擬機的資源配置進行智能動態(tài)調(diào)整,當虛擬機出現(xiàn)性能瓶頸時,自動調(diào)優(yōu)資源配置,優(yōu)化虛擬機運行環(huán)境,當虛擬機發(fā)生故障時,自動啟動自愈機制,快速恢復虛擬機的正常運行。
6.1.虛擬機遠程配置執(zhí)行
? ? ? ? 將周期性、重復性、規(guī)律性的大量日常虛擬機維護工作,如一鍵開關機、重啟、備份、鏡像、進程管理、應用管理、容量管理等運維工作,轉化為依托于平臺的自動執(zhí)行工作流,實現(xiàn)對虛擬機的批量、定時自動化控制管理。
6.2.運維編排──以(VMware ESXi虛擬機磁盤擴容為例)
? ? ? ? 以虛擬機實時監(jiān)控和日志、事件管理為基礎,通過多指標聚合檢測動態(tài)識別虛擬機運行狀態(tài),根據(jù)真實運維場景和流量編排自動化運維作業(yè)流程,減少人工干預,提高運維效率。
下面以VMware ESXi虛擬機磁盤擴容為例,介紹如何通過智和網(wǎng)管平臺實現(xiàn)虛擬機運維編排。
效果要求:當虛擬機磁盤容量不足時,進行告警提示,運維人員可在核驗后一鍵進行虛擬機磁盤擴容。
? ? ? ? 第一步:將需要管理的虛擬機納入平臺進行監(jiān)控,并設置虛擬機磁盤容量監(jiān)視器,虛擬機磁盤空閑率小于10%時進行告警。
? ? ? ? 第二步:進入安管模塊的運維編排菜單,創(chuàng)建【VMware ESXi虛擬機磁盤擴容】策略。根據(jù)真實虛擬機磁盤擴容過程,通過進行策略節(jié)點拖拽編排的方式規(guī)劃擴容流程。
? ? ? ? 第三步:配置觸發(fā)方式。策略支持自動觸發(fā)和手動觸發(fā)兩種方式,根據(jù)用戶實際運維場景和工作流程,本策略適宜選擇手動觸發(fā)的形式進行虛擬機磁盤擴容。
? ? ? ? 編排流程配置完成后,當出現(xiàn)虛擬機磁盤空閑率告警時,用戶手動觸發(fā)策略對告警進行校驗,如空閑率低于預設閾值,則自動進行磁盤擴容。并在執(zhí)行過程中,對每一步處置操作進行記錄形成日志,確保有跡可查。
第7章 應用價值
? ? ? ? 北京智和信通虛擬機監(jiān)控運維方案,通過集中運維的功能,將分布在不同物理服務器上的虛擬化環(huán)境進行統(tǒng)一管理,在全量監(jiān)控的同時,簡化運維流程、降低運維難度。運維人員可以在智和網(wǎng)管平臺的統(tǒng)一界面上,實時監(jiān)控虛擬環(huán)境的運行狀態(tài),并進行性能調(diào)優(yōu)、故障排查等操作,大大提高工作效率。
? ? ? ? 通過方案的實施實現(xiàn)對虛擬化環(huán)境的深入監(jiān)控,運維團隊能夠及時獲取虛擬機狀態(tài)、系統(tǒng)性能等關鍵信息,整體運維工作從傳統(tǒng)的被動響應模式轉變?yōu)榉e極主動的預防策略。一旦系統(tǒng)檢測到異常信息,便會立即觸發(fā)告警機制,并結合自動化運維能力,快速實現(xiàn)故障自愈。這種轉變不僅顯著減少了因虛擬機故障導致的宕機時間,也極大地降低了上層業(yè)務中斷的風險。
? ? ? ? 得益于方案強大的監(jiān)控模型能力,不僅可以將虛擬機作為宿主機的資源進行管理,也可以將其作為獨立的服務器進行運維。這樣一來就給虛擬機的監(jiān)控和控制提供了更多的可能,如自動化部署、磁盤擴容、備份恢復等等,進一步降低運維成本,釋放設備價值。
? ? ? ? 同時,通過對虛擬化環(huán)境的精確監(jiān)管、全面覆蓋的功能、智能化的運維編排和強大的模型擴展能力,智和信通虛擬化監(jiān)控運維方案正在成為越來越多用戶優(yōu)化IT運維、提升業(yè)務連續(xù)性的選擇。