網站首頁 文學常識 簡歷 公文文書 文學名著 實用文 人生哲理 作文 熱點話題作文
當前位置:文萃咖 > 實用範文 > 論文

虛擬化環境下的統一運維論文

欄目: 論文 / 發佈於: / 人氣:1.95W

1 概述

虛擬化環境下的統一運維論文

伴隨着信息技術的不斷髮展,信息系統運維的概念已經非常普及,根據自動化運維服務商Puppet labs發佈的2013運維報告顯示,採用自動化運維後,完成部署的速度提高很多倍,減少50%失敗概率,恢復系統的速度提高12倍,國內外的互聯網公司都在開發自己的運維軟件,國內大型互聯網公司阿里巴巴、百度、網易等都有專門的運維體系研究部門。運維管理在高校領域處於逐步實驗階段,國內一些高校已經重視虛擬化應用及運維服務工作,大多采用自主研發與整合工具相結合的方式實現,在運維服務專業化、流程化、規範化方面取得了不同程度的成果。

2 運維的現狀

隨着學校信息化建設的發展,信息門户、學工管理、教務管理、校園卡管理、迎新離校、支付平台等系統相繼投入使用,系統基礎平台的穩定可用性顯得更加重要,學校信息系統支撐平台主要以Vmware虛擬化平台為主,通過虛擬化技術實現了硬件整合管理和可高用性、改善業務可靠性、優化系統部署、降低設備能耗特點,但虛擬化管理平台的管理只涉及主機統級別,應用系統業務的管理需要各利用各自獨立的工具來管理,運維管理整體上基本處於“半自動”狀態。突出的有以下問題:定位實際故障點的效率低,故障修復缺乏自動化、流程化響應機制,缺乏事件監控、診斷、故障響應的有效運維工具;系統配置變更需人工操作工作量大,缺乏集中的主機、虛擬機、應用業務等的監控和預警機制;信息系統基礎設備沒有統一配置管理信息庫,信息登記混亂常造成設備配置信息的衝突。系統的可用性與運維管理有着緊密聯繫,當前運維工作的重心放在應用檢查、部署上線、服務器配置、數據備份、故障搜索處理等方面。

3 統一運維的設想

統一運維平台規劃以信息系統基礎設施及應用系統的全局統一管理為出發點,實現配置批量變更、故障自定義修復、定期自動巡檢、信息集中管理等功能,考慮到免費運維繫統功能有限、大公司自主研發技術很難獲取,計劃採用開源軟件、Vm?ware管理平台的功能接口和開發相結合的方式來實現統一運維。

系統規劃實現的主要功能包括以下幾項:集中化管理信息系統基礎架構中的服務器、虛擬機、應用系統、網絡設備、存儲、應用等配置資源;通過預先定義主機系統、虛機系統、通用應用的'模板及配置腳本,實現主機系統、虛機系統與應用系統的統一配置管理與自動化部署,保證配置變更在規範的流程下有序。準確地執行;實現主機狀態、應用狀態、應用業務、負載性能、存儲狀態等信息的統一監控與預警,通過預定義故障狀態與系統巡檢計劃實現自動化檢查及修復;建立統一的日誌中心庫,採集來自基礎設備及應用的日誌信息,在日誌系統上配置基於應用流程的相關性規則,對日誌信息進行有效性預處理,將有效及緊急的日誌的集中展示,實現基礎設備的日誌信息的集中化管理及智能化彙總。

4 系統的設計與實現

ITIL即IT基礎架構庫(Information Technology InfrastructureLibrary,信息技術基礎架構庫)為設計IT服務管理架構提供了一個客觀、嚴謹、可量化的標準和規範,參考ITIL2中服務支持部分,設計與實現統一運維的5項功能模塊。資源配置管理系統發佈管理配置變更管理事件預警處理問題跟蹤管理。

4.1 資源配置管理

建立符合的統一運維管理架要求的配置管理數據庫,將多處的數據源合併至統一視圖中,配置信息庫提供IT基礎架構的邏輯模型,定義、識別、控制基礎設施與應用服務的部件,對資源信息按技術參數,屬主,關係等屬性進行存取,記錄每個資源的唯一標識名、主機狀態、硬件信息、位置、功能用途、網絡配置等技術參數信息及資源間的屬主關係,按照基礎設施與應用業務的依賴性信息完成關係屬性的建立,在配置信息庫的基礎上開發資源配置管理程序,實現記錄配置信息的狀態採集、記錄、整合、檢驗、變更等功能。

4.2系統發佈管理

發佈管理是將經過實際應用測試的新增配置與系統在環境進行分發,通過流程化實現系統與配置信息的發佈、交付、分發。具體到實際環境中是Vmware中的虛擬機發布管理,通過調用Vmware管理平台提供的接口及工具包,實現統一化、流程化的虛擬機申請與管理功能,將虛擬化平台中虛擬機的創建、發佈、交付、回收等功能集成到運維平台。

4.3 配置變更管理

配置變更要求以受控方式在最短時間內完成基礎架構或應用服務配置變更,在變更實施過程中使用標準化、自動化的方法,以將由變更所導致的業務中斷影響減小到最低。學校信息系統所使用的操作系統平台分為Windows與Linux二類,同類環境的配置變更非常類似,經過測試選擇Puppet(開源的基於Ruby的自動化系統配置管理工具)來實現自動化的配置變更管理,Puppet支持DNS設置、系統參數、系統更新、主機名規則變更、批量系統的密碼修改、防火牆策略變更等配置的自動下發,管理程序讀取指令及配置管理信息庫中設備的配置,通過調管理端來實現配置批量自動分發變更,反饋信息來記錄或變更管理配置息。

4.4 事件預警處理

在確定事件類型、優先級的前提下,實現快速的服務恢復與應用切換,實現服務器級故障自動修復依賴監控預警信息,信息系統平台中需要預警處理的設備包括基礎設備、Vmware平台、虛擬主機、應用系統等,使用免費工具作為信息採集低層服務端工具,數據採集使用SNMP協議、SSH訪問與自定義腳本相結合的方式,預警方式使用SNMP Trap與郵件告警,通過開發程序來讀取採集到狀態數據和警告信息彙總到統一的數據庫,定義主機或應用的錯誤類型代碼及相應故障事件的觸發規則、運行流程、修復腳本或指令,當故障事件發生時管理平台依據來源及事件標識讀取事件響應配置併發出指令,事件故障主機或關聯主機根據指令主動執行流程化修復指令,執行修復指令的結果被反饋回管理平台,管理平台將結果記錄入配置信息庫或發出進一步修復指令。

4.5 問題跟蹤管理

問題跟蹤管理利用logstash,redis等日誌採集工具來收集問題信息及日誌,管理平台對日誌信息按照應用類型與業務邏輯關係進行分類過濾,形成可用的、有針對性的日誌事件數據,管理平台根據日誌信息分析IT基礎架構的薄弱環節並確定引起問題發生的故障根源,管理人員利用管理平台制定解決事故的方案和防止事故再次發生的措施。

5 進一步的思考

規劃統一運維平台管理幾百台服務器與應用,考慮運維管理的高效化與信息安全預防的標準化,系統設計在通用性與擴展性還有許多要繼續改進,在自動化部方面應用系統的類型較多且自動化管理工具欠缺,如何實現應用系統軟件的自動化配置是繼續關注,故障巡檢方面要深一步考慮如何實現精確、有效的故障恢復策略,缺少考慮多人使用平台時的授權機制與安全審計模塊。