熱門搜索 Zabbix技術資料 Zabbix常見問、答討論 成功案例 Zabbix交流區(qū) Prometheus交流區(qū)
一、前言
該集團成立于1980年,是一家以消費電子業(yè)務為基礎,以“科技+投控”復合能力為支撐,向戰(zhàn)略性新興產(chǎn)業(yè)升級、向產(chǎn)業(yè)地產(chǎn)業(yè)務拓展、向互聯(lián)網(wǎng)及供應鏈服務業(yè)務延伸的公司,形成了“產(chǎn)業(yè)產(chǎn)品業(yè)務群、科技園區(qū)業(yè)務群、平臺服務業(yè)務群以及投資金融業(yè)務群”四大業(yè)務群協(xié)同發(fā)展的局面。已完成多媒體彩電、移動通信、白色家電等業(yè)務的公司化運營,新成立科技產(chǎn)業(yè)園事業(yè)本部、半導體事業(yè)部、環(huán)保科技事業(yè)部、供應鏈金融事業(yè)部等戰(zhàn)略新興業(yè)務部門。投資并購多家高科技企業(yè),打造新業(yè)務增長極、實現(xiàn)多元化拓展。
二、項目背景
該集團IT信息化正處于爆發(fā)增長期,隨著業(yè)務的發(fā)展,當前運維工具難以應對日漸復雜的運維場景。目前主要痛點為業(yè)務信息系統(tǒng)眾多,缺乏統(tǒng)一監(jiān)控管理平臺,難以主動感知業(yè)務系統(tǒng)用戶體驗情況,系統(tǒng)出現(xiàn)問題無法快速定位根源,缺少對基礎設施、日志的統(tǒng)一告警能力、故障告警不及時。運維自動化工具缺失,大量運維操作依賴人工,效率低下且存在誤操作風險,運維效率和安全性需要進一步提升。
三、項目訴求
·?缺乏集中監(jiān)控的完整體系:運維對象復雜且多,需搭建一套完整運維監(jiān)控平臺,實現(xiàn)該集團股份有限公司IT基礎資源、網(wǎng)絡、服務器、數(shù)據(jù)庫、用戶體驗、應用、日志集中監(jiān)控。
·?缺少IT資產(chǎn)配置管理:眾多的基礎IT資源間關系的難發(fā)現(xiàn)和難維護,需建立完整的IT資產(chǎn)配置管理數(shù)據(jù)庫。
·?告警處理效率低下:告警處理主要基于運維人員的經(jīng)驗去判斷,很難精確定位根源告警和故障發(fā)生點,無法實現(xiàn)故障快速定位、告警不夠全面及時。
四、項目目標
??通過統(tǒng)一監(jiān)控平臺,全面、準確地了解該集團的業(yè)務系統(tǒng)狀態(tài),對關鍵性業(yè)務系統(tǒng)納入統(tǒng)一監(jiān)控管理平臺監(jiān)控范疇,針對重點業(yè)務的應用提供性能監(jiān)控,同時對相應的業(yè)務架構邏輯結(jié)構進行可視化。
項目總體目標如下:
(1)通過統(tǒng)一監(jiān)控管理平臺,保障業(yè)務系統(tǒng)穩(wěn)定的良性循環(huán);
(2)通過立體監(jiān)控體系,全面、準確地監(jiān)控業(yè)務系統(tǒng)的健康;
(3)通過統(tǒng)一告警流程機制,快速定位問題,提高運維效率;
(4)全面采集不同層級數(shù)據(jù),實現(xiàn)業(yè)務與IT數(shù)據(jù)融合分析與大屏展示;
(5)梳理業(yè)務場景、定制標準化規(guī)范及流程,實現(xiàn)自動化運維。
五、尊龍時凱智能監(jiān)控解決方案
尊龍時凱智能運維監(jiān)控平臺,是國產(chǎn)化、高性能一體化集中監(jiān)控平臺,能夠做到及早發(fā)現(xiàn)故障、提早判斷預知故障及時處理,以及合理利用信息化基礎資源,達到最大化資源使用,同時為信息化建設提供未來建設提供合理依據(jù),使得業(yè)務系統(tǒng)信息化建設健康發(fā)展。
???結(jié)合該集團現(xiàn)有信息化建設架構,建設統(tǒng)一監(jiān)控平臺部署內(nèi)容如下:
1、集中監(jiān)控:包括從IT基礎架構到業(yè)務系統(tǒng)的可用性、性能、日志等指標監(jiān)控;
2、集中告警:集中告警展示、告警分發(fā)、告警處理等全生命周期管理;
3、可視化視圖:可自動發(fā)現(xiàn)的網(wǎng)絡拓撲、業(yè)務地圖、投屏視圖、圖形視圖、一覽視圖等可視化功能;
4、多樣性報表:支持自定義、多維度、多指標報表統(tǒng)計功能;
5、大屏展示:大屏幕集中監(jiān)控實現(xiàn)自定義展示頁面;
5.1底層架構設計
該集團本次監(jiān)控對象為包括涵蓋了操作系統(tǒng)、網(wǎng)絡設備、數(shù)據(jù)庫、中間件、虛擬化、服務器、存儲,總體監(jiān)控對象在600個以內(nèi)。
定義本次系統(tǒng)架構部署如下:
5.2架構資源配置
5.3監(jiān)控對象分批次納管
完成監(jiān)控平軟件部署后,根據(jù)搜集表進行分批次添加監(jiān)控對象。
·?操作系統(tǒng)納管:
????由于操作系統(tǒng)需要安裝agent用于數(shù)據(jù)采集,結(jié)合現(xiàn)場部署環(huán)境、調(diào)整好安裝腳本,配置好serverIP地址,采集方式后,實現(xiàn)快速一鍵安裝agent。
Linux?首次安裝需要通過root權限,完成首次安裝后后續(xù)可以通過創(chuàng)建的zabbix用戶實現(xiàn)數(shù)據(jù)采集aget開啟或關閉,另外通過配置定時任務計劃,判定agent進程是否正常,每五分鐘檢查一次,若檢查到agent進程異常,即調(diào)用自動開啟腳本將agent開啟,省去后續(xù)agent維護工作,實現(xiàn)自動化。
Windows首次安裝也需要通過管理員權限,完成后實現(xiàn)服務自動啟動。
由于服務器不同廠商、不同型號存在內(nèi)部mib庫不一致情況,前期搜集時即核對模板樣例,現(xiàn)有模板可直接準備,導入備用。本次監(jiān)控服務器、存儲基本屬于常規(guī)型號,現(xiàn)有模板基本涵蓋,快速制作模板,體現(xiàn)了zabbix?快速定義模板的靈活性。
根據(jù)搜集該集團網(wǎng)絡設備,主要為思科網(wǎng)絡設備、華三網(wǎng)絡設備、戴爾網(wǎng)絡設備,核對了為模板庫,都有現(xiàn)有模板,結(jié)合前期信息搜集時的管理IP地址、團體名,實現(xiàn)快速添加監(jiān)控對象。
該集團虛擬化使用的時VMWare?,并搭建了vcenter統(tǒng)一管理。結(jié)合尊龍時凱模板監(jiān)控即采集python腳本,實現(xiàn)對象添加后,自動發(fā)現(xiàn)出宿主機、虛擬機、datastor三個主要對象并自動發(fā)現(xiàn)出其層級對應關系。
該集團數(shù)據(jù)庫主要為His系統(tǒng)使用的Oracle?11g?rac。監(jiān)控Oracle數(shù)據(jù)需要在數(shù)據(jù)庫創(chuàng)建用于監(jiān)控的用戶,并完成授權,保障用于監(jiān)控的用戶可select數(shù)據(jù)庫相關性能視圖,獲取整個數(shù)據(jù)庫運行狀況。其操作存在對數(shù)據(jù)庫變更,通過和客戶反饋、溝通并確認風險等級及對應措施后,完成Oracle數(shù)據(jù)庫納入監(jiān)控,查看監(jiān)控平臺數(shù)據(jù)庫運行狀況正常。
該集團其網(wǎng)絡結(jié)構與外部智能終端、研究所、呼叫中心關聯(lián),且多數(shù)專線線路的通訊狀態(tài)對于該集團業(yè)務運行至關重要,因此單獨使用監(jiān)控平臺鏈路添加,且這兩條網(wǎng)絡對端設備不在本地,不能實現(xiàn)監(jiān)控那關,通過與專網(wǎng)接入的交換機,配置NQA,實現(xiàn)本段設備探測對端網(wǎng)絡的鏈路監(jiān)控,獲取鏈路健康狀況、帶寬利用率、鏈路丟包率等信息。
???網(wǎng)絡拓撲是整個信息化的交通樞紐,網(wǎng)絡的影響通常都是區(qū)域性影響,因此網(wǎng)絡拓撲的展示可直觀的看到當前網(wǎng)絡健康狀況,監(jiān)控平臺網(wǎng)絡拓撲配置lldp?實現(xiàn)網(wǎng)絡拓撲自動發(fā)現(xiàn)、自動關聯(lián)網(wǎng)絡設備生成拓撲圖
完成監(jiān)控對象納管后,通過和客戶溝通、培訓,進一步確認相關監(jiān)控閾值配置,即根據(jù)客戶實際情況配置告警閾值,當監(jiān)控指標達到閾值設置后,即觸發(fā)告警。同時將不同閾值對應到不同告警級別,分別為緊急、嚴重、一般這幾個常用級別。
·服務器發(fā)生重啟或者宕機。
服務器告警指標:ping 、cpu使用率達到80%以上、內(nèi)存使用率95%、磁盤空間使用率達到98%
·數(shù)據(jù)庫重點規(guī)則
數(shù)據(jù)庫連通性、表空間使用率95%、數(shù)據(jù)庫文件系統(tǒng)使用率95%
5.5大屏展示配置
投屏展示通常可直觀、簡介的查看整個IT資源或某個業(yè)務的實際情況,經(jīng)過和客戶交流溝通后,確定本次創(chuàng)建兩個投屏展示,分別如下
IT運維通常會有相應統(tǒng)計信息,包括日產(chǎn)產(chǎn)生的告警信息,及相關業(yè)務性能分析,本次根據(jù)該集團建設,創(chuàng)建應用系統(tǒng)基礎資源使用性能報表,并自定義設定成周報模式,每周會自動生成報表。
六、方案價值
·?統(tǒng)一監(jiān)控:實現(xiàn)信息化基礎資源全覆蓋監(jiān)控,保障了監(jiān)控自動化管理,通過設置配置即可達到相關調(diào)整。降低人工成本,使用運維人員去做對業(yè)務更有價值的工作。
·?監(jiān)控對象集中展示:自動分類展示,實現(xiàn)不同對象的統(tǒng)計、健康狀況、告警數(shù)量,從整體上可直觀查看當前所有IT資源對象的,同時從整體上查看當前對象的CPU?top、內(nèi)存使用率top等,另外可整體直觀看到當前整個IT狀況是否正常,以及每日產(chǎn)生告警數(shù)量、告警恢復情況。
為運維人員提供更準確、更直觀的整體狀況查看。無需單獨去登錄每個系統(tǒng)、每個設備進行繁瑣的巡檢工作。
告警配置:運維人員可查看最近6小時、最近12小時及最近24小時告警,可了解整個資源運行狀況,避免信息化資源出現(xiàn)告警隱患而人員未關注到時告警遺漏,更加準確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時長直觀的呈現(xiàn),讓運維人員心中有數(shù)。
· 可視化管理:運維管理通常需要直觀呈現(xiàn),重點關注的對象,通過配置網(wǎng)絡拓撲、業(yè)務拓撲,并通過投屏配置方式呈現(xiàn),及時反映重點關注的如網(wǎng)絡健康狀況、專線鏈路狀況等。當出現(xiàn)異常時,可快速定位故障,大大縮短故障定位、排查時間,為解決故障提供了有效依據(jù)。將前端業(yè)務影響降至最低。為整個運維工作帶來了最大的便利。
· 報表管理:運維工作除了對日常信息化健康運行關注外,還需要對整體資源使用情況做到合理分配,當資源需要進行調(diào)整時,可有效進行整改、達到資源最大化利用率。也可為單個業(yè)務系統(tǒng)創(chuàng)建報表,提供日報、周報,展現(xiàn)趨勢數(shù)據(jù)提供性能分析。
另外,對于整個信息化基礎架構運行狀況,也可通過報表的告警統(tǒng)計,不同維度查看告警統(tǒng)計,操作系統(tǒng)告警統(tǒng)計、網(wǎng)絡設備告警統(tǒng)計,以不同類別、不同等級分別展示。為信息化建設可持續(xù)發(fā)展提供了有效幫助。
七、客戶收益
1.通過IT資產(chǎn)全面梳理、全棧監(jiān)控、實時告警等新型智能運維手段,建設出一套完善且靈活的成熟運維體系,告別傳統(tǒng)“救火”式運維,運維效率提升10倍,企業(yè)運維成本降低超過50%。
2.為該集團提供更堅實的后勤保障,更加有效的保障運維人員日常工作,使得運維人員更加順心的工作,為社會提供更好的服務。
3.提供更有效的數(shù)據(jù)依據(jù),推進集團信息化建設可持續(xù)發(fā)展,讓信息化資源更合理的應用、最大化應用,為信息化建設提供導向。
采用分布式實施,分別集中監(jiān)控線上(阿里云) IT基礎架構和線下IT基礎架構,將不同類別的基礎架構統(tǒng)一在一個平臺上實現(xiàn)監(jiān)控功能。分別對主機、網(wǎng)絡、存儲、數(shù)據(jù)...
View details監(jiān)控了內(nèi)蒙、昌平、上海、貴州四區(qū)域核心機房,主機對象30000左右,數(shù)據(jù)日增量約100G。
View details尊龍時凱采用分布式實施,分別對主機、網(wǎng)絡、存儲、數(shù)據(jù)庫、中間件、應用、硬件和虛擬化等實施一站式監(jiān)控。
View details高校運維解決方案以基礎架構監(jiān)控平臺為依托,結(jié)合可視化大屏、集中告警、報表系統(tǒng)、權限管理、業(yè)務系統(tǒng)管理等模塊,實現(xiàn)對IT基礎架構和教學系統(tǒng)等統(tǒng)一集中監(jiān)...
View details