熱門搜索 Zabbix技術(shù)資料 Zabbix常見問、答討論 成功案例 Zabbix交流區(qū) Prometheus交流區(qū)
一、前言
該集團(tuán)成立于1980年,是一家以消費(fèi)電子業(yè)務(wù)為基礎(chǔ),以“科技+投控”復(fù)合能力為支撐,向戰(zhàn)略性新興產(chǎn)業(yè)升級、向產(chǎn)業(yè)地產(chǎn)業(yè)務(wù)拓展、向互聯(lián)網(wǎng)及供應(yīng)鏈服務(wù)業(yè)務(wù)延伸的公司,形成了“產(chǎn)業(yè)產(chǎn)品業(yè)務(wù)群、科技園區(qū)業(yè)務(wù)群、平臺服務(wù)業(yè)務(wù)群以及投資金融業(yè)務(wù)群”四大業(yè)務(wù)群協(xié)同發(fā)展的局面。已完成多媒體彩電、移動通信、白色家電等業(yè)務(wù)的公司化運(yùn)營,新成立科技產(chǎn)業(yè)園事業(yè)本部、半導(dǎo)體事業(yè)部、環(huán)保科技事業(yè)部、供應(yīng)鏈金融事業(yè)部等戰(zhàn)略新興業(yè)務(wù)部門。投資并購多家高科技企業(yè),打造新業(yè)務(wù)增長極、實(shí)現(xiàn)多元化拓展。
二、項(xiàng)目背景
該集團(tuán)IT信息化正處于爆發(fā)增長期,隨著業(yè)務(wù)的發(fā)展,當(dāng)前運(yùn)維工具難以應(yīng)對日漸復(fù)雜的運(yùn)維場景。目前主要痛點(diǎn)為業(yè)務(wù)信息系統(tǒng)眾多,缺乏統(tǒng)一監(jiān)控管理平臺,難以主動感知業(yè)務(wù)系統(tǒng)用戶體驗(yàn)情況,系統(tǒng)出現(xiàn)問題無法快速定位根源,缺少對基礎(chǔ)設(shè)施、日志的統(tǒng)一告警能力、故障告警不及時(shí)。運(yùn)維自動化工具缺失,大量運(yùn)維操作依賴人工,效率低下且存在誤操作風(fēng)險(xiǎn),運(yùn)維效率和安全性需要進(jìn)一步提升。
三、項(xiàng)目訴求
·?缺乏集中監(jiān)控的完整體系:運(yùn)維對象復(fù)雜且多,需搭建一套完整運(yùn)維監(jiān)控平臺,實(shí)現(xiàn)該集團(tuán)股份有限公司IT基礎(chǔ)資源、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫、用戶體驗(yàn)、應(yīng)用、日志集中監(jiān)控。
·?缺少IT資產(chǎn)配置管理:眾多的基礎(chǔ)IT資源間關(guān)系的難發(fā)現(xiàn)和難維護(hù),需建立完整的IT資產(chǎn)配置管理數(shù)據(jù)庫。
·?告警處理效率低下:告警處理主要基于運(yùn)維人員的經(jīng)驗(yàn)去判斷,很難精確定位根源告警和故障發(fā)生點(diǎn),無法實(shí)現(xiàn)故障快速定位、告警不夠全面及時(shí)。
四、項(xiàng)目目標(biāo)
??通過統(tǒng)一監(jiān)控平臺,全面、準(zhǔn)確地了解該集團(tuán)的業(yè)務(wù)系統(tǒng)狀態(tài),對關(guān)鍵性業(yè)務(wù)系統(tǒng)納入統(tǒng)一監(jiān)控管理平臺監(jiān)控范疇,針對重點(diǎn)業(yè)務(wù)的應(yīng)用提供性能監(jiān)控,同時(shí)對相應(yīng)的業(yè)務(wù)架構(gòu)邏輯結(jié)構(gòu)進(jìn)行可視化。
項(xiàng)目總體目標(biāo)如下:
(1)通過統(tǒng)一監(jiān)控管理平臺,保障業(yè)務(wù)系統(tǒng)穩(wěn)定的良性循環(huán);
(2)通過立體監(jiān)控體系,全面、準(zhǔn)確地監(jiān)控業(yè)務(wù)系統(tǒng)的健康;
(3)通過統(tǒng)一告警流程機(jī)制,快速定位問題,提高運(yùn)維效率;
(4)全面采集不同層級數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)與IT數(shù)據(jù)融合分析與大屏展示;
(5)梳理業(yè)務(wù)場景、定制標(biāo)準(zhǔn)化規(guī)范及流程,實(shí)現(xiàn)自動化運(yùn)維。
五、尊龍時(shí)凱智能監(jiān)控解決方案
尊龍時(shí)凱智能運(yùn)維監(jiān)控平臺,是國產(chǎn)化、高性能一體化集中監(jiān)控平臺,能夠做到及早發(fā)現(xiàn)故障、提早判斷預(yù)知故障及時(shí)處理,以及合理利用信息化基礎(chǔ)資源,達(dá)到最大化資源使用,同時(shí)為信息化建設(shè)提供未來建設(shè)提供合理依據(jù),使得業(yè)務(wù)系統(tǒng)信息化建設(shè)健康發(fā)展。
???結(jié)合該集團(tuán)現(xiàn)有信息化建設(shè)架構(gòu),建設(shè)統(tǒng)一監(jiān)控平臺部署內(nèi)容如下:
1、集中監(jiān)控:包括從IT基礎(chǔ)架構(gòu)到業(yè)務(wù)系統(tǒng)的可用性、性能、日志等指標(biāo)監(jiān)控;
2、集中告警:集中告警展示、告警分發(fā)、告警處理等全生命周期管理;
3、可視化視圖:可自動發(fā)現(xiàn)的網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)地圖、投屏視圖、圖形視圖、一覽視圖等可視化功能;
4、多樣性報(bào)表:支持自定義、多維度、多指標(biāo)報(bào)表統(tǒng)計(jì)功能;
5、大屏展示:大屏幕集中監(jiān)控實(shí)現(xiàn)自定義展示頁面;
5.1底層架構(gòu)設(shè)計(jì)
該集團(tuán)本次監(jiān)控對象為包括涵蓋了操作系統(tǒng)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫、中間件、虛擬化、服務(wù)器、存儲,總體監(jiān)控對象在600個(gè)以內(nèi)。
定義本次系統(tǒng)架構(gòu)部署如下:
5.2架構(gòu)資源配置
5.3監(jiān)控對象分批次納管
完成監(jiān)控平軟件部署后,根據(jù)搜集表進(jìn)行分批次添加監(jiān)控對象。
·?操作系統(tǒng)納管:
????由于操作系統(tǒng)需要安裝agent用于數(shù)據(jù)采集,結(jié)合現(xiàn)場部署環(huán)境、調(diào)整好安裝腳本,配置好serverIP地址,采集方式后,實(shí)現(xiàn)快速一鍵安裝agent。
Linux?首次安裝需要通過root權(quán)限,完成首次安裝后后續(xù)可以通過創(chuàng)建的zabbix用戶實(shí)現(xiàn)數(shù)據(jù)采集aget開啟或關(guān)閉,另外通過配置定時(shí)任務(wù)計(jì)劃,判定agent進(jìn)程是否正常,每五分鐘檢查一次,若檢查到agent進(jìn)程異常,即調(diào)用自動開啟腳本將agent開啟,省去后續(xù)agent維護(hù)工作,實(shí)現(xiàn)自動化。
Windows首次安裝也需要通過管理員權(quán)限,完成后實(shí)現(xiàn)服務(wù)自動啟動。
由于服務(wù)器不同廠商、不同型號存在內(nèi)部mib庫不一致情況,前期搜集時(shí)即核對模板樣例,現(xiàn)有模板可直接準(zhǔn)備,導(dǎo)入備用。本次監(jiān)控服務(wù)器、存儲基本屬于常規(guī)型號,現(xiàn)有模板基本涵蓋,快速制作模板,體現(xiàn)了zabbix?快速定義模板的靈活性。
根據(jù)搜集該集團(tuán)網(wǎng)絡(luò)設(shè)備,主要為思科網(wǎng)絡(luò)設(shè)備、華三網(wǎng)絡(luò)設(shè)備、戴爾網(wǎng)絡(luò)設(shè)備,核對了為模板庫,都有現(xiàn)有模板,結(jié)合前期信息搜集時(shí)的管理IP地址、團(tuán)體名,實(shí)現(xiàn)快速添加監(jiān)控對象。
該集團(tuán)虛擬化使用的時(shí)VMWare?,并搭建了vcenter統(tǒng)一管理。結(jié)合尊龍時(shí)凱模板監(jiān)控即采集python腳本,實(shí)現(xiàn)對象添加后,自動發(fā)現(xiàn)出宿主機(jī)、虛擬機(jī)、datastor三個(gè)主要對象并自動發(fā)現(xiàn)出其層級對應(yīng)關(guān)系。
該集團(tuán)數(shù)據(jù)庫主要為His系統(tǒng)使用的Oracle?11g?rac。監(jiān)控Oracle數(shù)據(jù)需要在數(shù)據(jù)庫創(chuàng)建用于監(jiān)控的用戶,并完成授權(quán),保障用于監(jiān)控的用戶可select數(shù)據(jù)庫相關(guān)性能視圖,獲取整個(gè)數(shù)據(jù)庫運(yùn)行狀況。其操作存在對數(shù)據(jù)庫變更,通過和客戶反饋、溝通并確認(rèn)風(fēng)險(xiǎn)等級及對應(yīng)措施后,完成Oracle數(shù)據(jù)庫納入監(jiān)控,查看監(jiān)控平臺數(shù)據(jù)庫運(yùn)行狀況正常。
該集團(tuán)其網(wǎng)絡(luò)結(jié)構(gòu)與外部智能終端、研究所、呼叫中心關(guān)聯(lián),且多數(shù)專線線路的通訊狀態(tài)對于該集團(tuán)業(yè)務(wù)運(yùn)行至關(guān)重要,因此單獨(dú)使用監(jiān)控平臺鏈路添加,且這兩條網(wǎng)絡(luò)對端設(shè)備不在本地,不能實(shí)現(xiàn)監(jiān)控那關(guān),通過與專網(wǎng)接入的交換機(jī),配置NQA,實(shí)現(xiàn)本段設(shè)備探測對端網(wǎng)絡(luò)的鏈路監(jiān)控,獲取鏈路健康狀況、帶寬利用率、鏈路丟包率等信息。
???網(wǎng)絡(luò)拓?fù)涫钦麄€(gè)信息化的交通樞紐,網(wǎng)絡(luò)的影響通常都是區(qū)域性影響,因此網(wǎng)絡(luò)拓?fù)涞恼故究芍庇^的看到當(dāng)前網(wǎng)絡(luò)健康狀況,監(jiān)控平臺網(wǎng)絡(luò)拓?fù)渑渲胠ldp?實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)渥詣影l(fā)現(xiàn)、自動關(guān)聯(lián)網(wǎng)絡(luò)設(shè)備生成拓?fù)鋱D
完成監(jiān)控對象納管后,通過和客戶溝通、培訓(xùn),進(jìn)一步確認(rèn)相關(guān)監(jiān)控閾值配置,即根據(jù)客戶實(shí)際情況配置告警閾值,當(dāng)監(jiān)控指標(biāo)達(dá)到閾值設(shè)置后,即觸發(fā)告警。同時(shí)將不同閾值對應(yīng)到不同告警級別,分別為緊急、嚴(yán)重、一般這幾個(gè)常用級別。
·服務(wù)器發(fā)生重啟或者宕機(jī)。
服務(wù)器告警指標(biāo):ping 、cpu使用率達(dá)到80%以上、內(nèi)存使用率95%、磁盤空間使用率達(dá)到98%
·數(shù)據(jù)庫重點(diǎn)規(guī)則
數(shù)據(jù)庫連通性、表空間使用率95%、數(shù)據(jù)庫文件系統(tǒng)使用率95%
5.5大屏展示配置
投屏展示通??芍庇^、簡介的查看整個(gè)IT資源或某個(gè)業(yè)務(wù)的實(shí)際情況,經(jīng)過和客戶交流溝通后,確定本次創(chuàng)建兩個(gè)投屏展示,分別如下
IT運(yùn)維通常會有相應(yīng)統(tǒng)計(jì)信息,包括日產(chǎn)產(chǎn)生的告警信息,及相關(guān)業(yè)務(wù)性能分析,本次根據(jù)該集團(tuán)建設(shè),創(chuàng)建應(yīng)用系統(tǒng)基礎(chǔ)資源使用性能報(bào)表,并自定義設(shè)定成周報(bào)模式,每周會自動生成報(bào)表。
六、方案價(jià)值
·?統(tǒng)一監(jiān)控:實(shí)現(xiàn)信息化基礎(chǔ)資源全覆蓋監(jiān)控,保障了監(jiān)控自動化管理,通過設(shè)置配置即可達(dá)到相關(guān)調(diào)整。降低人工成本,使用運(yùn)維人員去做對業(yè)務(wù)更有價(jià)值的工作。
·?監(jiān)控對象集中展示:自動分類展示,實(shí)現(xiàn)不同對象的統(tǒng)計(jì)、健康狀況、告警數(shù)量,從整體上可直觀查看當(dāng)前所有IT資源對象的,同時(shí)從整體上查看當(dāng)前對象的CPU?top、內(nèi)存使用率top等,另外可整體直觀看到當(dāng)前整個(gè)IT狀況是否正常,以及每日產(chǎn)生告警數(shù)量、告警恢復(fù)情況。
為運(yùn)維人員提供更準(zhǔn)確、更直觀的整體狀況查看。無需單獨(dú)去登錄每個(gè)系統(tǒng)、每個(gè)設(shè)備進(jìn)行繁瑣的巡檢工作。
告警配置:運(yùn)維人員可查看最近6小時(shí)、最近12小時(shí)及最近24小時(shí)告警,可了解整個(gè)資源運(yùn)行狀況,避免信息化資源出現(xiàn)告警隱患而人員未關(guān)注到時(shí)告警遺漏,更加準(zhǔn)確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時(shí)長直觀的呈現(xiàn),讓運(yùn)維人員心中有數(shù)。
· 可視化管理:運(yùn)維管理通常需要直觀呈現(xiàn),重點(diǎn)關(guān)注的對象,通過配置網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)拓?fù)?,并通過投屏配置方式呈現(xiàn),及時(shí)反映重點(diǎn)關(guān)注的如網(wǎng)絡(luò)健康狀況、專線鏈路狀況等。當(dāng)出現(xiàn)異常時(shí),可快速定位故障,大大縮短故障定位、排查時(shí)間,為解決故障提供了有效依據(jù)。將前端業(yè)務(wù)影響降至最低。為整個(gè)運(yùn)維工作帶來了最大的便利。
· 報(bào)表管理:運(yùn)維工作除了對日常信息化健康運(yùn)行關(guān)注外,還需要對整體資源使用情況做到合理分配,當(dāng)資源需要進(jìn)行調(diào)整時(shí),可有效進(jìn)行整改、達(dá)到資源最大化利用率。也可為單個(gè)業(yè)務(wù)系統(tǒng)創(chuàng)建報(bào)表,提供日報(bào)、周報(bào),展現(xiàn)趨勢數(shù)據(jù)提供性能分析。
另外,對于整個(gè)信息化基礎(chǔ)架構(gòu)運(yùn)行狀況,也可通過報(bào)表的告警統(tǒng)計(jì),不同維度查看告警統(tǒng)計(jì),操作系統(tǒng)告警統(tǒng)計(jì)、網(wǎng)絡(luò)設(shè)備告警統(tǒng)計(jì),以不同類別、不同等級分別展示。為信息化建設(shè)可持續(xù)發(fā)展提供了有效幫助。
七、客戶收益
1.通過IT資產(chǎn)全面梳理、全棧監(jiān)控、實(shí)時(shí)告警等新型智能運(yùn)維手段,建設(shè)出一套完善且靈活的成熟運(yùn)維體系,告別傳統(tǒng)“救火”式運(yùn)維,運(yùn)維效率提升10倍,企業(yè)運(yùn)維成本降低超過50%。
2.為該集團(tuán)提供更堅(jiān)實(shí)的后勤保障,更加有效的保障運(yùn)維人員日常工作,使得運(yùn)維人員更加順心的工作,為社會提供更好的服務(wù)。
3.提供更有效的數(shù)據(jù)依據(jù),推進(jìn)集團(tuán)信息化建設(shè)可持續(xù)發(fā)展,讓信息化資源更合理的應(yīng)用、最大化應(yīng)用,為信息化建設(shè)提供導(dǎo)向。
廣東尊龍時(shí)凱軟件有限公司(以下簡稱“尊龍時(shí)凱”)在信創(chuàng)運(yùn)維領(lǐng)域榮獲信創(chuàng)運(yùn)維10強(qiáng)榮譽(yù)稱號和智能運(yùn)維100強(qiáng)
View details尊龍時(shí)凱監(jiān)控助力銀行運(yùn)維數(shù)字化發(fā)展
View details年會以“匠心·初心”為主題,寓意“以匠心致初心”,時(shí)光不老,我們初心不改,尊龍時(shí)凱始終以匠心引,致力為客戶提供卓越的產(chǎn)品與服務(wù)。年會旨在回顧上一年的工作成果...
View details尊龍時(shí)凱監(jiān)控基于廣汽集團(tuán)目前IT運(yùn)維管理現(xiàn)狀,建議針對基礎(chǔ)架構(gòu)層、硬件層和軟件應(yīng)用層分層的管理監(jiān)控。
View details綜合運(yùn)維管理平臺的落地,實(shí)現(xiàn)了統(tǒng)一門戶、統(tǒng)一監(jiān)控、統(tǒng)一資產(chǎn)管理、統(tǒng)一運(yùn)維、統(tǒng)一存儲等目標(biāo),為客戶解決了運(yùn)維數(shù)據(jù)孤島、人力運(yùn)維等問題。
View details業(yè)務(wù)地圖、告警收斂、自動網(wǎng)絡(luò)拓?fù)?、虛擬化監(jiān)控、定制投屏、章節(jié)式報(bào)表、可持續(xù)消費(fèi)知識庫等、資產(chǎn)管理、自動運(yùn)維、服務(wù)管理等多個(gè)方面的功能和服務(wù)。
View details尊龍時(shí)凱從基礎(chǔ)資源、中間件、數(shù)據(jù)庫、到第三方系統(tǒng),提供全方位、快速關(guān)聯(lián)的監(jiān)控管理和分析能力,幫助用戶及時(shí)了解應(yīng)用系統(tǒng)的運(yùn)行狀態(tài)、性能、異常,防患于未然。
View details