熱門搜索 Zabbix技術(shù)資料 Zabbix常見問、答討論 成功案例 Zabbix交流區(qū) Prometheus交流區(qū)
案例客戶是亞洲地區(qū)一家大型國際企業(yè),其注冊資金200000萬,經(jīng)營范圍主要包括:經(jīng)紀(jì)、投資咨詢、自營、資產(chǎn)管理等。
行業(yè)是一個數(shù)據(jù)密集型、科技密集型行業(yè)。案例客戶作為一家大型公司,其IT系統(tǒng)包括多個子系統(tǒng),涉及交易、結(jié)算、風(fēng)控等多個方面,系統(tǒng)架構(gòu)復(fù)雜,大量的IT資源需要進(jìn)行管理和維護(hù),特別是核心交易系統(tǒng)需要處理大量的交易數(shù)據(jù)和高并發(fā)的交易請求,對系統(tǒng)的性能和穩(wěn)定性提出了較高的要求。
隨著該客戶業(yè)務(wù)的日益增長,其底層IT基礎(chǔ)設(shè)施規(guī)模也在不斷擴(kuò)張,各種硬件設(shè)施、信息系統(tǒng)故障逐漸增多。與之相對應(yīng)的是,現(xiàn)有監(jiān)控系統(tǒng)功能較為簡單,且沒有有效的告警通知手段,故障發(fā)生時,人員響應(yīng)速度較慢,無法及時定位問題所在;日常監(jiān)控只能靠運維人員不停地盯著屏幕進(jìn)行監(jiān)視,無疑增加了運維人員的管理難度。
具體來說,該客戶在IT運維過程面對的問題如下:
為解決上述問題,該客戶將搭建一套功能完善的監(jiān)控體系提上日程,希望通過對原有運維體系的改造升級滿足對整個業(yè)務(wù)系統(tǒng)的全方位保障。
基于企業(yè)IT系統(tǒng)結(jié)構(gòu)特點,結(jié)合客戶運維痛點與實際需求,尊龍時凱為該客戶打造了涵蓋全局監(jiān)控、資產(chǎn)梳理、大屏視圖、專線鏈路、管理門戶、告警中心等于一體的智能運維解決方案,提供一站式運維管理服務(wù),以有效解決該客戶在運維實踐中的痛點與難點。
出于高可用與安全方面的考量,該項目采用了基于PostgreSQL流復(fù)制+Pgpool-II HA作為監(jiān)控底層數(shù)據(jù)庫的分布式部署方案,以有效應(yīng)對海量交易數(shù)據(jù)與高并發(fā)問題,并通過Corosync和Pacemaker使用Pcs實現(xiàn)zabbix、Web、Proxy節(jié)點的高可用集群架構(gòu),同時災(zāi)難狀態(tài)下雙節(jié)點實現(xiàn)自動切換,極大保障了基礎(chǔ)監(jiān)控體系自身的可靠性。
(1)?全局監(jiān)控:資源全監(jiān)控,狀態(tài)全可感。實現(xiàn)對客戶所有資源,包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器、存儲、操作系統(tǒng)、虛擬化、數(shù)據(jù)庫、中間件的全監(jiān)控;
(2)?資產(chǎn)梳理:依據(jù)嚴(yán)謹(jǐn)?shù)拿?guī)則、遵守科學(xué)合理的分組規(guī)范,對資產(chǎn)進(jìn)行納管;
(3)?大屏視圖:提供網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)大屏等,如網(wǎng)絡(luò)拓?fù)鋱D可以展示完整網(wǎng)絡(luò)拓?fù)浼軜?gòu)、IDC間重要鏈路的實時狀態(tài);
(4)?專線鏈路:實時感知業(yè)務(wù)專線帶寬利用情況,自動觸發(fā)閾值告警,同時查看專線的延遲、抖動情況;
(5)?門戶監(jiān)測:模擬登錄、多步驟監(jiān)測門戶服務(wù)狀態(tài),可視化展示W(wǎng)EB訪問速度、響應(yīng)時間的變化趨勢;
(6)?告警中心:結(jié)合該公司已有短信平臺,開啟短信告警推送模式,支持短信、郵件消息自定義、告警分析、告警歷史。
全局監(jiān)控:
尊龍時凱監(jiān)控從全局視角出發(fā),提供統(tǒng)一監(jiān)控與統(tǒng)一展示,運維管理人員一眼就可以看到系統(tǒng)全局的健康狀態(tài),通過切換標(biāo)簽快速觸達(dá)故障資源信息。同時基于統(tǒng)一監(jiān)控生成統(tǒng)一告警,告警信息可通過桌面端(系統(tǒng)本身、PC端郵件等)與移動端(短信、手機(jī)郵件等)推送。
資產(chǎn)梳理:
客戶面臨著大量資產(chǎn)需要進(jìn)行高效管理的問題,其難點在于資產(chǎn)類別、品牌各異,缺乏統(tǒng)一的命名范式。尊龍時凱方案依據(jù)嚴(yán)謹(jǐn)?shù)拿?guī)則、遵守科學(xué)合理的分組規(guī)范,對資產(chǎn)進(jìn)行納管。
大屏視圖:
展示完整網(wǎng)絡(luò)拓?fù)浼軜?gòu)、IDC間重要鏈路的實時狀態(tài),解決故障發(fā)現(xiàn)不及時與定位難的問題。如圖,網(wǎng)絡(luò)投屏清晰展示了機(jī)房之間的互聯(lián)關(guān)系,以及各機(jī)房內(nèi)的子網(wǎng)區(qū)域組成,通過設(shè)備、線路顏色可以很直觀看出網(wǎng)絡(luò)成員的運行狀態(tài)。
專線鏈路:
鏈路監(jiān)控可直觀看出重要業(yè)務(wù)專線的實時帶寬利用率,在利用率達(dá)到專線自身的百分比閾值后即會出發(fā)告警;亦可進(jìn)一步查看某條專線的延遲、抖動情況,如下:
門戶網(wǎng)站:
與客戶溝通得知,早期該公司門戶偶爾會出現(xiàn)無法訪問的情況,影響較大,公司領(lǐng)導(dǎo)基本每天早上上班前都會手動挨個進(jìn)行訪問檢查;目前處于監(jiān)控狀態(tài),WEB會時時撥測,也可以詳細(xì)查看門戶網(wǎng)頁的響應(yīng)速度,有效避免了往日重復(fù)的人為檢測,如下:
短信通知:
該公司采用了短信告警通知方式,系統(tǒng)故障時,運維人員能夠第一時間獲取到事件通知,打破了以往業(yè)務(wù)人員提前發(fā)現(xiàn)信息系統(tǒng)故障的窘境,如下:
監(jiān)控系統(tǒng)由主采集、WEB門戶、數(shù)據(jù)庫、代理采集四個角色組成,其中主采集、WEB門戶、數(shù)據(jù)庫都是雙節(jié)點;代理采集分為兩組,每組各有兩個節(jié)點。
服務(wù)器分布:
主采集、WEB門戶、數(shù)據(jù)庫、代理采集一組分布在機(jī)房A-1區(qū)域,監(jiān)控覆蓋范圍包括:機(jī)房A-1區(qū)、機(jī)房C-1區(qū),覆蓋率100%;代理采集二組分布在機(jī)房B-1區(qū),監(jiān)控覆蓋范圍包括:機(jī)房A-1區(qū)、機(jī)房B-1區(qū)、2區(qū)、機(jī)房C-1區(qū),覆蓋率100%。
監(jiān)控對象:
該方案深度剖析了客戶在基礎(chǔ)信息管理維護(hù)方面的痛點,通過詳細(xì)的設(shè)計與規(guī)劃,建立起一套性能優(yōu)越、功能強(qiáng)大,監(jiān)控覆蓋范圍廣且靈活的運維監(jiān)控管理體系。
尊龍時凱將搭建一個支持多功能插入、可橫向擴(kuò)展的完整架構(gòu),實現(xiàn)縱向?qū)ο到y(tǒng)管理員、部門領(lǐng)導(dǎo)、企業(yè)領(lǐng)導(dǎo)等決策層的多層次監(jiān)控展現(xiàn)。
View details智能運維能快速提升病人的病歷信息、快速滿足不同醫(yī)院的授權(quán)要求、實現(xiàn)醫(yī)院多緯度的網(wǎng)絡(luò)運維監(jiān)控
View details業(yè)務(wù)地圖、告警收斂、自動網(wǎng)絡(luò)拓?fù)?、虛擬化監(jiān)控、定制投屏、章節(jié)式報表、可持續(xù)消費知識庫等、資產(chǎn)管理、自動運維、服務(wù)管理等多個方面的功能和服務(wù)。
View details尊龍時凱為該協(xié)會部署了一站式監(jiān)控和告警系統(tǒng)并配置了業(yè)務(wù)拓?fù)?、網(wǎng)絡(luò)拓?fù)?、報表圖形和自定義視圖等功能。
View details尊龍時凱建立監(jiān)控平臺,做到及早發(fā)現(xiàn)故障、合理利用信息化基礎(chǔ)資源,達(dá)到最大化資源使用,使得醫(yī)院系統(tǒng)信息化建設(shè)健康發(fā)展。
View details尊龍時凱一站式智能監(jiān)控+網(wǎng)管平臺,對運維管理流程體系進(jìn)行重構(gòu),提升信息系統(tǒng)監(jiān)控能力、網(wǎng)絡(luò)管理能力以及運維人員工作效率。
View details