熱門搜索 Zabbix技術(shù)資料 Zabbix常見問、答討論 成功案例 Zabbix交流區(qū) Prometheus交流區(qū)
案例客戶是亞洲地區(qū)一家大型國(guó)際企業(yè),其注冊(cè)資金200000萬,經(jīng)營(yíng)范圍主要包括:經(jīng)紀(jì)、投資咨詢、自營(yíng)、資產(chǎn)管理等。
行業(yè)是一個(gè)數(shù)據(jù)密集型、科技密集型行業(yè)。案例客戶作為一家大型公司,其IT系統(tǒng)包括多個(gè)子系統(tǒng),涉及交易、結(jié)算、風(fēng)控等多個(gè)方面,系統(tǒng)架構(gòu)復(fù)雜,大量的IT資源需要進(jìn)行管理和維護(hù),特別是核心交易系統(tǒng)需要處理大量的交易數(shù)據(jù)和高并發(fā)的交易請(qǐng)求,對(duì)系統(tǒng)的性能和穩(wěn)定性提出了較高的要求。
隨著該客戶業(yè)務(wù)的日益增長(zhǎng),其底層IT基礎(chǔ)設(shè)施規(guī)模也在不斷擴(kuò)張,各種硬件設(shè)施、信息系統(tǒng)故障逐漸增多。與之相對(duì)應(yīng)的是,現(xiàn)有監(jiān)控系統(tǒng)功能較為簡(jiǎn)單,且沒有有效的告警通知手段,故障發(fā)生時(shí),人員響應(yīng)速度較慢,無法及時(shí)定位問題所在;日常監(jiān)控只能靠運(yùn)維人員不停地盯著屏幕進(jìn)行監(jiān)視,無疑增加了運(yùn)維人員的管理難度。
具體來說,該客戶在IT運(yùn)維過程面對(duì)的問題如下:
為解決上述問題,該客戶將搭建一套功能完善的監(jiān)控體系提上日程,希望通過對(duì)原有運(yùn)維體系的改造升級(jí)滿足對(duì)整個(gè)業(yè)務(wù)系統(tǒng)的全方位保障。
基于企業(yè)IT系統(tǒng)結(jié)構(gòu)特點(diǎn),結(jié)合客戶運(yùn)維痛點(diǎn)與實(shí)際需求,尊龍時(shí)凱為該客戶打造了涵蓋全局監(jiān)控、資產(chǎn)梳理、大屏視圖、專線鏈路、管理門戶、告警中心等于一體的智能運(yùn)維解決方案,提供一站式運(yùn)維管理服務(wù),以有效解決該客戶在運(yùn)維實(shí)踐中的痛點(diǎn)與難點(diǎn)。
出于高可用與安全方面的考量,該項(xiàng)目采用了基于PostgreSQL流復(fù)制+Pgpool-II HA作為監(jiān)控底層數(shù)據(jù)庫(kù)的分布式部署方案,以有效應(yīng)對(duì)海量交易數(shù)據(jù)與高并發(fā)問題,并通過Corosync和Pacemaker使用Pcs實(shí)現(xiàn)zabbix、Web、Proxy節(jié)點(diǎn)的高可用集群架構(gòu),同時(shí)災(zāi)難狀態(tài)下雙節(jié)點(diǎn)實(shí)現(xiàn)自動(dòng)切換,極大保障了基礎(chǔ)監(jiān)控體系自身的可靠性。
(1)?全局監(jiān)控:資源全監(jiān)控,狀態(tài)全可感。實(shí)現(xiàn)對(duì)客戶所有資源,包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器、存儲(chǔ)、操作系統(tǒng)、虛擬化、數(shù)據(jù)庫(kù)、中間件的全監(jiān)控;
(2)?資產(chǎn)梳理:依據(jù)嚴(yán)謹(jǐn)?shù)拿?guī)則、遵守科學(xué)合理的分組規(guī)范,對(duì)資產(chǎn)進(jìn)行納管;
(3)?大屏視圖:提供網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)大屏等,如網(wǎng)絡(luò)拓?fù)鋱D可以展示完整網(wǎng)絡(luò)拓?fù)浼軜?gòu)、IDC間重要鏈路的實(shí)時(shí)狀態(tài);
(4)?專線鏈路:實(shí)時(shí)感知業(yè)務(wù)專線帶寬利用情況,自動(dòng)觸發(fā)閾值告警,同時(shí)查看專線的延遲、抖動(dòng)情況;
(5)?門戶監(jiān)測(cè):模擬登錄、多步驟監(jiān)測(cè)門戶服務(wù)狀態(tài),可視化展示W(wǎng)EB訪問速度、響應(yīng)時(shí)間的變化趨勢(shì);
(6)?告警中心:結(jié)合該公司已有短信平臺(tái),開啟短信告警推送模式,支持短信、郵件消息自定義、告警分析、告警歷史。
全局監(jiān)控:
尊龍時(shí)凱監(jiān)控從全局視角出發(fā),提供統(tǒng)一監(jiān)控與統(tǒng)一展示,運(yùn)維管理人員一眼就可以看到系統(tǒng)全局的健康狀態(tài),通過切換標(biāo)簽快速觸達(dá)故障資源信息。同時(shí)基于統(tǒng)一監(jiān)控生成統(tǒng)一告警,告警信息可通過桌面端(系統(tǒng)本身、PC端郵件等)與移動(dòng)端(短信、手機(jī)郵件等)推送。
資產(chǎn)梳理:
客戶面臨著大量資產(chǎn)需要進(jìn)行高效管理的問題,其難點(diǎn)在于資產(chǎn)類別、品牌各異,缺乏統(tǒng)一的命名范式。尊龍時(shí)凱方案依據(jù)嚴(yán)謹(jǐn)?shù)拿?guī)則、遵守科學(xué)合理的分組規(guī)范,對(duì)資產(chǎn)進(jìn)行納管。
大屏視圖:
展示完整網(wǎng)絡(luò)拓?fù)浼軜?gòu)、IDC間重要鏈路的實(shí)時(shí)狀態(tài),解決故障發(fā)現(xiàn)不及時(shí)與定位難的問題。如圖,網(wǎng)絡(luò)投屏清晰展示了機(jī)房之間的互聯(lián)關(guān)系,以及各機(jī)房?jī)?nèi)的子網(wǎng)區(qū)域組成,通過設(shè)備、線路顏色可以很直觀看出網(wǎng)絡(luò)成員的運(yùn)行狀態(tài)。
專線鏈路:
鏈路監(jiān)控可直觀看出重要業(yè)務(wù)專線的實(shí)時(shí)帶寬利用率,在利用率達(dá)到專線自身的百分比閾值后即會(huì)出發(fā)告警;亦可進(jìn)一步查看某條專線的延遲、抖動(dòng)情況,如下:
門戶網(wǎng)站:
與客戶溝通得知,早期該公司門戶偶爾會(huì)出現(xiàn)無法訪問的情況,影響較大,公司領(lǐng)導(dǎo)基本每天早上上班前都會(huì)手動(dòng)挨個(gè)進(jìn)行訪問檢查;目前處于監(jiān)控狀態(tài),WEB會(huì)時(shí)時(shí)撥測(cè),也可以詳細(xì)查看門戶網(wǎng)頁(yè)的響應(yīng)速度,有效避免了往日重復(fù)的人為檢測(cè),如下:
短信通知:
該公司采用了短信告警通知方式,系統(tǒng)故障時(shí),運(yùn)維人員能夠第一時(shí)間獲取到事件通知,打破了以往業(yè)務(wù)人員提前發(fā)現(xiàn)信息系統(tǒng)故障的窘境,如下:
監(jiān)控系統(tǒng)由主采集、WEB門戶、數(shù)據(jù)庫(kù)、代理采集四個(gè)角色組成,其中主采集、WEB門戶、數(shù)據(jù)庫(kù)都是雙節(jié)點(diǎn);代理采集分為兩組,每組各有兩個(gè)節(jié)點(diǎn)。
服務(wù)器分布:
主采集、WEB門戶、數(shù)據(jù)庫(kù)、代理采集一組分布在機(jī)房A-1區(qū)域,監(jiān)控覆蓋范圍包括:機(jī)房A-1區(qū)、機(jī)房C-1區(qū),覆蓋率100%;代理采集二組分布在機(jī)房B-1區(qū),監(jiān)控覆蓋范圍包括:機(jī)房A-1區(qū)、機(jī)房B-1區(qū)、2區(qū)、機(jī)房C-1區(qū),覆蓋率100%。
監(jiān)控對(duì)象:
該方案深度剖析了客戶在基礎(chǔ)信息管理維護(hù)方面的痛點(diǎn),通過詳細(xì)的設(shè)計(jì)與規(guī)劃,建立起一套性能優(yōu)越、功能強(qiáng)大,監(jiān)控覆蓋范圍廣且靈活的運(yùn)維監(jiān)控管理體系。
智能運(yùn)維能快速提升病人的病歷信息、快速滿足不同醫(yī)院的授權(quán)要求、實(shí)現(xiàn)醫(yī)院多緯度的網(wǎng)絡(luò)運(yùn)維監(jiān)控
View details尊龍時(shí)凱將搭建一個(gè)支持多功能插入、可橫向擴(kuò)展的完整架構(gòu),實(shí)現(xiàn)縱向?qū)ο到y(tǒng)管理員、部門領(lǐng)導(dǎo)、企業(yè)領(lǐng)導(dǎo)等決策層的多層次監(jiān)控展現(xiàn)。
View details智能運(yùn)維可以搭配信息安全系統(tǒng)、負(fù)載均衡系統(tǒng)、網(wǎng)絡(luò)監(jiān)控系統(tǒng)
View details高校運(yùn)維解決方案以基礎(chǔ)架構(gòu)監(jiān)控平臺(tái)為依托,結(jié)合可視化大屏、集中告警、報(bào)表系統(tǒng)、權(quán)限管理、業(yè)務(wù)系統(tǒng)管理等模塊,實(shí)現(xiàn)對(duì)IT基礎(chǔ)架構(gòu)和教學(xué)系統(tǒng)等統(tǒng)一集中監(jiān)...
View details50萬個(gè)IT資產(chǎn)管理平臺(tái)建設(shè)實(shí)踐
View details為完善該產(chǎn)業(yè)園信息化系統(tǒng),向運(yùn)維人員提供有效幫助,更高效率開展運(yùn)維工作。在現(xiàn)有信息化相關(guān)維護(hù)前提下,有必要建立一套針對(duì)信息化的監(jiān)控平臺(tái),做到及早發(fā)...
View details數(shù)字政務(wù)在全國(guó)范圍內(nèi)加速推進(jìn),不斷提升政府部門的政務(wù)服務(wù)水平與效率。針對(duì)數(shù)字政府建設(shè)帶來的運(yùn)維層面問題,尊龍時(shí)凱打造集監(jiān)控、日志管理、資產(chǎn)管理于一體的...
View details