熱門搜索 Zabbix技術(shù)資料 Zabbix常見(jiàn)問(wèn)、答討論 成功案例 Zabbix交流區(qū) Prometheus交流區(qū)
案例醫(yī)院是一家某省省屬大型三級(jí)甲等綜合醫(yī)院。該醫(yī)院占地三百余畝,總建筑面積約26萬(wàn)平方米,開(kāi)放床位1500張,資產(chǎn)總值約15億元,其規(guī)劃建設(shè)一流,擁有諸多先進(jìn)配套設(shè)施,建設(shè)項(xiàng)目曾榮獲“國(guó)家優(yōu)質(zhì)工程”等多個(gè)獎(jiǎng)項(xiàng)。
作為一家大型三級(jí)甲等綜合醫(yī)院,客戶醫(yī)院擁有比較完善的科室體系,信息化程度高,配備了醫(yī)院信息系統(tǒng)(HIS)、電子病歷系統(tǒng)(EMRS)、臨床信息系統(tǒng)(CIS)、影像歸檔和通信系統(tǒng)(PACS)、放射科信息管理系統(tǒng)(RIS)等一系列信息化系統(tǒng),醫(yī)療信息化結(jié)構(gòu)體系復(fù)雜。
眾多的科室、復(fù)雜的信息化系統(tǒng),再加上國(guó)產(chǎn)信創(chuàng)進(jìn)程的持續(xù)推進(jìn),反映到運(yùn)維層面,即IT資源數(shù)量龐大、品類繁雜以及IT環(huán)境異構(gòu)帶來(lái)的運(yùn)維壓力大問(wèn)題。具體來(lái)說(shuō):
首先,由于原有的運(yùn)維監(jiān)控體系不夠完善,特別是對(duì)于國(guó)產(chǎn)信創(chuàng)設(shè)備,有可能出現(xiàn)監(jiān)控不支持、不全面(有遺漏)、不及時(shí)的問(wèn)題,或者需要較長(zhǎng)時(shí)間、較高的學(xué)習(xí)成本才能適配信創(chuàng)設(shè)備,不能做到一站式監(jiān)控,信息部門無(wú)法整體把控全局系統(tǒng)的運(yùn)行狀態(tài);
其次,定位困難。由于運(yùn)維工具的限制,當(dāng)故障發(fā)生時(shí),運(yùn)維人員往往不能第一時(shí)間定位故障點(diǎn),需要依靠人工逐層分析,經(jīng)過(guò)大量的檢索和排查找到故障點(diǎn)與故障原因,才能進(jìn)行故障處理,效率較為低下;
最后,故障問(wèn)題與解決方案無(wú)法通過(guò)在線錄入,缺乏知識(shí)沉積與共享機(jī)制,解決方案不能復(fù)用,嚴(yán)重依賴運(yùn)維人員個(gè)人工作經(jīng)驗(yàn)及技術(shù)能力,不同的運(yùn)維人員很難對(duì)類似故障進(jìn)行快速解決。
面對(duì)上述情況,客戶醫(yī)院有感于運(yùn)維體系對(duì)醫(yī)院信息化架構(gòu)的支撐不足,迫切需要對(duì)運(yùn)維監(jiān)控系統(tǒng)進(jìn)行升級(jí)改造。
基于客戶醫(yī)院原有的運(yùn)維體系、運(yùn)維痛點(diǎn)和對(duì)監(jiān)控的需求,尊龍時(shí)凱為其量身打造了一套一站式智能運(yùn)維監(jiān)控解決方案,搭建統(tǒng)一監(jiān)控平臺(tái),引入智能化告警管理系統(tǒng)、可視化管理系統(tǒng)、網(wǎng)絡(luò)拓?fù)渑c報(bào)表管理體系,從多維度增強(qiáng)其運(yùn)維管理能力,為支撐業(yè)務(wù)系統(tǒng)提供更強(qiáng)有力的保障。
框架介紹
統(tǒng)一監(jiān)控平臺(tái)提供從底層的資源監(jiān)測(cè)、數(shù)據(jù)采集到集中監(jiān)控與告警管理,再到可視化展示與報(bào)表等一站式運(yùn)維監(jiān)控服務(wù)。
在資源監(jiān)測(cè)層面,機(jī)房、網(wǎng)絡(luò)、云計(jì)算、應(yīng)用、虛擬化、容器等監(jiān)測(cè)不在話下,同時(shí)支持對(duì)接第三方監(jiān)控系統(tǒng)推送的數(shù)據(jù),無(wú)需對(duì)整個(gè)運(yùn)維監(jiān)控體系進(jìn)行推倒重建,通過(guò)整合改造實(shí)現(xiàn)全局監(jiān)控效果,提高部署效率,有效減少項(xiàng)目建設(shè)支出。
采集適配層面,經(jīng)過(guò)多年技術(shù)攻關(guān)與技術(shù)沉淀,累計(jì)兼容數(shù)十種協(xié)議及代理,可適配和采集500+廠商、2000+設(shè)備型號(hào)數(shù)據(jù),在監(jiān)控資源種類、監(jiān)控指標(biāo)數(shù)量以及準(zhǔn)確性和及時(shí)性等方面達(dá)到業(yè)內(nèi)領(lǐng)先水平。
監(jiān)控與告警方面,整合原有分散的監(jiān)控體系形成集中統(tǒng)一的全局監(jiān)控,并聚合多個(gè)第三方平臺(tái)告警信息形成集中告警,。
此外,統(tǒng)一監(jiān)控平臺(tái)還提供了數(shù)種可視化管理工具,包括網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)拓?fù)?、投屏視圖等,可為故障診斷與決策分析提供支撐;可持續(xù)消費(fèi)的知識(shí)庫(kù),沉淀與共享解決方案;報(bào)表系統(tǒng),監(jiān)控?cái)?shù)據(jù)充分利用,進(jìn)行異常分析與趨勢(shì)預(yù)測(cè)等。
總體而言,統(tǒng)一監(jiān)控平臺(tái)可以提供以下能力:
通過(guò)構(gòu)建統(tǒng)一監(jiān)控平臺(tái),對(duì)醫(yī)院業(yè)務(wù)系統(tǒng)和IT基礎(chǔ)架構(gòu)進(jìn)行統(tǒng)一監(jiān)控和集中管理,便于對(duì)全局運(yùn)行狀態(tài)進(jìn)行把控。
統(tǒng)一監(jiān)控平臺(tái)將醫(yī)院所有的IT資源——包括信創(chuàng)與非信創(chuàng)設(shè)備,按照操作系統(tǒng)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、中間件、虛擬化、服務(wù)器、存儲(chǔ)等進(jìn)行劃分,完成對(duì)數(shù)百個(gè)對(duì)象統(tǒng)一監(jiān)控;
可直觀的查看設(shè)備類型、數(shù)量、告警類別、告警數(shù)量等,同時(shí)可配置資源消耗及告警組件,如CPU、內(nèi)存消耗TOPN視圖,最新告警視圖等。
平臺(tái)支持集中對(duì)象展示與自動(dòng)分類展示,可直觀看到當(dāng)前整個(gè)IT系統(tǒng)運(yùn)行狀態(tài)是否正常,運(yùn)維人員無(wú)需單獨(dú)去登錄每個(gè)系統(tǒng)、每個(gè)設(shè)備進(jìn)行繁瑣的巡檢工作,將監(jiān)控和管理有機(jī)地結(jié)合起來(lái),提高整個(gè)IT系統(tǒng)及資源的運(yùn)行質(zhì)量,增強(qiáng)IT基礎(chǔ)設(shè)施運(yùn)行的穩(wěn)定性和可靠性,同時(shí)提升信息部門的IT管理水平。
在監(jiān)控系統(tǒng)中,監(jiān)控首頁(yè)可進(jìn)行高度自定義,實(shí)現(xiàn)登錄即運(yùn)維,快速對(duì)整個(gè)系統(tǒng)狀態(tài)進(jìn)行了解,資源使用情況及系統(tǒng)告警情況一目了然。
異常感知包括兩方面能力,故障告警與故障預(yù)知。
故障告警針對(duì)突發(fā)故障情況,如硬件損壞、網(wǎng)絡(luò)中斷等不可預(yù)知、不可抗因素,通過(guò)實(shí)時(shí)監(jiān)控和發(fā)送告警信息,提醒運(yùn)維人員響應(yīng)故障解決。
故障預(yù)知主要針對(duì)資源消耗,如存儲(chǔ)消耗、CPU性能消耗等,可通過(guò)預(yù)先設(shè)置閾值管理,當(dāng)資源消耗達(dá)到設(shè)定閾值時(shí)觸發(fā)告警;更重要的是還能通過(guò)AI智能算法,預(yù)估業(yè)務(wù)資源消耗趨勢(shì),在一定程度推斷出閾值告警觸發(fā)時(shí)間,搶先做好資源配置布局。
統(tǒng)一監(jiān)控平臺(tái)所賦予的集中警報(bào)功能,涵蓋了實(shí)時(shí)警報(bào)、全面警報(bào),以及告警分析等多元維度,并支持告警升級(jí)、告警收斂與多樣化告警通知,致力于全面的告警防護(hù)和等級(jí)劃分,同時(shí)確保了告警的可追溯性,為真正的7×24小時(shí)連續(xù)監(jiān)控提供了保障,從而顯著減輕了運(yùn)維人員的工作壓力。
除此之外,運(yùn)維團(tuán)隊(duì)還可查閱近期的警報(bào)趨勢(shì)以及警報(bào)等級(jí)的分布狀況,以便迅速獲取IT系統(tǒng)資源的監(jiān)控信息,及時(shí)掌控整個(gè)系統(tǒng)故障問(wèn)題的發(fā)生時(shí)間和分布情況。在這一過(guò)程中,運(yùn)維團(tuán)隊(duì)還能夠挖掘出系統(tǒng)故障的規(guī)律和類型,從而預(yù)測(cè)未來(lái)可能的故障,制定更為完善的故障應(yīng)對(duì)策略,進(jìn)一步提升IT系統(tǒng)的可靠性。此外,針對(duì)某些故障類型,團(tuán)隊(duì)可以獲取到詳盡的設(shè)備歷史運(yùn)行數(shù)據(jù),以便從根源入手解決問(wèn)題,并找到預(yù)防的方法。
統(tǒng)一監(jiān)控平臺(tái)配備了多樣數(shù)據(jù)展示方式,將復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為易于理解的可視化圖表,如可配置的網(wǎng)絡(luò)拓?fù)?、業(yè)務(wù)拓?fù)?,可通過(guò)投屏配置方式呈現(xiàn),及時(shí)反映重點(diǎn)關(guān)注的如網(wǎng)絡(luò)健康狀況、專線鏈路狀況等。當(dāng)出現(xiàn)異常時(shí),就可以快速定位故障,大幅縮短故障定位、排查時(shí)間,并為解決故障提供有效依據(jù)。
基于簡(jiǎn)化操作、提高可用性的產(chǎn)品理念,統(tǒng)一監(jiān)控平臺(tái)內(nèi)置了多種展示模板,這些模板具有個(gè)性化設(shè)置功能,包括儀表盤、酷屏、魔方等多種應(yīng)用模式,以及雙軸圖、條圖、地圖、餅圖、環(huán)形餅圖、扇形圖、嵌套圖、單值圖、水滴圖、散點(diǎn)圖、氣泡圖、雷達(dá)圖、儀表盤等多種可視化模板,開(kāi)箱即用。
方案具備高級(jí)別的網(wǎng)絡(luò)拓?fù)涔δ?,這一功能在信息化系統(tǒng)中發(fā)揮著核心作用,其核心價(jià)值在于直觀地展現(xiàn)網(wǎng)絡(luò)運(yùn)行狀況,可為醫(yī)院信息化架構(gòu)發(fā)展規(guī)劃提供方向性和節(jié)奏性的指導(dǎo)。據(jù)此,方案采用LLDP協(xié)議進(jìn)行配置,便能夠?qū)崿F(xiàn)網(wǎng)絡(luò)設(shè)備的自動(dòng)識(shí)別、自動(dòng)關(guān)聯(lián)和網(wǎng)絡(luò)設(shè)備的精準(zhǔn)匹配,進(jìn)而形成完整的網(wǎng)絡(luò)拓?fù)鋱D。
依據(jù)客戶所提出的具體需求,統(tǒng)一監(jiān)控平臺(tái)還內(nèi)置了個(gè)性化報(bào)表功能,能夠生成并存儲(chǔ)核心交換機(jī)端口帶寬及流量使用性能的日?qǐng)?bào)表和周報(bào)表;同時(shí),還可針對(duì)特定的業(yè)務(wù)系統(tǒng),提供日?qǐng)?bào)表、周報(bào)表,展示數(shù)據(jù)趨勢(shì),以及性能分析結(jié)果;通過(guò)報(bào)表的告警統(tǒng)計(jì)功能,從不同的視角來(lái)觀測(cè)整個(gè)信息化基礎(chǔ)架構(gòu)的運(yùn)行狀況,如操作系統(tǒng)告警統(tǒng)計(jì)、網(wǎng)絡(luò)設(shè)備告警統(tǒng)計(jì)等,并按不同類別、不同等級(jí)進(jìn)行展示。
監(jiān)控了內(nèi)蒙、昌平、上海、貴州四區(qū)域核心機(jī)房,主機(jī)對(duì)象30000左右,數(shù)據(jù)日增量約100G。
View details尊龍時(shí)凱項(xiàng)目團(tuán)隊(duì)對(duì)客戶IT資源狀況進(jìn)行梳理,確定項(xiàng)目所涉及的監(jiān)控對(duì)象包括主機(jī)、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、中間件、應(yīng)用、業(yè)務(wù)系統(tǒng)、存儲(chǔ)、虛擬化等,決定為客戶打造以...
View details尊龍時(shí)凱為歌莉婭設(shè)置了大屏監(jiān)控、全局試圖和故障排查等功能。
View details尊龍時(shí)凱監(jiān)控基于廣汽集團(tuán)目前IT運(yùn)維管理現(xiàn)狀,建議針對(duì)基礎(chǔ)架構(gòu)層、硬件層和軟件應(yīng)用層分層的管理監(jiān)控。
View details