隨著電子商務(wù)、云計算、大數(shù)據(jù)、人工智能、互聯(lián)網(wǎng)金融等應(yīng)用的快速發(fā)展,數(shù)據(jù)中心單體規(guī)模越來越大、系統(tǒng)越來越復(fù)雜,應(yīng)對的挑戰(zhàn)也越來越多。
一個好的數(shù)據(jù)中心需要通過科學(xué)的運維管理,充分利用技術(shù)和設(shè)備資源,將運行成本降到最低,同時能源利用率最大化。
京東在宿遷的自建數(shù)據(jù)中心,按照世界一流數(shù)據(jù)中心的理念設(shè)計和建設(shè),也按照國際先進的運營管理模式投入運行。
作為數(shù)據(jù)中心生命周期中最重要的一環(huán),如何針對基礎(chǔ)設(shè)施,各種IT設(shè)備,信息與數(shù)據(jù),應(yīng)用軟件等各方面展開數(shù)據(jù)中心的運維管理,為基礎(chǔ)設(shè)施和信息系統(tǒng)提供穩(wěn)定可靠的運行環(huán)境,確保他們安全,穩(wěn)定,可靠,持續(xù)并高效的運行。
京東IDC建設(shè)的技術(shù)專家們,設(shè)計并落地了一套先進的、可靠的智能化基礎(chǔ)設(shè)施運維管理體系,進行系統(tǒng)性的支撐。
接下來的內(nèi)容,我們將通過京東自建數(shù)據(jù)中心在運營維護中的人,制度,流程規(guī)范,監(jiān)控管理等各個方面,一窺這里是如何高效滿足京東不斷增長的業(yè)務(wù)需求。
1人
京東IDC建設(shè)部技術(shù)專家劉銘談到:人是數(shù)據(jù)中心IT設(shè)施運維管理的基礎(chǔ),也是管理的核心,正所謂是三分靠技術(shù),七分靠管理。京東在宿遷的自建數(shù)據(jù)中心,設(shè)施運維管理核心團隊組建于數(shù)據(jù)中心建設(shè)初期,主要的專業(yè)技術(shù)管理人員都深度參與了整個數(shù)據(jù)中心園區(qū)的工程建設(shè)以及測試驗證等重要環(huán)節(jié)。
在數(shù)據(jù)中心交付之前,他們就已經(jīng)充分的了解這個數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)的構(gòu)成,掌握了數(shù)據(jù)中心設(shè)計、施工、變更、整改的技術(shù)文檔和測試數(shù)據(jù),哪些是今后運維工作的特別關(guān)注點,都熟記于心。
京東自建數(shù)據(jù)中心的實施運維團隊主要有兩大工作職能。第一個是實行7*24小時輪崗工作制的運維巡檢團隊,他們對基礎(chǔ)設(shè)備設(shè)施進行巡檢,第一時間發(fā)現(xiàn)故障或問題。
第二個是對數(shù)據(jù)中心基礎(chǔ)設(shè)施提供運維技術(shù)支持,解決技術(shù)問題的技術(shù)管理團隊,他們承擔(dān)數(shù)據(jù)中心場地基礎(chǔ)設(shè)施的優(yōu)化改造工程和項目管理工作,也是運維管理的核心團隊。
2制度
設(shè)備臺賬制度
給每個獨立的數(shù)據(jù)中心模塊建立完整并實時更新的設(shè)備臺賬。臺賬包括所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的清單,并完整記錄這些設(shè)備設(shè)施的運行情況、事件情況、變更情況、維護保養(yǎng)頻次等信息。
對影響安全運行的關(guān)鍵設(shè)備,比如UPS、冷水機組、精密空調(diào)等的設(shè)定參數(shù)以及關(guān)鍵點的報警閥值制定了統(tǒng)一管理制度,結(jié)合數(shù)據(jù)中心實際運行情況與技術(shù),討論后按統(tǒng)一參數(shù)值設(shè)定,運維巡檢人員不可以隨意修改。
預(yù)防性維護計劃
為了延長設(shè)備的使用壽命,減少設(shè)備故障的概率,必須對所有設(shè)備設(shè)施進行有計劃的維護。提前制定月度、季度、年度的預(yù)防性維護計劃。
運維人員會按照設(shè)備和系統(tǒng)的特性、維護流程及規(guī)范,及時、完整的落實維護工作,并形成客觀實際的記錄和報告存檔。
此外,運維團隊還定期對設(shè)備運行狀態(tài)的數(shù)據(jù)進行統(tǒng)計和趨勢量化分析,對于異常的趨勢,及時作出報警和相關(guān)預(yù)案。
通過定期檢查和保養(yǎng),使得設(shè)備設(shè)施的某些缺陷或隱患在變得更嚴重之前被發(fā)現(xiàn)。
維修工單制度
運維人員在接到工單時,能明確獲悉工作任務(wù)與注意事項,提前熟悉操作流程,做到心中有數(shù)。在維修操作過程中,工單也可以起到指導(dǎo)操作的作用;在維修工作結(jié)束交單、備案歸檔。如果在維修過程中遇到困難,也便于及時通過上溯的渠道,快速解決問題。
3監(jiān)控
京東在宿遷的自建數(shù)據(jù)中心園區(qū)中,包含有4個數(shù)據(jù)中心模塊,每個模塊都配置有一個獨立的監(jiān)控中心,整個園區(qū)中心位置設(shè)置了綜合監(jiān)控中心ECC。
ECC的綜合智能監(jiān)控管理平臺,可以實現(xiàn)對數(shù)據(jù)中心各設(shè)備和系統(tǒng)的統(tǒng)一監(jiān)控與管理,提高整個系統(tǒng)的運行可靠性、穩(wěn)定性和擴展性,實現(xiàn)機房的科學(xué)管理。
作為園區(qū)級的監(jiān)控平臺,ECC很好的實現(xiàn)了:
1、可視化展示各設(shè)備設(shè)施實時狀態(tài),實時掌握可用性狀況;
2、業(yè)務(wù)流程規(guī)范化管理,變更風(fēng)險管控,降低變更帶給業(yè)務(wù)的影響;
3、復(fù)雜事件分析處理,準確定位故障;大數(shù)據(jù)分析,智能預(yù)警;
4、設(shè)備部署合理化,平衡各維度容量綜合利用率,避免單項容量短板;
5、可視化容量管理,直觀展示容量使用情況及趨勢分析,擴容決策及時準確;
6、提供多維度運行分析報告,為運營決策提供數(shù)據(jù)支持;
7、重大故障可實時準確提供數(shù)據(jù)中心應(yīng)急預(yù)案;
模塊級的監(jiān)控系統(tǒng)對基礎(chǔ)設(shè)施的監(jiān)控包括電氣,動力,環(huán)境三部分,實時進行監(jiān)測和展示被監(jiān)控的設(shè)備。
系統(tǒng)的架構(gòu)包含現(xiàn)場設(shè)備的數(shù)據(jù)采集層、現(xiàn)場設(shè)備監(jiān)控層和集中重慶監(jiān)控</a> http://www.swanschristmastreefarm.com監(jiān)控層。
現(xiàn)場設(shè)備數(shù)據(jù)采集層:由各種I/O采集模塊組成,連接所有傳感器和被監(jiān)控設(shè)備,實現(xiàn)監(jiān)控平臺與被監(jiān)控對象的數(shù)據(jù)通訊。所有硬件采用模塊化架構(gòu),I/O模塊采集傳感器數(shù)據(jù)后,通過系統(tǒng)配置實現(xiàn)對所有傳感器的數(shù)據(jù)匹配對應(yīng),直接接入現(xiàn)場監(jiān)控層。
現(xiàn)場設(shè)備監(jiān)控層:由多臺嵌入式服務(wù)器或獨立網(wǎng)絡(luò)控制器組成,負責(zé)收集與處理由現(xiàn)場設(shè)備采集層發(fā)送過來的數(shù)據(jù)。
模塊集中監(jiān)控層:采集現(xiàn)場設(shè)備監(jiān)控層上傳的數(shù)據(jù),對模塊內(nèi)的現(xiàn)場監(jiān)控服務(wù)器進行集中管理,實時監(jiān)測組內(nèi)基礎(chǔ)設(shè)施的參數(shù)、狀態(tài),并提供遠程瀏覽。在這個模塊中的監(jiān)控數(shù)據(jù),可以直接上傳至園區(qū)綜合監(jiān)控中心ECC的綜合監(jiān)控層。
集中管理平臺配置了“雙服務(wù)器+雙數(shù)據(jù)庫”,實現(xiàn)容錯配置。也開發(fā)了移動終端操控平臺,可以對數(shù)據(jù)中心的基礎(chǔ)業(yè)務(wù)進行實時操控
京東IT資源服務(wù)部負責(zé)人呂科說:“京東自建數(shù)據(jù)中心的設(shè)施運維管理有一個非常重要的目標,那就是要“建立一套持續(xù)改進的機制”,這一點往往容易被行業(yè)從業(yè)人員所忽略。數(shù)據(jù)中心設(shè)施運維管理與數(shù)據(jù)中心設(shè)施系統(tǒng)建設(shè)階段的項目管理有很大的不同,項目管理是一次性的,必須保障“當(dāng)前最佳”。而數(shù)據(jù)中心運維管理則是一個不斷迭代的過程,“一套持續(xù)改進的機制”可以保障數(shù)據(jù)中心運行效率不斷提高、重慶監(jiān)控</a> http://www.swanschristmastreefarm.com運行成本不斷降低。數(shù)據(jù)中心的設(shè)施運維工作就是這樣一個不斷優(yōu)化的過程,這也是我們的目標:沒有最好,只有更好。”