何寶宏:中國(guó)信通院穩(wěn)步推進(jìn)各領(lǐng)域系統(tǒng)穩(wěn)定性保障

2022-04-28 11:00:29

在今日召開(kāi)的首屆“全球數(shù)據(jù)系統(tǒng)穩(wěn)定峰會(huì)”上,中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏對(duì)中國(guó)信通院數(shù)據(jù)系統(tǒng)穩(wěn)定工作體系進(jìn)行了介紹。

何寶宏稱,中國(guó)信通院于2021年啟動(dòng)穩(wěn)定相關(guān)工作,依托分布式系統(tǒng)穩(wěn)定實(shí)驗(yàn)室,面向供給側(cè)機(jī)構(gòu)、監(jiān)管機(jī)構(gòu)及應(yīng)用側(cè)機(jī)構(gòu),形成面向產(chǎn)品、工具、服務(wù)商、系統(tǒng)、災(zāi)備和保障體系等對(duì)象的“STAR”評(píng)估體系,助力我國(guó)各領(lǐng)域系統(tǒng)穩(wěn)定保障工作。

系統(tǒng)穩(wěn)定保障關(guān)鍵問(wèn)題凸出

在2021年全球發(fā)生了多起嚴(yán)重的信息系統(tǒng)宕機(jī)事件,其中不乏有互聯(lián)網(wǎng)基礎(chǔ)設(shè)施、金融核心業(yè)務(wù)系統(tǒng)等,這些關(guān)鍵系統(tǒng)的宕機(jī)事件不僅造成了大量經(jīng)濟(jì)損失,也影響了社會(huì)的穩(wěn)運(yùn)行,同時(shí)也給其他系統(tǒng)建設(shè)運(yùn)營(yíng)者、監(jiān)管機(jī)構(gòu)敲響警鐘,系統(tǒng)的穩(wěn)定保障成為當(dāng)前熱點(diǎn)問(wèn)題。

何寶宏指出,在我國(guó),保障關(guān)鍵系統(tǒng)的穩(wěn)運(yùn)行受到國(guó)家層面高度重視,《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》自2021年9月1日起正式實(shí)施,明確要求關(guān)鍵基礎(chǔ)設(shè)施的運(yùn)營(yíng)者要依照條例和有關(guān)法律法規(guī)保障關(guān)鍵信息基礎(chǔ)設(shè)施的安全穩(wěn)定運(yùn)行。

隨著數(shù)字技術(shù)的更新,信息化系統(tǒng)的重要突顯,系統(tǒng)穩(wěn)定面臨著新的挑戰(zhàn)?;ヂ?lián)網(wǎng)等數(shù)字原生企業(yè)為提升數(shù)字能力、滿足用戶需求,不斷擴(kuò)大系統(tǒng)規(guī)模,引入敏捷開(kāi)發(fā)流程,導(dǎo)致信息系統(tǒng)復(fù)雜直線上升,穩(wěn)定風(fēng)險(xiǎn)點(diǎn)增多,金融、電信等科技密集型行業(yè),系統(tǒng)在線化程度不斷提升,新技術(shù)不斷引入,信息系統(tǒng)功能范圍和復(fù)雜度不斷升級(jí)。而政務(wù)、能源等傳統(tǒng)行業(yè)也在政策推動(dòng)下,將服務(wù)模式從原來(lái)的5×8的線下模式升級(jí)成7×24小時(shí)的線上模式,導(dǎo)致系統(tǒng)穩(wěn)定壓力激增。

何寶宏表示,當(dāng)前信息系統(tǒng)穩(wěn)定保障領(lǐng)域在技術(shù)、管理等方面都存在不足,比如技術(shù)方面隨著新技術(shù)新架構(gòu)應(yīng)用存在異構(gòu)軟硬件兼容問(wèn)題,分布式架構(gòu)普及集群規(guī)模擴(kuò)大導(dǎo)致硬件故障更普遍、通信交互更不穩(wěn)定。在管理方面,由于系統(tǒng)涉及的部門機(jī)構(gòu)增多,帶來(lái)大量的溝通成本,導(dǎo)致穩(wěn)定保障鏈路變長(zhǎng),跨團(tuán)隊(duì)協(xié)作更加困難。

中國(guó)信通院穩(wěn)步推進(jìn)相關(guān)工作

據(jù)悉,因運(yùn)營(yíng)行程卡系統(tǒng),中國(guó)信通院在系統(tǒng)保障方面積累了大量的實(shí)踐經(jīng)驗(yàn),行程卡至今已經(jīng)運(yùn)行了2年,累計(jì)查詢突破458億次,期單日查詢量維持在3億次以上,其使用量隨著全國(guó)疫情變化波動(dòng),成為了疫情防控重要工具。為保障行程卡系統(tǒng)長(zhǎng)期穩(wěn)運(yùn)行,行程卡團(tuán)隊(duì)實(shí)施很多保障穩(wěn)定的措施:

首先,通過(guò)優(yōu)化技術(shù)架構(gòu),對(duì)不同訪問(wèn)渠道的服務(wù)資源進(jìn)行隔離,將三大運(yùn)營(yíng)商的服務(wù)通道解耦,實(shí)現(xiàn)各渠道及各運(yùn)營(yíng)商之間服務(wù)互不影響。

其次,對(duì)服務(wù)器負(fù)載均衡、帶寬、數(shù)據(jù)庫(kù)等資源進(jìn)行多次擴(kuò)容,已滿足不斷增長(zhǎng)的訪問(wèn)請(qǐng)求,目前系統(tǒng)峰值容量較去年已經(jīng)提升10倍以上,并通過(guò)周期壓測(cè)隨時(shí)確認(rèn)系統(tǒng)的容量情況。

第三,行程碼建立了備份容災(zāi)系統(tǒng),開(kāi)展了多次應(yīng)急演練,可以隨時(shí)進(jìn)行主備切換。團(tuán)隊(duì)開(kāi)發(fā)了全鏈路監(jiān)控系統(tǒng),能夠監(jiān)控各環(huán)節(jié)流量變化。為應(yīng)對(duì)流量高峰,團(tuán)隊(duì)建立了突發(fā)情況的限流機(jī)制,保障系統(tǒng)不中斷服務(wù)。

最后,行程卡還建立健全了運(yùn)營(yíng)維護(hù)的管理制度,形成了日常運(yùn)維、重點(diǎn)保障、應(yīng)急處置三位一體的運(yùn)維保障體系。

何寶宏表示,基于以上背景,為助力我國(guó)各領(lǐng)域數(shù)據(jù)系統(tǒng)穩(wěn)定提升,中國(guó)信通院于2020年啟動(dòng)穩(wěn)定相關(guān)工作,依托分布式系統(tǒng)穩(wěn)定實(shí)驗(yàn)室,面向供給側(cè)、監(jiān)管機(jī)構(gòu)、應(yīng)用側(cè)等三類角色,形成產(chǎn)品穩(wěn)定、穩(wěn)定支撐工具、服務(wù)商、系統(tǒng)自身、系統(tǒng)災(zāi)備能力、系統(tǒng)穩(wěn)定體系等六條工作主線,統(tǒng)一構(gòu)成了STAR評(píng)估系統(tǒng)。

其中,分布式系統(tǒng)穩(wěn)定實(shí)驗(yàn)室的定位是要打造行業(yè)臺(tái),匯聚系統(tǒng)穩(wěn)定相關(guān)方的智慧,共同定義、梳理、研究、推廣系統(tǒng)穩(wěn)定相關(guān)工作和成果。由中國(guó)信通院牽頭,自2021年4月成立以來(lái),目前共計(jì)50余家成員單位,并且已組建包括23位技術(shù)專家的專家團(tuán),形成強(qiáng)大的研究和服務(wù)能力。實(shí)驗(yàn)室通過(guò)定期舉辦技術(shù)沙龍,集中編制穩(wěn)定相關(guān)標(biāo)準(zhǔn)和、研究報(bào)告和實(shí)踐指南等方式,持續(xù)推動(dòng)穩(wěn)定各項(xiàng)工作。

詳解STAR評(píng)估六條主線

在會(huì)上,何寶宏詳細(xì)介紹了STAR評(píng)估體系的六條主線工作。其中,STAR-A為穩(wěn)定保障體系評(píng)估,STAR-R為系統(tǒng)災(zāi)備能力評(píng)估,STAR-S為系統(tǒng)壓測(cè)/撥測(cè)服務(wù),STAR-E為服務(wù)商能力評(píng)估,STAR-T為穩(wěn)定保障工具測(cè)評(píng),STAR-P為軟件產(chǎn)品穩(wěn)定測(cè)試。STAR評(píng)估體系完整涵蓋數(shù)據(jù)系統(tǒng)穩(wěn)定相關(guān)工作中涉及的各類對(duì)象,可以全方位衡量各環(huán)節(jié)的相關(guān)能力。

1、STAR-A,穩(wěn)定保障體系評(píng)估。當(dāng)前系統(tǒng)技術(shù)迭代快,架構(gòu)復(fù)雜,理論上來(lái)說(shuō),“沒(méi)有絕對(duì)穩(wěn)定的系統(tǒng),只有相對(duì)完善的保障體系”。由此,本部分工作主要是針對(duì)如何通過(guò)各類保障手段,最大限度確保系統(tǒng)穩(wěn)定。因此,信通院聯(lián)合行業(yè)力量共同編制了一套評(píng)估體系——《分布式系統(tǒng)穩(wěn)定保障能力分級(jí)要求》,以及兩本實(shí)踐方法論——《混沌工程實(shí)踐指南》和《系統(tǒng)穩(wěn)定保障能力建設(shè)指南1.0》。同時(shí),依據(jù)評(píng)估標(biāo)準(zhǔn),開(kāi)展首批數(shù)據(jù)系統(tǒng)穩(wěn)定保障能力評(píng)估,首批共有12個(gè)信息系統(tǒng)通過(guò)。

2、STAR-R,系統(tǒng)災(zāi)備能力評(píng)估。數(shù)據(jù)系統(tǒng)出現(xiàn)故障是不可避免的,災(zāi)備系統(tǒng)能夠在數(shù)據(jù)盡量少丟失的情況下,保持業(yè)務(wù)系統(tǒng)盡快恢復(fù)甚至不間斷運(yùn)行,是現(xiàn)代數(shù)據(jù)系統(tǒng)不可或缺的基礎(chǔ)設(shè)施。為衡量數(shù)據(jù)系統(tǒng)災(zāi)備能力,中國(guó)信通院聯(lián)合行業(yè)編制了《數(shù)據(jù)系統(tǒng)災(zāi)備能力成熟度模型》,從五大能力域、30個(gè)能力項(xiàng)全方位衡量系統(tǒng)的災(zāi)備能力。標(biāo)準(zhǔn)的發(fā)布,一方面可以為應(yīng)用方建設(shè)災(zāi)備系統(tǒng)提供參考,另一方面,也可以評(píng)估已經(jīng)建成災(zāi)備系統(tǒng)的實(shí)際能力。

3、STAR-S,向數(shù)據(jù)系統(tǒng)提供壓測(cè)/撥測(cè)服務(wù)。系統(tǒng)穩(wěn)定的真實(shí)情況一定要通過(guò)合理的測(cè)試和持續(xù)的監(jiān)測(cè)才能獲得,因此,圍繞如何衡量系統(tǒng)實(shí)際的穩(wěn)定狀況,中國(guó)信通院同相關(guān)的專業(yè)技術(shù)公司合作,開(kāi)展面向各類系統(tǒng)的壓測(cè)/撥測(cè)服務(wù)。

系統(tǒng)實(shí)踐承載能力只有通過(guò)全鏈路壓測(cè)才能準(zhǔn)確獲得,壓測(cè)結(jié)果是運(yùn)營(yíng)方預(yù)估系統(tǒng)容量、儲(chǔ)備額外資源、實(shí)施應(yīng)急舉措的重要參考依據(jù)。針對(duì)各類系統(tǒng)聯(lián)合專業(yè)技術(shù)公司提供第三方全鏈路壓測(cè)服務(wù),此外,針對(duì)小程序聯(lián)合支付寶和微信推出小程序端到端全鏈路壓測(cè)服務(wù),準(zhǔn)確衡量系統(tǒng)容量。同時(shí),系統(tǒng)實(shí)際運(yùn)行狀況需要持續(xù)不斷的監(jiān)測(cè)才能夠加以確認(rèn),相對(duì)人工觀察,通過(guò)技術(shù)手段更能提升監(jiān)測(cè)的及時(shí)、準(zhǔn)確。信通院聯(lián)合專業(yè)技術(shù)公司,通過(guò)模擬真實(shí)用戶訪問(wèn)形式,為數(shù)據(jù)系統(tǒng)提供撥測(cè)服務(wù)。

4、STAR-E,提供穩(wěn)定保障的服務(wù)商能力評(píng)估。隨著穩(wěn)定工作重要的提升,業(yè)內(nèi)已經(jīng)涌現(xiàn)出眾多專業(yè)提供穩(wěn)定保障服務(wù)的企業(yè),在這一方面,當(dāng)前中國(guó)信通院正在研制《系統(tǒng)穩(wěn)定保障服務(wù)商能力分級(jí)要求》,對(duì)服務(wù)過(guò)程、人員、技術(shù)工具等進(jìn)行規(guī)范,也將依托該標(biāo)準(zhǔn)對(duì)產(chǎn)業(yè)內(nèi)提供穩(wěn)定保障服務(wù)的服務(wù)商進(jìn)行評(píng)估,引導(dǎo)行業(yè)規(guī)范化發(fā)展。

5、STAR-T,穩(wěn)定保障工具測(cè)試。系統(tǒng)穩(wěn)定提升離不開(kāi)專業(yè)技術(shù)工具支撐,工具好壞顯著影響著系統(tǒng)穩(wěn)定的保障能力。當(dāng)前,中國(guó)信通院已完成《系統(tǒng)穩(wěn)定保障臺(tái)能力要求》這一標(biāo)準(zhǔn),對(duì)支撐系統(tǒng)穩(wěn)定工作的各類臺(tái)工具應(yīng)具備的能力進(jìn)行了全方位梳理,并形成階梯化分級(jí)要求,后續(xù)將繼續(xù)完善各類支撐工具標(biāo)準(zhǔn)的研制,并開(kāi)展相應(yīng)評(píng)測(cè)工作。

6、STAR-P,數(shù)據(jù)產(chǎn)品穩(wěn)定測(cè)試工作。各類數(shù)據(jù)產(chǎn)品尤其是分布式軟件已成為各行業(yè)數(shù)據(jù)系統(tǒng)的重要組成部分,其自身的穩(wěn)定是系統(tǒng)整體穩(wěn)定的重要前提。因此,中國(guó)信通院開(kāi)展了面向數(shù)據(jù)產(chǎn)品自身穩(wěn)定的測(cè)試。為了能夠?qū)Ω黝悢?shù)據(jù)產(chǎn)品進(jìn)行標(biāo)準(zhǔn)化穩(wěn)定測(cè)試,中國(guó)信通院基于Ansible和ChaosBlade自主研發(fā)了Databench-C分布式混沌測(cè)試臺(tái),通過(guò)Databench-C可以對(duì)被測(cè)產(chǎn)品進(jìn)行穩(wěn)態(tài)確定、擾動(dòng)注入、差異對(duì)比等操作??勺⑷氲墓收霞皵_動(dòng)類別包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、線程等方面的高負(fù)載或者故障現(xiàn)象。最終通過(guò)被測(cè)產(chǎn)品在實(shí)施加擾時(shí)的功能是否正常、能下降程度,以及擾動(dòng)移除后的系統(tǒng)恢復(fù)程度,來(lái)衡量其穩(wěn)定能力。

基于Databench-C,截止目前已完成兩批次4類數(shù)據(jù)產(chǎn)品的穩(wěn)定測(cè)試,以下是通過(guò)測(cè)試的參測(cè)企業(yè)和對(duì)應(yīng)的被測(cè)產(chǎn)品。通過(guò)測(cè)試的結(jié)果可以觀察到,當(dāng)前數(shù)據(jù)類產(chǎn)品多采用分布式架構(gòu),網(wǎng)絡(luò)擾動(dòng)帶來(lái)的能影響明顯大于計(jì)算、存儲(chǔ)等對(duì)資源的擾動(dòng)。

何寶宏表示,STAR評(píng)估體系將沿各方向持續(xù)推進(jìn),產(chǎn)出更多標(biāo)準(zhǔn)和研究報(bào)告,落地更多評(píng)測(cè)評(píng)估,持續(xù)擴(kuò)大服務(wù)行業(yè)的能力。

據(jù)何寶宏透露,未來(lái),分布式系統(tǒng)穩(wěn)定實(shí)驗(yàn)室將從以下幾個(gè)方面開(kāi)展工作:一是按照主題設(shè)立工作組,聚焦重點(diǎn)方向開(kāi)展工作。二是啟動(dòng)人才培養(yǎng)計(jì)劃,聯(lián)合實(shí)驗(yàn)室專家團(tuán)、外部專業(yè)技術(shù)企業(yè),共同開(kāi)展專題技術(shù)培訓(xùn)。三是開(kāi)啟全國(guó)巡演,持續(xù)在更多地區(qū)舉辦活動(dòng),為行業(yè)提供更全面、更具規(guī)模的行業(yè)交流臺(tái)。

標(biāo)簽: 形成面向產(chǎn)品 領(lǐng)域系統(tǒng)穩(wěn)定性保障 層面高度重視 互聯(lián)網(wǎng)基礎(chǔ)設(shè)施

關(guān)閉
新聞速遞