別人的宕機(jī)時(shí)間是AWS的七倍,aws云主機(jī)時(shí)快時(shí)慢怎么處理別人的宕機(jī)時(shí)間是AWS的七倍北京時(shí)間2020年12月14日晚間,由于內(nèi)部技術(shù)故障導(dǎo)致大面積宕機(jī),谷歌多項(xiàng)服務(wù)均無法提供服務(wù),類似的宕機(jī)新聞時(shí)有發(fā)生,每次的主角都可能都不一樣,到底誰的宕機(jī)次數(shù)和宕機(jī)時(shí)間更少呢市面上有一些公開的監(jiān)測(cè)數(shù)據(jù),比如來自downdetect......
北京時(shí)間2020年12月14日晚間,由于內(nèi)部技術(shù)故障導(dǎo)致大面積宕機(jī),谷歌多項(xiàng)服務(wù)均無法提供服務(wù),類似的宕機(jī)新聞時(shí)有發(fā)生,每次的主角都可能都不一樣,到底誰的宕機(jī)次數(shù)和宕機(jī)時(shí)間更少呢
市面上有一些公開的監(jiān)測(cè)數(shù)據(jù),比如來自downdetector.com和cloudharmony.com的數(shù)據(jù),也有廠商比較自豪說自己宕機(jī)時(shí)間比同行老伙計(jì)時(shí)間短的,比如在2018年,亞馬遜云服務(wù)(AWS)表示第二大云計(jì)算公司的宕機(jī)時(shí)間是AWS的7倍。
AWS坐擁全球近一半的云市場(chǎng)份額,理論上規(guī)模越大越容易出錯(cuò)才對(duì),AWS為了減少宕機(jī)時(shí)間都做了什么呢
在亞馬遜re:Invent大會(huì),AWS全球基礎(chǔ)架構(gòu)和客戶支持高級(jí)副總裁Peter DeSantis介紹了基礎(chǔ)設(shè)施層面上方方面面的創(chuàng)新,包括如何減少宕機(jī),如何降本增效等等。
在減少宕機(jī)時(shí)間,在提升服務(wù)連續(xù)性方面,AWS有挺多的有意義的做法,AWS大中華區(qū)產(chǎn)品部計(jì)算與存儲(chǔ)總監(jiān)周舸向中國(guó)媒體介紹了其中幾點(diǎn)。
AWS數(shù)據(jù)中心電力冗余設(shè)計(jì)簡(jiǎn)介
發(fā)電機(jī)組
從電力供應(yīng)開始說起,周舸介紹了柴油發(fā)電機(jī),介紹了配電室(Ehouse),UPS備用電源等方面。
Ehouse
令人印象深刻的是,為了減少可能發(fā)生的故障,AWS在采用現(xiàn)有商用方案(一般是嵌入式系統(tǒng))的基礎(chǔ)上,舍棄了許多原有的東西,自己設(shè)計(jì)了控制電路的代碼。
AWS對(duì)基礎(chǔ)架構(gòu)的控制能力可見一斑。
原裝設(shè)備控制電路存在的問題
在AWS看來,這些控制軟件有可能有Bug,如果Bug發(fā)生,廠商無法在短時(shí)間內(nèi)完成修復(fù),而如果這些軟件本身就是自己寫的,那么就可以很快進(jìn)行修復(fù)。這種對(duì)于現(xiàn)有服務(wù)方案的“不信任”貫穿著AWS架構(gòu)設(shè)計(jì)的方方面面。
AWS CTO Werner Vogels曾說過,”Everything fails,all the time”,也就是說,所有東西都可能會(huì)壞掉,既然無法避免會(huì)壞掉,那就坦然接受,但一定要盡量減少壞掉造成的影響,要能預(yù)測(cè)什么時(shí)候會(huì)壞、怎么壞的,提前做出防范和應(yīng)對(duì)。
比如,為了保障電力供應(yīng),AWS會(huì)在有外部電網(wǎng)供電和內(nèi)部發(fā)電機(jī)組的基礎(chǔ)上,再加一組發(fā)電機(jī),采用冗余的供電方式,冗余設(shè)計(jì)是貫穿整體架構(gòu)設(shè)計(jì)的方方面面,但這會(huì)大大提升復(fù)雜度,越復(fù)雜就越危險(xiǎn)。
在2020 re:Invent大會(huì)上,Peter DeSantis張貼了這樣一張圖,橫軸表示系統(tǒng)復(fù)雜度,縱軸表示故障造成的傷害(爆炸半徑),原本的Switch Gear(配電控制系統(tǒng))和UPS系統(tǒng)處在較為危險(xiǎn)的位置。
在Switch Gear(配電控制系統(tǒng))系統(tǒng)的優(yōu)化改造中,AWS通過自己寫軟件控制系統(tǒng),刪除一些沒用的、添加部分對(duì)AWS有用的功能后,降低了系統(tǒng)復(fù)雜度,提升了系統(tǒng)的可靠性和安全性。
使用Rack Level小電池塊的UPS
在UPS系統(tǒng)改造中,除了軟件層的改進(jìn),還使用小容量(Rack Level電池)的電池,而不是以前超大容量的電池,從而降低電池爆炸造成的傷害,從而遠(yuǎn)離了爆炸半徑。
AWS數(shù)據(jù)中心級(jí)別的高可用設(shè)計(jì)簡(jiǎn)介
2000年左右,那是一個(gè)還沒有AWS的時(shí)代,Amazon在美國(guó)西雅圖有一個(gè)數(shù)據(jù)中心,隨著業(yè)務(wù)規(guī)模的擴(kuò)大,亞馬遜開始意識(shí)到海嘯和地震的潛在風(fēng)險(xiǎn),不能把所有東西都放這里,于是就想在沒有地震海嘯威脅的美國(guó)東海岸建一個(gè)數(shù)據(jù)中心。
東西海岸70ms的超高延遲是絕對(duì)不能接受的
各種自然災(zāi)害的影響范圍與距離造成的延遲
兩個(gè)數(shù)據(jù)中心放的太近,可能遭受同一個(gè)自然災(zāi)害的侵襲,如果離得太遠(yuǎn),延遲會(huì)帶來數(shù)據(jù)同步的問題也同樣不可接受,美國(guó)東西海岸的距離就會(huì)造成這一問題。所以,數(shù)據(jù)中心之間需要保持一定的安全距離,而且要保證一毫秒以內(nèi)的延遲。
類似的,AWS強(qiáng)調(diào)多AZ(Avaibable Zone)與多機(jī)房的概念不一樣,AWS每個(gè)Region有至少三個(gè)AZ,AWS認(rèn)為多個(gè)AZ相互間要有一定的安全距離,以此來降低外部環(huán)境同時(shí)對(duì)多個(gè)AZ造成影響,來提升服務(wù)的可用性。
從Region的角度看,AWS為了減少Region間可能造成的干擾,設(shè)計(jì)原則上是將各個(gè)Region獨(dú)立運(yùn)作,一個(gè)Region出的問題不會(huì)傳遞到別的Region,在Region的級(jí)別提供冗余。
AWS供應(yīng)鏈保障
2020年是黑天鵝滿天飛的一年,突如其來的疫情,急劇增長(zhǎng)的在線業(yè)務(wù)量,逼著所有云廠商在加班加點(diǎn)忙著擴(kuò)容資源,AWS也不例外,就AWS的規(guī)模來猜測(cè),擴(kuò)容規(guī)模要遠(yuǎn)大于大部分云廠商。
2015年,AWS供應(yīng)鏈概況
為了保障擴(kuò)容的順利進(jìn)行,AWS在供應(yīng)鏈采購(gòu)管理上采取了多元化策略,供應(yīng)商的數(shù)量,供應(yīng)商覆蓋的國(guó)家和地區(qū)在數(shù)量上有了很大提升。如今,AWS的供應(yīng)鏈系統(tǒng)覆蓋7個(gè)國(guó)家,86家供應(yīng)商,以此來暴漲供應(yīng)鏈的穩(wěn)定。
2020年,AWS供應(yīng)鏈概況
在疫情在全球爆發(fā)的2020年,多元化管理策略確實(shí)挺有價(jià)值,疫情的不確定性給供應(yīng)鏈帶來很大挑戰(zhàn),許多國(guó)家的生產(chǎn)環(huán)節(jié)和清關(guān)效率都出了很大問題,對(duì)此,周舸表示深有體會(huì)。
寫在最后
在可用性方面,公有云作為公開可見的服務(wù),更容易受到公眾關(guān)注,造成公有云更容易出故障的印象。
拋開客觀感受不說,由于公有云作為一種服務(wù),而不是一個(gè)個(gè)onpremise產(chǎn)品盒子,要考慮的內(nèi)容更多一些,比如供電,比如網(wǎng)絡(luò),比如運(yùn)營(yíng)能力等,確實(shí)非??简?yàn)云廠商的綜合實(shí)力,需要有數(shù)不清的技術(shù)創(chuàng)新來打造更高的可用性和業(yè)務(wù)連續(xù)性。
隨著一步步迭代和發(fā)展,技術(shù)只會(huì)更成熟,運(yùn)營(yíng)經(jīng)驗(yàn)會(huì)更豐富。
特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號(hào)密碼登錄
平臺(tái)顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部