密芽超碰在线,国拍亚洲精品视频,亚洲情人久久,美国成人网一区二区三区

歡迎進入一品儀器設備有限公司網站!
一品儀器 - 產品展示
yipin instrument-Products
4新聞中心
您的位置:首頁  ->  新聞中心

可靠性” 與 “可用性,可靠性實驗的必要性


?可靠性” 與 “可用性,可靠性實驗的必要性

相信點開這篇文章的讀者,一定或多或少接觸過“高可靠”“高可用”這些字眼,但是往往或語焉不詳,或羅列術語(MTBF、MTTR ...),那么我們到底應該如何定量描述系統的可靠性和可用性指標呢,這些看著很上流的術語到底意味著什么呢?也許,看完這篇文章,您從此也可以和小伙伴們愉快地拽術語了!?

1) 軟件過程(代碼評審、單元測試等)
2) 軟件復雜度
3) 軟件規模
4) 開發團隊經驗
5) 可復用代碼比例(久經考驗的代碼)
6)  產品交付前的測試
比如正在運行中的100只硬盤,1年之內出了2次故障,則故障率為0.02次/年。
上文提到的關于MTBF和Failure Rate關系值得細細體會,在現實生活中,硬件廠商也的確更熱衷于在產品上標注MTBF(個人猜測是因為MTBF往往高達十萬小時甚至百萬小時,容易吸引眼球)。Failure Rate伴隨著產品生命周期會產生變化,因此,只有在前述“浴盆曲線”的平坦底部(通俗點說就是產品的“青壯年時期”)才存在如下關系:
MTBF = 1/λ
一般來說,服務器的主要部件MTBF,廠商標稱值都在百萬小時以上。比如:主板、CPU、硬盤為100wh,內存為400wh(4根內存約為100wh),從而可以推算出服務器整體MTBF約25wh(約30年),年故障約3%,也就是說,100臺服務器每年總要壞那么幾臺。
上面的理論計算看著貌似也沒啥問題,感覺還挺靠譜。但如果換個角度想想,總覺得哪里不太對勁:MTBF約30年,難道說可以期望它服役30年?先看看希捷的工程師如何解釋
比如應用升級或者程序CORE掉,往往借助所謂“秒起”來完成服務恢復,有些更極端的甚至攔截”段錯誤”一類信號。其實,無論如何秒起,總歸會有部分用戶受影響,另外,如果是由于程序錯誤導致的意外重啟,誰能保證共享內存的數據仍然處于正確狀態呢?
此外,如果出現機房搬遷、空調故障、供電故障等意外,所謂的共享內存+秒起也只能干瞪眼。
因此,正如上文所說的,通過容災備份+路由切換實現優雅無縫重啟才是好的設計。一般來說,“可重啟”進程具備如下特征:
  • 無論exit還是kill,都可以正確重啟
  • 不使用生命期大于進程的IPC(共享內存、跨進程的mutex等)
  • 不使用難以重建的IPC(父子進程共享FD通信等)
那么又該如何優雅重啟呢?一般分為兩種場景:
  • 有計劃的重啟(如版本升級)
首先將節點從服務列表中摘除,等待節點流量跌零,發起重啟過程(更新文件等),確認服務啟動正常后,重新將節點添加至服務列表,逐步引流進行正確性驗證(若發現異常,及時摘除)。服務節點依次分批處理,真正實現無縫重啟
  • 意外故障發生
服務訪問方支持Failover,自動切換備用節點,或者通過Name Service一類設施自動摘除故障節點,人工介入恢復。
當然,前面一些看法并非“放之四海而皆準”,在實際設計系統的時候,還是應該因地制宜,選擇最適合當時環境的方案。
?

[返回]   
Copyright ? 2017 東莞市一品儀器設備有限公司 版權所有 本站素材及相關資源均來源互聯網,如有侵權請速告知,我們將會在24小時內刪除*【Gmap】 訪問量:后臺管理 粵ICP備16117078號
服務熱線
0769-84393814
產品符合ISO、ASTM、DIN、EN、GB、BS、JIS、ANSI、UL、等國際測試標準
專注試驗設備多年
關閉
點擊這里給我發消息
在線咨詢
點擊這里給我發消息
技術咨詢