近年來,關于可觀察性的討論很多,可觀察性已經取代傳統監控成為管理現代IT環境性能的首選解決方案。
然而,雖然大多數討論都集中在其他環境中的可觀察性(如云環境),但關于數據中心的可觀察性的討論相對較少。
這很遺憾,因為數據中心的可觀測性在很多方面都是獨一無二的。盡管現代可觀測性方法可以幫助改善數據中心的運營,但一些適用于其他系統的可觀測性工具和策略可能并不總是適用于數據中心。
什么是數據中心可觀察性?
可觀察性是指利用外部輸出推斷復雜系統的內部狀態。這至少是近年來科技行業流行的可觀察性的定義。然而,可觀察性作為一個概念有著更長的歷史,可以追溯到20世紀60年代初,而且最初并不涉及IT系統。
但從大約五年前開始,各種技術思想領袖和供應商開始認可這樣一種觀點:當今的軟件架構、環境和基礎設施已經變得非常復雜,傳統的監控技術不足以支持它們。他們認為,我們需要基于可觀察性概念的新工具和技術,而不僅僅是監控。
可觀察性與監控究竟有何不同是一個復雜的問題,人們對此有不同的回答。但總的來說,可觀察性可以歸結為這樣一個概念:可觀察性不僅僅從單個應用或服務收集日志和指標(監控就是如此),而是將復雜系統各個組件的復雜數據集關聯起來,以創建關于整個系統健康和性能的可行見解。
在實踐中,監控和可觀察性之間的區別仍然有點模糊。出于本文的目的,我們假設可觀察性是一種合法的方法,它需要與傳統監控不同的工具和技術。
數據中心的可觀察性挑戰
在公共云環境中,可觀察性通常相當于部署可以收集各種日志、指標和跟蹤的工具,然后串聯分析它們以識別性能問題。然而,在數據中心,可觀察性并不是那么簡單或直接。數據中心可觀察性特別具有挑戰性,原因如下:
還有更多需要觀察的內容:在數據中心,不僅要跟蹤虛擬基礎設施和應用,還要跟蹤物理基礎設施。這意味著需要收集和關聯更多的數據。
可觀察性數據并不總是可訪問的:使用標準可觀察性軟件并不總是能夠簡單地收集網絡交換機或暖通空調系統等物理設備的日志,這些軟件旨在從傳統應用程序或服務器收集數據。
性能問題可能跨越多個數據中心:有時,可能會遇到并非某個數據中心獨有的問題,例如在兩個設施之間移動數據時的高延遲。因此,有效的數據中心可觀察性需要能夠收集和關聯來自多個站點的數據。
數據中心有多個可觀察性優先級:可觀察性的主要目的通常是管理工作負載性能。但在數據中心,可能面臨可觀察性的額外要求,例如跟蹤電力消耗或用水量。
簡而言之,數據中心可觀察性比通用可觀察性更難,因為在數據中心中,需要觀察的內容更多,需要追求的可觀察性目標更多,在嘗試管理復雜系統時可能出錯的地方也更多。
克服數據中心可觀測性的挑戰
解決這些挑戰并不容易。迄今為止,很少有可觀察性軟件供應商能夠構建滿足數據中心可觀察性需求的解決方案,因此為數據中心實施有效的可觀察性策略可能需要大量的人工工作,不能只購買一個工具來解決您的問題。
但是,可以系統地識別所有將推動數據中心可觀察性策略的系統和數據源,然后實施跟蹤和關聯它們的工具。這將花費時間和精力,但它將增強檢測數據中心性能問題并快速找出根本原因的能力。
密切關注可觀察性領域
數據中心可觀察性尚未受到可觀察性軟件供應商,或有意幫助企業超越傳統監控的技術思想領袖的重視。
盡管如此,想要了解硬件和軟件環境各個層面發生情況的數據中心運營商應該采用可觀察性策略,作為現代化管理數據中心性能和可用性方法的一種手段。
數據中心的可觀察性不是一件容易的事情,但它卻很重要,而且隨著數據中心變得越來越復雜,它將變得更加重要。