數據倉庫中的數據主要用于企業決策分析,涉及的數據操作主要是數據查詢。某個數據一旦進入數據倉庫,一般會保存很長時間,即數據倉庫中有大量的查詢操作,但修改和刪除操作很少,通常只需要定期加載和刷新即可。數據倉庫中的數據通常包含歷史信息,系統記錄從過去某一點(如數據倉庫開始使用的時間)到當前階段的信息。通過這些信息,可以定量分析和預測企業的發展歷史和未來趨勢。
近兩年,大量資本涌入數據庫市場,導致數據庫市場競爭更加激烈。幾乎所有投資者都對數據庫上的云趨勢持樂觀態度。在云數據庫和云原生數據庫的呼聲高漲的同時,云數據倉庫成為一條新的賽道,開始進入大眾的視野。但是,在分析什么是云數據倉庫,為什么云數據倉庫流行之前,我們需要先了解數據倉庫的定義。
什么是云數據倉庫?與本地數據倉庫相比有什么區別?
隨著vps/' target='_blank'>云計算的深入發展,云已經成為企業應用的主流趨勢,而數據庫上的云已經成為企業應用的最后一步。眾所周知,云數據庫的概念是指在虛擬計算環境中優化或部署的數據庫,能夠實現按需付費、按需擴展、高可用性和存儲集成等優勢。云數據倉庫和云數據庫的定義非常相似,這意味著數據倉庫可以部署在本地、云或混合環境中。
從過去的實踐來看,數據倉庫都部署在本地,但本地數據中心和服務器的可擴展性較差,因此云成為數據倉庫的主流趨勢。然而,云數據倉庫也有一個挑戰,那就是將所有PB級的數據遷移到云中涉及到計算、存儲和內存的成本。另外,如何快速上云也是一個挑戰。當然,隨著市場的不斷發展,這些問題已經不再是問題。現在有超大規模的云服務提供商提供大容量的基于磁盤的數據傳輸服務。最后,是選擇本地數據倉庫、云數據倉庫還是數據湖和數據集市,要根據企業的具體數據量和增長率來決定。建議用戶先取少量數據進行測試,或者將一些數據托管在云上,然后將成熟的架構擴展到核心關鍵業務。
為什么數據倉庫特別重要?
企業使用數據倉庫的原因是,在OLTP中,索引的創建和使用受到數量和數據類型的限制,當值接近峰值或數據類型不符合規范時,用戶的數據分析和查詢速度會變慢。但是如果把數據放在數據倉庫中,用戶可以自定義主題,根據需要對數據進行分析和查詢。同時,在數據倉庫中使用數據不會影響OLTP數據庫的寫入性能。最重要的是,企業不僅可以提高數據處理速度,還可以分析多源數據。比如在使用OLTP支持的相關應用時,銷售人員只能處理特定的事務,卻看不到銷售場所的天氣,但銷售人員希望有天氣預報功能。我該怎么辦?如果所有與天氣相關的數據都添加到數據倉庫中,銷售可以使用數據模型來判斷當地的天氣情況。
什么是數據倉庫?數據倉庫和商業智能是一回事嗎?
一般來說,數據庫分為關系數據庫(SQL)或非關系數據庫(NoSQL)、在線事務處理(OLTP)、事務處理、在線分析處理(OLAP)和混合業務處理(HTAP)。此外,除了這些常見的數據庫類型之外,專有數據庫極大地提升了業務升級,但隨著數據庫技術的發展,專有數據庫已經成為“數據孤島”的代名詞。
之后,一些聰明的企業開始嘗試從不同的數據源收集數據。這些以原始格式存儲數據的方式被稱為數據湖;一般格式或經過處理和集成的數據被歸類為數據倉庫。不同的數據倉庫以不同的方式獲取數據。例如,一些直接從操作環境中獲取數據,而另一些從企業級數據倉庫中獲取數據。這些滿足不同場景需求的數據倉庫也被稱為數據集市。換句話說,數據集市是數據倉庫的一個子集。
本質上,數據倉庫是一個分析數據庫,通常是一個關系數據庫。它由兩個或兩個以上的數據源創建,通常可以存儲PB或以上規模的歷史數據,然后用大量的計算和內存資源運行復雜的查詢操作,最后生成數據報告。此外,數據倉庫也是商業智能(BI)系統和機器學習獲取直接數據源的唯一途徑。
數據倉庫和數據湖是什么關系?
數據倉庫之所以不同于數據湖,是因為數據存儲格式不同,數據的“讀取模式”也不同。數據湖是一種讀取模式,許多數據以易于讀取的格式存儲。而數據倉庫是一種“寫模式”,可以支持各種數據類型的存儲,在索引查詢和各種數據關系的處理上更加方便快捷。這種“讀取模式”適合從多個聚合根(不同上下文)讀取數據,避免數據丟失。但是有一個缺點就是很多數據會變成死數據,應用程序不會被使用,會占用大量的存儲資源。“寫入模式”適用于具有特定目的的數據,并且所使用的數據必須與來自其他來源的數據正確關聯。但有時會因為數據格式錯誤而被丟棄,導致有價值的數據沒有被使用。
主流的數據倉庫架構有哪些?
一般來說,數據倉庫架構分為三層,包括源數據、數據倉庫和數據應用。源數據層包括來自銷售、營銷和其他業務部門的運營數據,也可能包括社交媒體和外部數據,如人口統計調查和統計數據。臨時數據庫是指從數據源中檢索到的數據,屬于臨時存儲區,為下一次數據處理做準備。例如,如果來源是非結構化的,比如社交媒體文本,則需要通過質量檢查,刪除質量差的數據。數據倉庫層,也叫細節層,所有數據一致、準確、干凈,對源數據進行清洗去除雜質。數據應用層是指從前端應用直接讀取的數據源,是指根據報表直接生成或根據科目要求計算的數據。
數據倉庫獲取的數據以及在倉庫中實現的轉換和流程可以看作是ETL過程,即通過ETL工具提取出清洗后的數據,進行任何需要的映射和轉換,將數據加載到數據存儲層。ELT(提取、加載和轉換)工具意味著先存儲數據,然后轉換數據。使用ELT工具的好處是數據跳過傳統的臨時存儲層,直接進入數據湖。租用服務器可咨詢夢飛云idc了解。