當公司根據不可靠的數據做出決策時,不正確的見解會嚴重影響利潤。如果沒有正確的信息,您將無法對最終用戶和產品做出明智的決定,這就是為什么保持高水平的數據完整性應該是您的首要任務。本文介紹了數據完整性以及保持文件清潔、可靠和準確的價值。繼續閱讀以了解什么是數據完整性,并了解數據驅動型組織如何確保文件在數據生命周期的所有階段都保持健康。
數據完整性定義
數據完整性是指在文件的整個生命周期(捕獲、存儲、檢索、更新、備份、傳輸等)中確定數據可靠性和一致性的特征。無論有人編輯或復制文件多少次,一條完整的數據都不會有任何意外更改。
作為一個術語,數據完整性的范圍很廣,并且可以根據上下文具有不同的含義。該短語可以描述:
- 數據的狀態(例如,有效或無效)。
- 確保和保持數據有效性的過程(例如,錯誤檢查或文件驗證)。
數據完整性應該是任何收集、存儲、處理或檢索數據的系統的一個關鍵方面。公司通常通過圍繞數據交互(刪除、插入、編輯、更新等)的各種規則和程序來強制執行完整性。
數據完整性的主要目標是防止對業務文件的任何意外更改(惡意或意外)。一條具有完整性的數據應具有以下特征:
- 可歸因(公司應該知道如何以及何時創建或獲取數據)。
- 可追溯(團隊必須知道文件在其整個生命周期中發生了什么)。
- 原件(沒有不必要的文件副本)。
- 準確(所有包含的信息都是正確且無錯誤的)。
- 清晰(文件完整并且具有明確定義的屬性,可以與其他數據保持一致)。
在某些設計中,數據完整性還可以指有關法規遵從性的數據安全,最常見的是GDPR方面。
數據完整性與數據質量
數據質量(或數據準確性)的目標是保證文件的準確性。文件質量旨在確保信息正確且存儲在數據庫中的文件符合公司的標準和需求。
公司可以通過衡量數據可靠性和準確性的各種流程來評估數據質量。數據質量的一些關鍵指標是:
- 完整性(基于特定變量和業務規則的數據全面性的指示)。
- 唯一性(衡量數據集中或與另一個數據庫相比項目的重復性)。
- 有效性(與已定義的業務規則和要求一致的程度)。
- 及時性(數據是否是最新的并且在可接受的時間范圍內可用)。
- 準確性(數據項描述對象的正確程度)。
- 一致性(表示相同對象的數據項之間不存在差異的度量)。
數據完整性和質量之間有很多重疊之處。完整性還需要完整和準確的文件,但僅僅擁有高質量的數據并不能保證組織會發現它很有幫助。
例如,一家公司可能有一個有效且最新的用戶名和地址數據庫。但是,如果您還沒有提供有關最終用戶及其與公司關系的上下文的支持數據,那么該數據庫就沒有任何價值。
數據完整性與數據安全性
數據完整性旨在使文件保持有用和可靠,而數據安全性則保護有價值的信息免遭未經授權的訪問。數據安全是完整性的一個基本子集,因為沒有頂級保護就不可能擁有高水平的可靠性。
公司依靠各種技術來保護文件免受外部和內部威脅。常見的策略包括:
- 嚴格的身份和訪問管理。
- 網絡分割。
- 數據備份。
- 靜態加密。
- 威脅識別系統(即入侵檢測系統)。
- 各種容災能力。
安全性對完整性至關重要。數據安全性通過保護文件免受威脅、維護隱私和確保沒有人可以泄露有價值的信息來提高完整性。
為什么數據完整性很重要?
對于大多數公司而言,泄露的數據毫無用處。例如,如果有人更改了您的銷售數據,并且沒有記錄為什么編輯發生或誰更改了文件,則無法知道您是否可以信任該數據。您根據該文件做出的所有決定都不會來自可靠的信息,并且您很容易在以下方面犯下代價高昂的錯誤:
- 預測客戶行為。
- 評估市場活動和需求。
- 評估擴張機會。
- 調整銷售策略。
沒有可靠的數據會嚴重影響您的業務績效。根據麥肯錫最近的一項研究,基于數據的決策是頂級組織統治市場的方式。基于可靠數據的數據驅動型公司是:
- 在客戶獲取方面超過競爭對手的可能性大約高出 23 倍。
- 留住用戶的可能性高出 9 倍以上。
- 利潤是最接近的競爭對手的 19 倍。
不幸的是,大多數高級管理人員對其組織使用數據的方式沒有高度信任。畢馬威國際最近的一項研究揭示了以下數字:
- 只有 35% 的 C+ 高管表示他們高度信任公司使用數據和分析的方式。
- 超過 92% 的決策者擔心數據和分析對組織聲譽的負面影響。
數據完整性類型
保持高水平的可靠性需要了解兩種不同類型的數據完整性:物理完整性和邏輯完整性。
物理數據完整性
物理完整性是指確保系統和用戶正確存儲和獲取文件的過程。此類數據完整性的一些挑戰可能包括:
- 各種人為錯誤導致的問題。
- 機電故障。
- 設計缺陷。
- 停電。
- 自然災害。
- 極端溫度。
- 黑客破壞數據庫(例如,使用DDoS 攻擊或SQL 注入)。
- 材料疲勞和腐蝕。
- 各類網絡安全攻擊。
公司可以確保高水平的身體完整性的一些最常見的方法是:
- 設置冗余硬件。
- 使用集群文件系統。
- 依靠糾錯內存。
- 部署不間斷電源。
- 使用某些類型的RAID陣列。
- 在關鍵子系統上使用看門狗定時器。
- 依靠糾錯碼。
邏輯完整性
邏輯完整性與特定上下文中一段數據的正確性有關。邏輯完整性的常見挑戰是:
- 人為錯誤。
- 軟件錯誤。
- 設計缺陷。
確保高水平邏輯完整性的標準方法包括:
- 檢查約束。
- 外鍵約束。
- 程序斷言。
- 運行時完整性檢查。
處理關系數據庫時,邏輯完整性具有三個子集:
- 實體完整性:實體完整性使用主鍵(標識一條數據的唯一值)來確保表沒有重復的內容或空值字段。
- 參照完整性:這種類型的數據完整性是指使用外鍵的概念來控制數據的更改、添加和刪除的過程。
- 域完整性:域完整性確保域中每條數據的準確性(域是列可以包含和不能包含的一組可接受的值,例如只能有數字的列)。
除了這三個子集,一些專家還對用戶定義的完整性進行了分類。此子類別是指適合業務需求但不屬于實體、引用或域完整性的自定義規則和約束。
數據完整性風險
各種因素都會影響業務數據的完整性。一些最常見的風險包括:
- 人為錯誤:用戶和員工是影響數據完整性的最重要風險因素。輸入錯誤的數字、錯誤地編輯數據、復制文件和意外刪除信息是危害完整性的典型錯誤。
- 硬件相關問題:服務器突然崩潰和 IT 組件受損可能導致數據呈現不正確或不完整。這些問題也會限制對數據的訪問。
- 格式之間的不一致:格式之間缺乏一致性也會影響數據完整性(例如,依賴單元格引用的 Excel 電子表格中的一組數據在不支持這些單元格類型的不同格式中可能不準確)。
- 傳輸錯誤:當一條數據無法從數據庫中的一個位置成功傳輸到另一個位置時,就會發生傳輸錯誤。
- 安全故障:安全漏洞很容易危及數據完整性。例如,防火墻中的錯誤可能允許未經授權訪問數據,或者備份協議中的錯誤可能會刪除特定圖像。
- 惡意行為者:間諜軟件、惡意軟件和病毒是嚴重的數據完整性威脅。如果惡意程序入侵計算機,第三方可以開始更改、刪除或竊取數據。
不遵守數據法律也可能導致嚴重的完整性問題。不遵守HIPAA和PCI等法規也將導致巨額罰款。
數據完整性違規示例
以下是公司可能危及文件完整性的一些現實場景:
- 公司有人不小心試圖將數據插入錯誤的表中。
- 當有人在兩個數據庫之間傳輸數據時,網絡出現故障。
- 員工輸入了超出可接受范圍的日期。
- 最終用戶以錯誤的格式輸入電話號碼。
- 應用程序錯誤嘗試刪除錯誤的文件。
- 用戶刪除另一個數據庫正在引用的表中的記錄。
- 黑客設法從保護不善的數據庫中竊取所有用戶密碼。
- 一場大火席卷了數據中心,燒毀了存儲有價值數據庫的計算機。
- 過去一個月,常規數據庫備份一直失敗,而沒有提醒安全團隊。
- 黑客入侵數據庫并使用勒索軟件加密敏感數據。
如何確保數據完整性
以下是您可以用來提高組織中數據完整性的建議和最佳實踐列表。
了解數據的生命周期
您必須了解有關數據的所有信息,才能完全控制其完整性。首先回答以下問題:
- 貴公司存儲哪些數據,為什么?
- 公司如何收集數據?
- 不同類型的數據在邏輯上是分開的嗎?
- 你的信息來自哪里?
- 團隊如何分析和使用數據?
- 誰創建了有價值的文件?
- 誰有權訪問敏感文件?
- 哪些員工可以修改數據?
- 公司刪除過期數據的流程是怎樣的?
在此階段,您還應該考慮任何相關法規(GDPR、CCPA、HIPAA 等)。只有在您了解公司收集哪些數據以及員工如何處理文件后,您才能準備好開始提高整體完整性。
創建審計跟蹤
審計跟蹤記錄一段數據在其生命周期中的每次交互。每次用戶傳輸或使用文件時都會進行審計記錄,因此您將擁有高水平的可見性。典型的端到端路徑應具有以下特征:
- 自動生成。
- 防止篡改的不變性。
- 跟蹤和記錄每個事件(訪問、創建、刪除、修改等)的能力。
- 每個事件的時間戳。
- 將事件與單個用戶帳戶對齊的能力。
如果您遭受數據泄露或遇到數據瓶頸,審計跟蹤將有助于追蹤問題的根源并加快恢復時間。
嚴格的訪問控制
使未經授權的個人遠離敏感文件對于完整性至關重要。你應該:
- 映射所有員工和系統以了解誰有權訪問哪些文件。
- 驗證用戶時使用雙重身份驗證 (2FA)。
- 在需要知道和需要使用的基礎上授予訪問權限。
- 使用久經考驗的身份驗證協議,例如Kerberos。
使用錯誤檢測軟件
錯誤檢測軟件有助于自動監控數據完整性。這些程序通過以下方式提供幫助:
- 隔離輪廓。
- 減少意外錯誤的可能性。
- 協助員工維護數據衛生。
- 執行數據編輯和管理規則。
- 找出錯誤背后的原因。
- 推薦步驟以避免將來出現錯誤。
您還可以使用異常檢測服務將數據完整性風險保持在可管理的水平。
識別并消除安全漏洞
尋找并主動消除安全漏洞對于保持高水平的文件完整性至關重要。根據您的預算和團隊的技能組合,您可以在內部級別搜索漏洞,也可以聘請外部安全專業人員團隊。
使用驗證
計劃、映射和規定公司如何使用數據至關重要,但您還應該使用驗證來確保員工遵循指示。如果 IT 系統和人員按照業務范圍的程序運行,您應該部署定期測試、驗證和重新驗證的程序(甚至可能是員工)。每當已知或未知來源提供您的數據集(最終用戶、應用程序、員工等)時,您還應該使用輸入驗證。
傳達數據完整性的價值
對您的員工進行有關信息完整性的教育與強制他們處理數據的方式一樣重要。員工應該知道如何:
- 正確使用、存儲、檢索和編輯數據。
- 識別并應對數據完整性的潛在威脅。
- 報告對業務數據不負責任的行為。
- 查找有關正確文件管理的所有說明和指南。
搜索和刪除重復數據
您需要清理雜散數據并刪除敏感文件的不必要重復項。雜散副本可以輕松地在文檔、電子表格、電子郵件或共享文件夾中找到一個主頁,沒有適當訪問權限的人可以看到它。雖然您可以讓人工查找和刪除重復數據,但更安全的長期賭注是依靠可以在本地和云端自動清理數據的工具。
備份敏感數據
您應該使用備份在所有情況下保持完整性。備份文件有助于防止數據丟失,如果您使用不可變備份,您可以安全地以原始狀態存儲數據。這樣,再多的編輯或刪除文件的嘗試都不會導致永久性數據丟失。
提高誠信并促進您的決策
知道如何保持高度誠信的公司在當今市場上蓬勃發展,而那些不能正確管理信息的公司往往會失去重要的競爭優勢。提高您的數據完整性水平,開始做出自信的、數據驅動的決策,引導您的公司朝著正確的方向發展。