數(shù)據(jù)幾乎支撐著當今世界的方方面面,而生成、處理、共享或以其他方式處理的數(shù)據(jù)量也在逐年增加。據(jù)估計,全球90%的數(shù)據(jù)都是在過去兩年中產(chǎn)生的,超過80%的組織預計將在2025年管理ZB級別的數(shù)據(jù),僅在2024年就會產(chǎn)生了147 ZB數(shù)據(jù)。從這個角度看,如果一粒米是一個字節(jié),那么一ZB的米就可以覆蓋整個地球表面幾米厚。
數(shù)據(jù)爆炸意味著它能提供更有價值的洞察力,但同時也增加了漏洞或攻擊的可能性,并引發(fā)安全和數(shù)據(jù)合理使用的難題。因此,組織不僅要制定有效的管理策略,還要制定確保數(shù)據(jù)完整性的策略,尤其是用于開發(fā)模型或推動決策或創(chuàng)新的數(shù)據(jù),這一點至關重要。
在這種情況下,數(shù)據(jù)溯源的概念——跟蹤每個數(shù)據(jù)點從源頭開始的移動和轉換——已經(jīng)從錦上添花的防御措施逐漸發(fā)展成為網(wǎng)絡安全的關鍵組成部分。隨著企業(yè)不斷采用人工智能和機器學習技術,這一點變得尤為重要,因為只有底層的數(shù)據(jù)才是可信和可靠的。
數(shù)據(jù)完整性的堅實基礎
數(shù)據(jù)溯源是防止數(shù)據(jù)篡改和設計可信、合規(guī)安全系統(tǒng)的關鍵。在高層面上,這一過程涉及將元數(shù)據(jù)與數(shù)據(jù)加密綁定,以創(chuàng)建每個節(jié)點完整歷史的透明記錄,從而確保其完整性并幫助應對網(wǎng)絡威脅。溯源系統(tǒng)的工作原理是從起源點跟蹤數(shù)據(jù)到當前使用狀態(tài)的整個過程,從而創(chuàng)建一個不間斷的信任鏈。
當信息在系統(tǒng)中首次數(shù)字化時,需要標注上時間、日期、地點、源設備類型、隱私權等信息。然后,所有這些信息都會以加密方式與數(shù)據(jù)本身綁定,記錄不可更改的時間點。雖然當今的系統(tǒng)對數(shù)據(jù)來源的理解能力各不相同,但我們的目標是在整個系統(tǒng)的每個轉換點添加和重新綁定元數(shù)據(jù)。區(qū)塊鏈和其他分布式記賬等新興技術將成為這些防篡改系統(tǒng)的基礎。
未重視數(shù)據(jù)溯源的組織可能會根據(jù)不準確或被篡改的信息做出決策,從而導致負面結果,甚至損害客戶利益。就生成式人工智能和大型語言模型(LLM)而言,如果不能正確追蹤數(shù)據(jù)的歷史,也會導致版權問題。然而,如果企業(yè)成功實施了溯源系統(tǒng),在數(shù)據(jù)的每一步都對其真實性進行評估,他們就能贏得客戶、合作伙伴甚至監(jiān)管方的信賴,從而創(chuàng)造優(yōu)勢。
增強人工智能的透明度
在各行各業(yè)中,運營中嵌入AI和ML系統(tǒng)的情況顯著增加。雖然這種創(chuàng)新提高了效率,但人工智能系統(tǒng)也容易受到威脅,從而損害數(shù)據(jù)完整性,而且這些威脅正變得越來越復雜。
想象一個使用基于人工智能的數(shù)字孿生技術來模擬和優(yōu)化生產(chǎn)的智能工廠。只有當系統(tǒng)中使用的訓練數(shù)據(jù)準確、高時效時,這種方法才能發(fā)揮作用,因此數(shù)據(jù)的可信度至關重要。數(shù)據(jù)溯源系統(tǒng)可以讓工廠查看模型的源記錄,以及是否和何時對其進行了修改,從而讓工廠管理人員能夠驗證輸出結果,并更輕松地檢測數(shù)據(jù)保真度中的潛在威脅或基于時間的漂移。
遺憾的是,盡管數(shù)據(jù)溯源對于構建和維護可信的人工智能系統(tǒng)至關重要,但它并沒有得到應有的廣泛認可。部分原因是缺乏可遵循的廣泛標準,如今大多數(shù)模型幾乎都沒有實施或強制執(zhí)行必要的要求,因此容易受到不法分子的威脅:
·數(shù)據(jù)中毒。不法分子可以破壞訓練數(shù)據(jù),干擾模型的準確性或引入偏差。
·惡意訓練。萊迪思分享了一個關于汽車行業(yè)惡意訓練潛在后果的例子,其中提到了一項研究,研究中自動駕駛汽車中的人工智能系統(tǒng)被故意誤導,將停車標志識別為限速提高,這顯示了惡意訓練在現(xiàn)實世界中的危險性。
即使沒有外部干預,缺乏溯源洞察力也會給企業(yè)帶來很多問題,比如數(shù)據(jù)漂移。當算法所訓練的數(shù)據(jù)屬性發(fā)生變化,而模型沒有相應調整時,就會出現(xiàn)這種情況,從而降低輸出的準確性。維護數(shù)據(jù)溯源是確保這些系統(tǒng)的輸出長期可靠的最佳途徑。
FPGA初露鋒芒
為提高網(wǎng)絡彈性,系統(tǒng)設計人員可將FPGA 集成到數(shù)據(jù)溯源系統(tǒng)中。與固定功能的處理器不同,F(xiàn)PGA作為真正靈活、可重新編程的硬件,能夠進行并行處理和實時安全操作。其內置的安全功能,如加密和驗證機制,有助于在處理過程中保護和安全地標記數(shù)據(jù)。由于FPGA通常是系統(tǒng)數(shù)據(jù)的源點,因此在加密綁定過程中發(fā)揮著重要作用。此外,F(xiàn)PGA固有的靈活性允許對其進行編程和重新編程,可以隨著時間的推移執(zhí)行特定任務。這種可定制性使企業(yè)能夠根據(jù)自身需求的變化,調整采集和管理溯源信息的方法。
FPGA還能優(yōu)化系統(tǒng)性能,包括AI和ML模型。由于具有實時處理能力,F(xiàn)PGA能夠以最小的延遲管理不同來源的大量數(shù)據(jù)。這種處理速度可確保數(shù)據(jù)交易得到及時記錄和加密綁定,并確保溯源記錄反映最新信息,更好地為數(shù)據(jù)溯源提供支持。此外,F(xiàn)PGA可以并行執(zhí)行許多操作。這使它們能夠同時實現(xiàn)收集數(shù)據(jù)、執(zhí)行加密操作和監(jiān)控安全性,而不會影響系統(tǒng)的性能。
量子計算的影響
由于加密操作對元數(shù)據(jù)綁定過程至關重要,因此所使用的加密算法必須面向未來。這個問題非常緊迫,因為量子計算的發(fā)展有可能對我們今天所依賴的經(jīng)典非對稱加密保護造成巨大威脅。
為了在即將到來的量子計算機時代保護我們的數(shù)字數(shù)據(jù),我們需要轉向后量子加密(PQC)這一新型加密技術。PQC算法使用不同以往的創(chuàng)新的數(shù)學模型,能夠抵御量子威脅。由于這種加密方法非常新穎,因此更加凸顯了FPGA的 “加密靈活性 ”。如果運行PQC算法的FPGA在現(xiàn)場部署后發(fā)現(xiàn)漏洞,可以更新編程而無需更換硬件。這種靈活性使FPGA成為向PQC過渡和遵守不斷變化的法規(guī)的先行者。
構建可信任的未來
隨著數(shù)據(jù)溯源越來越受關注,行業(yè)和政府標準機構需要制定新的溯源指南,要求至少在一定程度上披露模型的數(shù)據(jù)溯源完整性。不過,目前還不清楚這些措施最終會采取什么形式。
一種方案是根據(jù)數(shù)據(jù)溯源系統(tǒng)的穩(wěn)健性對其進行分級,最底層代表缺乏數(shù)據(jù)溯源機制,最高層代表有明確記錄的信任鏈,概述數(shù)據(jù)點的歷史。同樣,合規(guī)性和執(zhí)行機制也需要在此框架內進行評估,以降低與數(shù)據(jù)濫用相關的風險,確保透明度和問責制。此外還需要對這些標準的遵守情況進行獨立的第三方驗證,減少潛在的利益沖突,并確保達成評估數(shù)據(jù)溯源可信度的最佳實踐。
在不久的將來,隨著開發(fā)人員接受數(shù)據(jù)記錄后不得更改或刪除的理念,我們還可能看到不可變數(shù)據(jù)方案的實施越來越多。區(qū)塊鏈技術就是這樣一種解決方案,因為它具有去中心化的安全性和分布式屬性。在區(qū)塊鏈網(wǎng)絡中,每筆交易或每條數(shù)據(jù)都與前一筆交易或數(shù)據(jù)有加密鏈接,一旦交易被添加到區(qū)塊鏈中,就幾乎不可能被修改或刪除,從而形成不可更改的鏈條。
開發(fā)關鍵系統(tǒng)和推動重要決策離不開數(shù)據(jù)支持,因此企業(yè)必須能夠跟蹤并信任數(shù)據(jù)。人工智能系統(tǒng)的興起進一步強調了對有效數(shù)據(jù)溯源的需求,便于檢測對這些模型的威脅并確保其長期可靠性。2025年及以后,數(shù)據(jù)溯源將成為網(wǎng)絡安全、網(wǎng)絡彈性和網(wǎng)絡信任的基石,幫助企業(yè)識別數(shù)據(jù)完整性面臨的威脅,遵守新法規(guī),并在客戶和合作伙伴網(wǎng)絡中建立信任。
更多精彩內容歡迎點擊==>>電子技術應用-AET<<