7月15日,在清華大學智能產業(yè)研究院(AIR)舉辦的“數(shù)據(jù)安全與可信AI”主題學術工作坊上,墨奇科技 CEO 及聯(lián)合創(chuàng)始人邰騁受邀做了主題為“高性能、保護隱私的生物識別技術”的報告。在報告中,邰騁闡釋了如何將指紋識別問題轉化為高精度圖像搜索問題,業(yè)內首次達到 20 億量級上的秒級、高精度、自動化比對,并介紹了保護隱私的生物識別技術特性和實現(xiàn)途徑。
突破大庫衰減的天花板,高性能生物識別的探索成為當務之急
隨著以指紋識別為代表的生物識別技術在各類場景的廣泛應用,如何在保證生物識別的性能同時保護用戶的隱私成為一個亟待解決的時代命題。
生物識別技術一般來說有兩種類型任務:第一種是驗證,也稱之為 1:1 的比對;第二種是識別,也稱之為 1:N 的比對。1:N 的問題比 1:1 的問題要困難約N 倍,而且隨著庫容增大到20億級別,這一問題會變得更加困難。
除了在億級大庫指紋識別任務中的技術挑戰(zhàn),傳統(tǒng)指紋識別流程存在四方面問題:
一是很難自動化處理低質量的指紋圖像,仍依賴于指紋專家對細節(jié)特征進行人工標注,技術門檻很高,效率卻很低。
二是由于傳統(tǒng)方法都是基于細節(jié)特征,而細節(jié)特征本身的精度就有限,只覆蓋了指紋信息中的一小部分,曲率和幾何信息都丟失了。隨著數(shù)據(jù)庫大小的增加,準確率會迅速下降,即“大庫衰減”現(xiàn)象。
三是基于深度學習的方法需要大量的訓練數(shù)據(jù),但是這些數(shù)據(jù)并不易于獲得。
四是在大型數(shù)據(jù)庫比對上花費的時間過長。
墨奇科技一直致力于探尋新的技術路徑來解決這些問題,并發(fā)現(xiàn)了一種可行的方式:將指紋比對問題轉化為高精度圖像搜索問題,并自主研發(fā)出了高精度圖像搜索引擎技術,它包含三個部分:圖像的自適應多尺度表示和索引系統(tǒng)、無標注或極少標注的自學習框架,以及高速異構的搜索系統(tǒng)。
圖:多尺度特征
首先通過一個更有效的數(shù)學框架為指紋圖像構建最佳的多尺度表示,讓高精度、高性能的圖像搜索成為可能。例如,在從像素到整體圖像的每一個中間尺度上,都提取了標簽(label)、向量(vector)和圖(graph)等不同的特征,極大地擴充了指紋信息。
其次,只需要極少樣本的AI自學習框架,讓系統(tǒng)可以自學習,且需要的標注數(shù)據(jù)減少了幾千至上萬倍。
另外,超高性能的異構系統(tǒng)和架構,讓準確性和速度提升。專門用于視覺搜索的異構多層分布式系統(tǒng),針對多尺度特征進行了優(yōu)化。對于量大且不需要高精度的圖像,可以使用GPU來進行運算;而對精度要求較高的圖像則調用CPU來進行運算,從而實現(xiàn)指紋圖像的高速比對。
上圖:需要人工標注細節(jié)特征
下圖:無標注比對自動搜索指紋圖像相似的區(qū)域
憑借這些思路以及底層的技術創(chuàng)新,墨奇科技的新一代指紋識別系統(tǒng)徹底改變了傳統(tǒng)系統(tǒng)的工作流程,突破性地實現(xiàn)了 20 億量級大庫的秒級、高精度、自動化比對。這一技術目前已運用到了指紋以外的更多圖像,如掌紋識別上,未來將推廣到更廣泛的圖像搜索應用中。
保護隱私是未來生物識別技術發(fā)展的關鍵和難點
生物識別技術在許多應用中帶來了便利,但由此引發(fā)的數(shù)據(jù)和隱私保護問題也日益凸顯。生物識別技術的隱私問題不僅包括數(shù)據(jù)庫泄露所帶來的隱私泄露,也會面臨著多種外部攻擊:模仿攻擊,設備替換,重放攻擊,暴力破解等。因此,生物特征識別技術需要一種更有效的隱私保護機制。
墨奇科技認為,一個真正保護隱私的生物識別系統(tǒng)需要具備如下三點:
第一,不可逆。在給定比對特征的情況下,恢復原始的特征模板非常困難。這一特性防止了濫用存儲的生物特征數(shù)據(jù)進行欺騙或重放攻擊,提高了生物識別認證系統(tǒng)的安全性。
第二,可撤銷。一旦某一個模板泄露或被認為不安全,就可以安全注銷,然后簽發(fā)一個新模板,這樣就使得使用生物識別的方式和使用密碼的方式一樣可撤銷。
第三,非關聯(lián)性。這意味著想要確定一個或者多個變換后的模板是源于同一個原始特征,在計算上應該是困難的。也就是說,用戶有不同的生物識別應用,但彼此之間并不關聯(lián)。
只有滿足上述三點的方案才可被稱為可撤銷的生物識別技術,其中有三種方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault。
第一種方案,Biohashing。這種方法的優(yōu)點是由于需要同時借助原始生物特征模板和外部密鑰兩個因素驗證,實際上提高了準確性。然而,該方案的缺點是仍需要記住密鑰,且一旦密鑰暴露,原始生物特征數(shù)據(jù)也不安全。
第二種方案,F(xiàn)uzzy Commitment,使用糾錯碼技術,優(yōu)點是可以看到用戶不需要記住任何密鑰,而缺點在于取決于糾錯碼的構造,可撤銷性或者非關聯(lián)性可能無法完全滿足。
第三種方案,F(xiàn)uzzy Vault,實際上假設原始生物特征模板包含圖像的許多特征點,使用一組網格點對圖像進行分區(qū),并將這些特征點量化到網格,如果足夠多的特征點是正確的,那多項式可以用Generalized Reed Solomon解碼技術來恢復,否則,有很多錯誤點的多項式重建問題,實際上是 NP-hard 問題。這種方法的優(yōu)點是多項式重建問題的難度保證了一定的安全屬性,缺點是比對速度很慢。
圖:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
總的來說,這三種方案各有優(yōu)缺點,在準確性、安全性、比對速度等方面不能兼得。由此可見,研發(fā)保護隱私的生物識別相當困難,目前業(yè)內正在積極探索。
盡管保護隱私的生物識別技術尚未被廣泛采用,但潛力巨大。這也正是墨奇科技持續(xù)努力的領域,墨奇科技也將繼續(xù)致力于為數(shù)十億人提供保護隱私、安全可靠的下一代身份認證和識別服務,引領高性能、保護隱私的生物識別,為生物識別行業(yè)演進出新的技術高度。