7月15日,在清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦的“數(shù)據(jù)安全與可信AI”主題學(xué)術(shù)工作坊上,墨奇科技 CEO 及聯(lián)合創(chuàng)始人邰騁受邀做了主題為“高性能、保護(hù)隱私的生物識(shí)別技術(shù)”的報(bào)告。在報(bào)告中,邰騁闡釋了如何將指紋識(shí)別問題轉(zhuǎn)化為高精度圖像搜索問題,業(yè)內(nèi)首次達(dá)到 20 億量級(jí)上的秒級(jí)、高精度、自動(dòng)化比對(duì),并介紹了保護(hù)隱私的生物識(shí)別技術(shù)特性和實(shí)現(xiàn)途徑。
突破大庫衰減的天花板,高性能生物識(shí)別的探索成為當(dāng)務(wù)之急
隨著以指紋識(shí)別為代表的生物識(shí)別技術(shù)在各類場(chǎng)景的廣泛應(yīng)用,如何在保證生物識(shí)別的性能同時(shí)保護(hù)用戶的隱私成為一個(gè)亟待解決的時(shí)代命題。
生物識(shí)別技術(shù)一般來說有兩種類型任務(wù):第一種是驗(yàn)證,也稱之為 1:1 的比對(duì);第二種是識(shí)別,也稱之為 1:N 的比對(duì)。1:N 的問題比 1:1 的問題要困難約N 倍,而且隨著庫容增大到20億級(jí)別,這一問題會(huì)變得更加困難。
除了在億級(jí)大庫指紋識(shí)別任務(wù)中的技術(shù)挑戰(zhàn),傳統(tǒng)指紋識(shí)別流程存在四方面問題:
一是很難自動(dòng)化處理低質(zhì)量的指紋圖像,仍依賴于指紋專家對(duì)細(xì)節(jié)特征進(jìn)行人工標(biāo)注,技術(shù)門檻很高,效率卻很低。
二是由于傳統(tǒng)方法都是基于細(xì)節(jié)特征,而細(xì)節(jié)特征本身的精度就有限,只覆蓋了指紋信息中的一小部分,曲率和幾何信息都丟失了。隨著數(shù)據(jù)庫大小的增加,準(zhǔn)確率會(huì)迅速下降,即“大庫衰減”現(xiàn)象。
三是基于深度學(xué)習(xí)的方法需要大量的訓(xùn)練數(shù)據(jù),但是這些數(shù)據(jù)并不易于獲得。
四是在大型數(shù)據(jù)庫比對(duì)上花費(fèi)的時(shí)間過長(zhǎng)。
墨奇科技一直致力于探尋新的技術(shù)路徑來解決這些問題,并發(fā)現(xiàn)了一種可行的方式:將指紋比對(duì)問題轉(zhuǎn)化為高精度圖像搜索問題,并自主研發(fā)出了高精度圖像搜索引擎技術(shù),它包含三個(gè)部分:圖像的自適應(yīng)多尺度表示和索引系統(tǒng)、無標(biāo)注或極少標(biāo)注的自學(xué)習(xí)框架,以及高速異構(gòu)的搜索系統(tǒng)。
圖:多尺度特征
首先通過一個(gè)更有效的數(shù)學(xué)框架為指紋圖像構(gòu)建最佳的多尺度表示,讓高精度、高性能的圖像搜索成為可能。例如,在從像素到整體圖像的每一個(gè)中間尺度上,都提取了標(biāo)簽(label)、向量(vector)和圖(graph)等不同的特征,極大地?cái)U(kuò)充了指紋信息。
其次,只需要極少樣本的AI自學(xué)習(xí)框架,讓系統(tǒng)可以自學(xué)習(xí),且需要的標(biāo)注數(shù)據(jù)減少了幾千至上萬倍。
另外,超高性能的異構(gòu)系統(tǒng)和架構(gòu),讓準(zhǔn)確性和速度提升。專門用于視覺搜索的異構(gòu)多層分布式系統(tǒng),針對(duì)多尺度特征進(jìn)行了優(yōu)化。對(duì)于量大且不需要高精度的圖像,可以使用GPU來進(jìn)行運(yùn)算;而對(duì)精度要求較高的圖像則調(diào)用CPU來進(jìn)行運(yùn)算,從而實(shí)現(xiàn)指紋圖像的高速比對(duì)。
上圖:需要人工標(biāo)注細(xì)節(jié)特征
下圖:無標(biāo)注比對(duì)自動(dòng)搜索指紋圖像相似的區(qū)域
憑借這些思路以及底層的技術(shù)創(chuàng)新,墨奇科技的新一代指紋識(shí)別系統(tǒng)徹底改變了傳統(tǒng)系統(tǒng)的工作流程,突破性地實(shí)現(xiàn)了 20 億量級(jí)大庫的秒級(jí)、高精度、自動(dòng)化比對(duì)。這一技術(shù)目前已運(yùn)用到了指紋以外的更多圖像,如掌紋識(shí)別上,未來將推廣到更廣泛的圖像搜索應(yīng)用中。
保護(hù)隱私是未來生物識(shí)別技術(shù)發(fā)展的關(guān)鍵和難點(diǎn)
生物識(shí)別技術(shù)在許多應(yīng)用中帶來了便利,但由此引發(fā)的數(shù)據(jù)和隱私保護(hù)問題也日益凸顯。生物識(shí)別技術(shù)的隱私問題不僅包括數(shù)據(jù)庫泄露所帶來的隱私泄露,也會(huì)面臨著多種外部攻擊:模仿攻擊,設(shè)備替換,重放攻擊,暴力破解等。因此,生物特征識(shí)別技術(shù)需要一種更有效的隱私保護(hù)機(jī)制。
墨奇科技認(rèn)為,一個(gè)真正保護(hù)隱私的生物識(shí)別系統(tǒng)需要具備如下三點(diǎn):
第一,不可逆。在給定比對(duì)特征的情況下,恢復(fù)原始的特征模板非常困難。這一特性防止了濫用存儲(chǔ)的生物特征數(shù)據(jù)進(jìn)行欺騙或重放攻擊,提高了生物識(shí)別認(rèn)證系統(tǒng)的安全性。
第二,可撤銷。一旦某一個(gè)模板泄露或被認(rèn)為不安全,就可以安全注銷,然后簽發(fā)一個(gè)新模板,這樣就使得使用生物識(shí)別的方式和使用密碼的方式一樣可撤銷。
第三,非關(guān)聯(lián)性。這意味著想要確定一個(gè)或者多個(gè)變換后的模板是源于同一個(gè)原始特征,在計(jì)算上應(yīng)該是困難的。也就是說,用戶有不同的生物識(shí)別應(yīng)用,但彼此之間并不關(guān)聯(lián)。
只有滿足上述三點(diǎn)的方案才可被稱為可撤銷的生物識(shí)別技術(shù),其中有三種方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault。
第一種方案,Biohashing。這種方法的優(yōu)點(diǎn)是由于需要同時(shí)借助原始生物特征模板和外部密鑰兩個(gè)因素驗(yàn)證,實(shí)際上提高了準(zhǔn)確性。然而,該方案的缺點(diǎn)是仍需要記住密鑰,且一旦密鑰暴露,原始生物特征數(shù)據(jù)也不安全。
第二種方案,F(xiàn)uzzy Commitment,使用糾錯(cuò)碼技術(shù),優(yōu)點(diǎn)是可以看到用戶不需要記住任何密鑰,而缺點(diǎn)在于取決于糾錯(cuò)碼的構(gòu)造,可撤銷性或者非關(guān)聯(lián)性可能無法完全滿足。
第三種方案,F(xiàn)uzzy Vault,實(shí)際上假設(shè)原始生物特征模板包含圖像的許多特征點(diǎn),使用一組網(wǎng)格點(diǎn)對(duì)圖像進(jìn)行分區(qū),并將這些特征點(diǎn)量化到網(wǎng)格,如果足夠多的特征點(diǎn)是正確的,那多項(xiàng)式可以用Generalized Reed Solomon解碼技術(shù)來恢復(fù),否則,有很多錯(cuò)誤點(diǎn)的多項(xiàng)式重建問題,實(shí)際上是 NP-hard 問題。這種方法的優(yōu)點(diǎn)是多項(xiàng)式重建問題的難度保證了一定的安全屬性,缺點(diǎn)是比對(duì)速度很慢。
圖:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
總的來說,這三種方案各有優(yōu)缺點(diǎn),在準(zhǔn)確性、安全性、比對(duì)速度等方面不能兼得。由此可見,研發(fā)保護(hù)隱私的生物識(shí)別相當(dāng)困難,目前業(yè)內(nèi)正在積極探索。
盡管保護(hù)隱私的生物識(shí)別技術(shù)尚未被廣泛采用,但潛力巨大。這也正是墨奇科技持續(xù)努力的領(lǐng)域,墨奇科技也將繼續(xù)致力于為數(shù)十億人提供保護(hù)隱私、安全可靠的下一代身份認(rèn)證和識(shí)別服務(wù),引領(lǐng)高性能、保護(hù)隱私的生物識(shí)別,為生物識(shí)別行業(yè)演進(jìn)出新的技術(shù)高度。