一種基于指令流水線的數據匹配算法
所屬分類:技術論文
上傳者:wwei
文檔大小:3345 K
標簽: 正則表達式匹配 指令流水 高性能數據匹配
所需積分:0分積分不夠怎么辦?
文檔介紹:基于正則表達式的數據匹配技術在基礎數據治理和清洗方面有著重要的應用價值。然而,在高性能計算領域的數據處理過程中因算法匹配吞吐率低,無法滿足大數據處理環(huán)境下對算法的高性能要求,造成其應用范圍受限。針對此現象,提出一種基于指令流水線的數據匹配算法,稱之為γFA:利用Intel架構內置的向量指令流水式讀入若干字符段,通過大寬度向量比較函數進行字符段與非信任字符集的流水比值處理并轉換成整型向量,通過位置定位函數累加定位出所有整型向量的首個非信任字符位置,計算出可略過的總字符數,減少正則表達式匹配引擎因處理非信任字符集導致訪問低速內存而帶來巨大的時間開銷,實現正則表達式匹配算法的性能提升。實驗結果表明,γFA算法的吞吐率是原始DFA算法的15.88~53.06倍,相比于ßFA算法,吞吐率提升了35.12%~63.26%,取得較好的性能加速效果。此外,通過對γFA算法進行優(yōu)化后,性能可接近100 Gb/s,為原始DFA匹配算法性能的15.88~64.94倍,相比于γFA算法性能提升了2.15%~43.09%。
現在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。