《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 基于Flink框架的TopN堆排序優(yōu)化算法
基于Flink框架的TopN堆排序優(yōu)化算法
2020年信息技術(shù)與網(wǎng)絡(luò)安全第2期
關(guān)沫,魏碧晴
(沈陽工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽 110870)
摘要: 為了解決大數(shù)據(jù)TopN排序問題,將傳統(tǒng)的堆排序進(jìn)行優(yōu)化,闡述了優(yōu)化后的HeapOptimize方法的處理過程。HeapOptimize方法基于Flink框架來完成TopN作業(yè),可以實(shí)時(shí)地接收并處理大量的數(shù)據(jù),根據(jù)單位時(shí)間需要處理的數(shù)據(jù)數(shù)量來調(diào)整算子的并行度,增加Flink框架的吞吐量,提高處理數(shù)據(jù)的速度。通過實(shí)驗(yàn)測量的數(shù)據(jù)結(jié)果佐證了HeapOptimize方法的優(yōu)勢(shì)。
中圖分類號(hào):TP311.13
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.2096-5133.2020.02.005
引用格式:關(guān)沫,魏碧晴.基于Flink框架的TopN堆排序優(yōu)化算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(2):23-26.
Flinkbased heap ranking optimization algorithm for TopN problem
Guan Mo,Wei Biqing
(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,China)
Abstract: In order to solve the problem of TopN sorting for big data,the traditional heap sorting is optimized.The optimized method is named HeapOptimize,and the calculation process of HeapOptimize method is described.This method is based on Flink framework to complete TopN operations.It can receive and process large amounts of data in real time.It can adjust the parallelism of operators according to the number of data to be processed per unit time,increase the throughput of Flink framework,and improve the speed of data processing.The advantage of HeapOptimize method is confirmed by the data results of experimental measurement.
Key words : big data;TopN;Flink;throughput

0     引言

隨著計(jì)算機(jī)技術(shù)和信息科技的快速發(fā)展,全球的數(shù)據(jù)量急劇增長,2015年全球的數(shù)據(jù)總量達(dá)到8.61 ZB,預(yù)估2020年全球的數(shù)據(jù)總量會(huì)超過40 ZB。通過移動(dòng)互聯(lián)網(wǎng)、社交媒體等服務(wù)模式,大數(shù)據(jù)產(chǎn)業(yè)已滲透到人們生活的各個(gè)方面,并且數(shù)據(jù)價(jià)值的時(shí)效性越來越重要,集群必須以毫秒級(jí)的延遲從大規(guī)模的數(shù)據(jù)中提煉有價(jià)值的信息。

TopN問題就是從許多的數(shù)值選出前N個(gè)最大或者最小的數(shù)值有序排好,最常見的應(yīng)用于微博熱搜榜、歌曲人氣榜、投票選舉等。由此可見利用大數(shù)據(jù)技術(shù)和計(jì)算機(jī)技術(shù)能輕松解決傳統(tǒng)排序問題。如微博熱搜榜,需要實(shí)時(shí)更新點(diǎn)擊量并按其從大到小的順序排列。而使用流計(jì)算框架Flink來解決TopN問題可以滿足其實(shí)時(shí)性和低延遲的要求。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003154





作者信息:

關(guān)沫,魏碧晴

(沈陽工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽 110870)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。