123,123

基于深度学习的视频行为分类方法综述

2022年电子技术应用第7期

杨戈1，2，邹武星1，2

1.北京师范大学珠海分校智能多媒体技术重点实验室，广东珠海519087； 2.北京师范大学自然科学高等研究院，广东珠海519087

摘要： 过去几年，视频行为分类从手工选择特征方式逐步向采用深度学习端到端网络模型方式转变。讨论了传统手工选择特征的行为分类方法以及基于深度学习的行为分类方法，着重对包括基于卷积神经网络、长短期记忆网络和时空融合网络等不同的深度学习方法进行了论述，并对常用视频行为分类数据集做了概述，对视频行为分类方法的发展进行总结和展望。

關(guān)鍵詞： 视频行为分类数据集深度学习

中圖分類號： TP391
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.212388
中文引用格式： 楊戈，鄒武星. 基于深度學(xué)習(xí)的視頻行為分類方法綜述[J].電子技術(shù)應(yīng)用，2022，48(7)：1-7，12.
英文引用格式： Yang Ge，Zou Wuxing. A survey on video action classification methods based on deep learning[J]. Application of Electronic Technique，2022，48(7)：1-7，12.

A survey on video action classification methods based on deep learning

Yang Ge1，2，Zou Wuxing1，2

1.Key Laboratory of Intelligent Multimedia Technology，Beijing Normal University，Zhuhai 519087，China； 2.Advanced Institute of Natural Sciences，Beijing Normal University，Zhuhai 519087，China

Abstract： In the past few years, video action classification has gradually changed from manual feature selection to deep learning end-to-end model. This article discusses the traditional action classification method of manually selecting features and the action classification method based on deep learning, focusing on different deep learning methods including convolutional neural networks, recurrent neural network, dual-stream network, long and short-term memory network, etc., and it summarizes the commonly used video action classification data sets, summarizes and prospects the development of video action classification methods.

Key words : video action classification；data set；deep learning

0 引言

視頻行為分類的目的是根據(jù)視頻內(nèi)容將視頻行為歸類為預(yù)設(shè)類別。隨著數(shù)字?jǐn)z像機、智能手持終端等各種視頻拍攝設(shè)備的普及，網(wǎng)絡(luò)上視頻產(chǎn)生數(shù)量出現(xiàn)飛速增長。截至2019年6月，中國網(wǎng)絡(luò)視頻用戶規(guī)模近7.59億，中國短視頻用戶規(guī)模為6.27億^[1]，最新興起的短視頻業(yè)務(wù)用戶規(guī)模以及用戶日均短視頻移動應(yīng)用(Application，APP)停留時長均出現(xiàn)爆發(fā)式增長。圖像本身就包含大量信息，而視頻是圖像在時間維度的擴展，每秒往往包含24幀左右的圖像，所占存儲空間較之圖像可以說是呈數(shù)量級倍數(shù)關(guān)系。存儲、分析這些視頻內(nèi)容需要花費巨大的財力和人力，在計算機自動分析視頻數(shù)據(jù)得到廣泛應(yīng)用前，視頻內(nèi)容的行為分類一般依靠人工實現(xiàn)，不僅效率低而且誤判、漏判率高。自動化視頻內(nèi)容分析技術(shù)推廣的現(xiàn)實意義廣泛而深遠(yuǎn)。

計算機視頻行為分析技術(shù)不僅可以同時自動監(jiān)控多路信號，且不會產(chǎn)生疲勞，降低誤判的可能性；在視頻內(nèi)容檢索領(lǐng)域的應(yīng)用更是將極大減輕公共安全從業(yè)人員的視頻檢索工作量，提高他們的檢索效率，降低漏檢率。自動化視頻內(nèi)容分析技術(shù)推廣的現(xiàn)實意義廣泛而深遠(yuǎn)，深度學(xué)習(xí)在視頻分類的應(yīng)用主要有以下方面。

本文詳細(xì)內(nèi)容請下載：http://ihrv.cn/resource/share/2000004577。

作者信息：

楊戈1，2，鄒武星1，2

(1.北京師范大學(xué)珠海分校智能多媒體技術(shù)重點實驗室，廣東珠海519087；

2.北京師范大學(xué)自然科學(xué)高等研究院，廣東珠海519087)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容