论文摘要
针对时序动作选举任务,设计一种两段式动作候选区域选举网络。第一段将改进的分水岭算法应用于一维时序信号,通过浸水聚类产生多种不同长度的候选区域,实现动作时序边界的粗定位,进而提出一种时序金字塔结构化方法,引入动作片段的上下文信息模块,对候选区域的主体信息和上下文信息进行结构化建模,生成一个增强的全局特征。第二段利用时序坐标回归算法定位动作边界,同时加入动作/背景分类器过滤背景候选区域,得到更加精确的时序边界。整个网络以三维卷积神经网络(C3D)提取的单元级特征进行训练,挖掘了视频时域和空域的丰富语义,在提升算法精度的同时大大提升了训练效率。在两大基准数据集Thumos 14和ActivityNet上进行测试,结果表明,与已有方法相比,两段式视频时序动作选举算法达到了最优平均召回率,可有效提高动作定位的精度。
论文目录
文章来源
类型: 期刊论文
作者: 黄韵文,王斐,李景宏,王国锐
关键词: 机器视觉,视频时序检测,动作定位,金字塔池化,时序上下文
来源: 中国激光 2019年11期
年度: 2019
分类: 基础科学,信息科技
专业: 计算机软件及计算机应用,自动化技术
单位: 东北大学信息科学与工程学院,东北大学机器人科学与工程学院
分类号: TP391.41;TP183
页码: 278-286
总页数: 9
文件大小: 2801K
下载量: 86