机器视觉领域的深度学习方法分析

  • 时间:
  • 浏览:2
  • 来源:万人红黑大战棋牌_万人红黑大战棋牌官网

场景识别

行为识别是计算机视觉领域的重要现象。近年来,研究人员逐步将强度神经网络引入视频的分析与理解中,使其成为行为识别研究中的另一二个新的研究方向。Karpathy等提出另一二个卷积神经网络(ConvolutionalNeuralNetwork,CNN),通过不同的时序融合策略,实现对视频中的行为识别。然而,此模型尽管利用海量数据(sports-1M)进行预训练,行为识别的精准性仍有待提高。

机器视觉领域的强度学习方式

机器视觉强度学习.png

2016年,由谷歌DeepMind开发的AlphaGo围棋线程池依靠强度学习和强化学习的强大能力,在围棋人机大战中以3:1战胜了韩国顶级棋手李世乭。伴随着电子信息技术的高速发展以及各类摄像头的广泛应用,全球图像视频数据爆炸式增长,人类社会正在进入视觉信息的大数据时代。目前大多数机器视觉出理 系统还需要很好地分类整理、传输和存储图像视频,某些缺陷对其图像视频内容高效准确的分析、识别和挖掘方式。

在人脸识别方面,强度神经网络在人脸识别领域公认困难的LFW数据库上超过了人眼识别的准确度。图4给出了在人脸识别领域取得优秀性能的DeepID网络内部,该网络根据人脸内部的特殊性,提出了使用局部共享卷积,提升了网络对人脸图像的分类能力。提出面向跨年龄人脸识别的隐因子卷积神经网络,该网络将隐因子学习引入强度网络,将强度网络中全连接层内部分解为身份和年龄另一二个次要(图5),为提升强度网络对年龄变化的鲁棒性提供了三根新途径,实验表明该网络在著名的LFW数据库上取得了99%的正确率,超过了人眼在这些数据库上的表现97%,并在Morph和CACD这另一二个重要的跨年龄数据库上取得了领先的识别率,分别为88.1%和98.5%,还首次提出面向强度网络的中心损失函数,增强强度内部学习中的聚类效果,实验表明该方式还需要提升人脸识别强度网络的性能,在MegaFace百万级人像比对国际测试的FGNet任务中取得了良好的效果。

另一流行的方式是3DCNN,此类方式通过对标准2DCNN在时间轴上的扩展,实现对视频的旧时空建模。某些,巨大的训练僵化 度需要海量数据的支撑或3D卷积核的分解。牛津大学提出另一二个双流CNN框架以出理 3DCNN的训练现象。通过外形流(Appearancestream)与运动流(MotionStream)CNN的独立设计,此框架在标准数据库UCF101与HMDB51中实现了精准的行为识别。然而,运动流CNN的输入为叠加光流,这使得此框架真难捕捉住短时运动信息,而忽略视频长时运动信息的理解。为进一步改进此内部的识别精准性,作者团队提出轨迹池化的强度描述子(Trajectory-pooledDeepDescriptors),该方式为融合强度模型与传统轨迹内部提供了这些新机制,实验表明这些强度轨迹内部TDD较传统手工设计的内部和传统强度模型具有更强的表示能力和区分性,可明显提高视频分类的正确率。朋友还开发了视频关键域挖掘的强度模型,以及时间分割神经网络,以提高此类框架的旧时空建模能力。另外,还开发了增强运动向量卷积神经网络EMV-CNN,利用运动向量替代需要大量运算的光流,提速20倍以上。递归神经网络(RecurrentNeuralNetwork,RNN),有点痛 是长短时记忆模型(LongShort-TermMemory,LSTM)在各种序列建模任务中取得的成功,使得基于强度学习的行为识别方式逐步向序列建模方向发展。这些常见的训练方式是利用双流CNN提取的内部作为LSTM的输入进行序列模型的训练。

强度学习方式(Deeplearning)作为传统神经网络的拓展,近年来在语音、图像、自然语言等的语义认知现象上取得巨大的进展,为出理 视觉大数据的表示和理解现象提供了通用的框架。图像视频内容僵化 ,包含场景多样、物体种类繁多,非受控条件下,图像和视频的内容受光照、姿态、遮挡等影响变化大,图像视频数据量大,内部维度高,次要应用需实时出理 ,而强度学习方式的快速发展,为出理 上述现象提供了有效的途径。

场景识别与理解是计算机视觉的另一二个基本现象。传统的场景识别方式多依赖于SIFT、HOG、SURF等局部内部。近年来,卷积神经网络也被用于场景分类。早期的方式发现微调(Finetune)通过大规模物体数据库Imagenet训练的网络,在场景分类中全是较好的效果。但与物体分类相比,场景类别更加抽象同另一二个场景类别内图像的内容和布局后来包含僵化 的变化。麻省理工学院的AI实验室推出PLACE大规模场景数据库,推动强度神经网络在大规模场景分类的应用,使得研究人员还需要直接利用场景数据而不想借助Imagenet训练场景分类的强度模型。某些在物体分类中表现优异的网络内部如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在场景分类中取得了良好的效果。研究表明,Dropout和多尺度数据增强等策略有助强度网络的训练,还需要缓解网络过拟合现象;Relaybackpropagation等方式还需要提升场景分类强度网络的性能。与传统手工设计的内部相比,强度神经网络学习的场景内部表达能力雄厚,语义性更强,某些还需要在识别任务中取得更好的效果。

在图像领域,Krizhevsky等利用多层卷积神经网络,在大规模图像分类ImageNetLSVRC-2012竞赛中(包含1千个类别,6万图像)取得了明显高于传统方式的结果,将Top5错误率由26%大幅降低至15%,该神经网络有7层,包含约66万个神经节点和6千万参数。目前卷积神经网络后来成为该领域的主流方式。在此基础上,研究人员提出了VGGNet、GoogLeNet、残差网络ResidualNet等更强度的网络,并提升了强度学习方式在大规模图像分类领域的性能。强度网络还能准确检测出图像物体的位置,并能预测相似人体部位手、头、足的位置和姿态。

本文由朗锐智科编辑分类整理(www.lrist.com),如有侵权请联系本站。

物体分类

强度学习还在图像恢复和超分辨率、图像质量评价、语义分割与解析、图像内容文本生成、医学图像分析等某些任务中取得了较传统方式更好的结果,大大推动了相互领域技术和方式的发展。

人像分析

行为识别

强度学习利用包含多个隐层的强度神经网络,出理 需要强度抽象内部的人工智能任务,借鉴了人脑的多层(通常认为是8-10层)神经细胞出理 内部,多层非线性内部使得强度神经网络备对抽象语义内部的抽取能力和对僵化 任务的建模能力。传统神经网络受限于过拟合(overfitting)现象,真难训练出泛化能力强的多层网络模型。强度学习通过组合低层内部形成更加抽象的高层表示属性类别的内部,以发现数据的分布式内部表示。建立强度学习的另一二个动机在于模拟人脑的分析出理 机制来解释数据,人脑皮质具有多层的内部,信息在人脑中逐层出理 ,逐步抽象。强度架构看做这些“因子分解”,即从僵化 的数据中抽取出可复用的表达本质内部的内部。强度学习模型后来其多层非线性内部,具有强大的能力,有点痛 适合大数据的学习(图2)。这是后来传统浅层模型随还还能不能 力有限,在训练数据量增大到一定程度时其能力往往饱和,无法充分利用大规模训练数据所包含的有效信息。与此对应,强度学习方式后来其强大的能力,还需要较为充分的利用大规模数据,从中提取有效的内部。