快乐学习 一个网站喵查铺子(catpuzi.com)全搞定~

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

AI人工智能学习 尔雅学习君 2020-02-04 扫描二维码
文章目录[隐藏]

机器视觉技术的进化

关于如何进行图像识别目前有很多种算法卷积神经网络是比较主流也是准确率比较高的一种模型其实从20世纪60年代开始人们就开始着手于图像识别的研究 积木世界60年代,互联网大佬拉里罗伯茨在他的博士论文中第一次提到,世界是由基础的一些多边形构成,我们可以让机器通过对线条图的分析,来了解这个场景的构造(由哪些多边形,位置方向是怎么样的),这个理论我们一般称之为积木世界但这依然没有深度这一概念

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

 

三段式视觉图像形成70年代,英国数学家、神经学家David Marr认为,机器需要人拥有相似的信息处理能力,即通过一个图像,可以理解更深层次的外部世界结构例如一个篮球在地板上,如果我们只看一个二维的图片,也可以清楚的分析出这个篮球是在地板上,而不是在地板前面同样我们可以看出这篮球是个球体,而不是一个纸片篮球

 

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

这是因为我们的大脑经过了大量的信息处理而Marr认为机器也一样需要处理,他将视觉图像的形成分成了三部分:二维基素图(早期视觉):即2D图像,可以通过输入图像得出线条图,了解该图像中物体的轮廓、形状;2.5维要素图(中期视觉):即2.5D图像,这是以观察者的角度,可以通过深度的计算,来得到与物体观察者的距离,因此叫做2.5维三维模型表征(后期视觉):通过2D、2.5D的图像及其计算结果,得出图像中物体的具体结构和相对位置,该表征是以物体为中心建立三维坐标系 几种基于特征点提取的算法SIFT1999年,轰动一时的SIFT算法由UBC教授David Lowe提出,这个算法的简单概念就是提取图像中某物体的一些易提取、抗干扰能力强并且有显著特征的的特征点,通过对特征点的计算,来识别这种物体的类别以及形态,该算法可以较为有效的解决物体旋转、光线、遮蔽等因素所带来的干扰,截至2014年,该论文也已经被引用了25000余次。

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

 

 

提取SIFT特征点及其频数Spatial pyramid matchingSPM基于SIFT算法,提取特征点,通过分析特征点出现频率来识别图像中的物体类别已经成了比较热门的,但是BOVW模型(词袋模型,广泛应用于最初的垃圾邮件筛选,对特征词出现的频率进行计算分析,并不考虑出现顺序和相对位置),完全缺失了特征点的位置信息。因此,2006年,Svetlana Lazebnik 提出了SPM模型,即将图像分块,通过先分别计算不同部分的特征点出现频率,再进行整合,得到图上物体的相对位置,该理论在06年CV顶会CVPR上提出。

 

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

Deformable part model同年,同样为了解决特征点缺失位置信息的问题,芝加哥大学的Felzenszwalb提出了DPM模型,在提取图像特征点的同时,增加了模型的特征点。为了方便理解,举个例子,如下图所示:

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

http://www.catpuzi.com 喵查铺子

目标是识别特征图中的人,所以“人”就是我们的模型我们同时提取特征图与模型“人”的特征点,将二者进行内积计算,得到响应分数(响应分数在图中展示为发光强度)我们可以看到,图中左边的根模型响应图,在原图中有“人”的位置,发出的绿光非常强烈,这就明确了人的位置同样,将模型“人”的特征点进行分解,可以得到“头”“身体”“四肢”等部件特征点通过与原图匹配(即图中右面的两列图,2倍分辨率是因为部件更小,所以需要更细化的特征点分布),可以看到在下图中,中间一列的响应变换,人头的位置光强最大,因此可以确定人头位置再通过根模型与部件模型的合并,可以得到综合响应,确定模型位置及部件位置,得到模型的形态姿势。

机器视觉技术的现状

 

2006年深度学习理论被提出后,卷积神经网络在机器视觉上的表现得到了关注随着IMAGENET平台的建立,更是为深度学习提供了更优秀的训练数据库超过22000种分类,1400万张图片

 

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

 

上图中可以看到,由于2012年的数据量激增大量的数据使得深度学习的表现有了大幅提升它的表现也非常令人满意,2015年就已经超越了人类在识别上的准确度但是目前的机器视觉依然存在很多问题最明显的一个,目前的机器视觉可以叙述出图中的物体,物体的相对位置等等,但是无法阐述图片背后的故事(如下图,机器可以识别出巴克利在亲驴屁股,但是它并不能得知这件事情的原因是姚明在与湖人的比赛中得到了20分,这个可能一个热爱篮球的四岁小孩都可以阐述出来)

CS231n笔记(1):机器视觉的发展史之机器视觉技术的进化和现状

 

所以机器视觉的路还很长

喜欢 (1)
关于作者: