观点 | 计算机视觉到底是个什么鬼?
房间的那一边,一个人冲你扔了一个球,你接住了。看上去特别简单,对吧?
事实上,尝试去全面理解的话,这是我们所见过的最为复杂的过程之一,先不说如何再现它。发明一个能像我们一样去观察周围的机器是极其困难的,不只是因为计算机模仿起来很难,还是因为我们自己都没有完全弄懂人类是如何做到这事的。
刚刚那个过程大致是这样发生的:球的图像经过眼球,落在视网膜上:在这个过程当中做了一些基本的分析,并把分析传送到大脑(在大脑里面,视觉皮层会彻底地分析这个图像)。之后再把它发送到大脑皮层的其他部位,然后将它和已知的一切进行对比,再按照对象和维度进行分类,最后做出反应:举起手,抓住球(已经预测了它的路径)。整个过程不到一秒,几乎没有意识的参与,也从不会出错。因此,重建人类的视觉并不是单单一个难题,而是一组,其中的每一个都与另一个相关联。
当然,没有人说过这很容易。除了这位人工智能先驱:Marvin Minsky,他在1966年曾指导过一名研究生,将摄像机连接到电脑上,描述出它所看到的东西。可怜的娃:50年过去了,我们还在做这件事。
50年代开始,开始了以下三个方面的正式研究:模拟眼睛(困难);模拟视觉皮层(非常困难);模拟大脑的其他部分(可以说是有史以来最困难的问题)
看见
模拟眼睛是我们成就最大的领域。过去的几十年间,我们创造了传感器和图像处理器,它们甚至在某些方面超过了人眼能力。纳米范围内,配备更大光学镜片和半导体亚像素的现代相机,其精度和灵敏度都非常不可思议。相机还可以每秒记录数千张图像,并能精确地探测距离。
然而,尽管这些设备的输出做到了高度保真,但在许多方面比19世纪的针孔相机也没有先进多少。它们仅记录了特定方向的光子分布。即便是最好的相机传感器也无法识别出球,更别说抓到它了。
换句话说,没有软件,硬件的能力也是非常有限的,而这才是最大的问题。但现代摄影技术确实提供了一个可供选择的方向。
描述
这里并不是想讲解完整的视觉神经解剖学课程,而是想说我们的大脑的反应过程是先看见,然后嘴巴才能说出来。大脑更专注于视觉任务而非其他,其他细胞的工作也是如此。亿万细胞一同工作,从视网膜发出的杂乱无序的信号中提取信息。
当沿着某一特定角度或特定方向快速运动时,神经元就会相互激发。高级网络将这些聚合为元模式:一个圆圈,向上移动着。另一个网络则构成:圆圈是白色的,有红色的线。另一个:它在变大。一幅图像就这样从这些粗糙但互补的描述中组合出来。
考虑到这些网络的复杂性,计算机视觉的早期研究采取了一种不同的方法:“自上而下”的推理— 一本书是“这样的”,记住现在的样子,除非转到另一侧,它看起来更像是“这样”。一辆车看起来是“这样的”,移动起来时,是“这样的”。
我们很难想出一个定义来解释大脑是如何工作的,更不用说模拟它了。
对于给定情景下的物体,还能做到,但想象一下,要从不同的角度,描述周围的每一个物体,光照,运动变化,还有其他很多很多东西。显然,即便是要达到儿童的认知水平,就需要大量的数据。
用“自下而上”模拟大脑处理视觉信息的过程,看起来更有希望。计算机可以将呈现的多张图片做一系列的转换,处理成图像,并分辨出边缘、暗处、透视和运动等。这些过程涉及大量的数学和统计数据,这相当于计算机要尽力把看到的形状和之前被训练时识别过的形状进行匹配,就像我们大脑的处理过程一样。
理解
当然,你可以建立一个系统,它能识别各种各样的苹果,任何角度,任何情景,静止的或是运动,被咬了一口,或任何情况下的苹果。但它不能识别橘子。它甚至不能告诉你苹果是什么,它是否可以食用,它有多大,或者它的用途是什么。
问题就在于,再好的软件和硬件,没有操作系统的参与,也毫无用处。
人工智能与控制
于我们而言,说的就是我们的大脑:短期和长期记忆,其他感官的输入,注意力和认知,亿万年进化过程中内化而来的经验教训,以一种我们几乎无法理解的方式写入了大脑神经网络,这比以往遇到的任何事情都要复杂难懂。
计算机视觉的未来在于将已创造出的具体且强大的系统与更广泛的系统集成后的更大发挥。
这是计算机科学前沿技术与更普遍的人工智能交汇的地方,也是我们正在发力攻克的领域。计算机科学家、工程师、心理学家、神经学家和哲学家的工作中,都无法找到任何关于大脑如何工作的定义,模拟也就不在探讨之列了。
但这并不意味着我们穷途末路。计算机视觉的未来在于将我们所创建的强大但具体的系统与更广泛的系统集成在一起,这些系统将更专注于概念理解:背景、注意力、意图等。
也就是说,尽管计算机视觉在萌芽时期,但是它也是非常有用。它出现在相机里,能识别人脸微笑。它出现在自动驾驶汽车里,能识别交通标志,观察行人。它出现在工厂机器人里,能监控问题,并协助人类工作。让计算机拥有人类的视觉,实现这个目标任重道远。不过考虑到目前已有进展给世界带来的变化,如果真到了那一天,简直就太奇妙了。
作者 | Devin Coldewey 原文地址
https://techcrunch.com/2016/11/13/wtf-is-computer-vision/
AI科技大本营
招实习生啦
嘿,小伙伴们,AI科技大本营招实习生啦!
这次我们有以下几个方向:
微信运营、科技音视频运营和技术编辑各一名。
有意向的小伙伴,请在AI科技大本营微信公众号回复“实习生”,查看详细工作要求和职位描述,以及简历投递渠道。
点击阅读原文,查看AI科技大本营招募计划
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平引领家庭家教家风建设 4930848
- 2 中方对菲律宾耐心不是无止境 4993048
- 3 汪文斌向全世界推荐峨眉女侠 4823217
- 4 没有信息化就没有现代化 4742625
- 5 体育生左膝长骨瘤医生错切右膝 4699358
- 6 女生洗澡时浴屏爆裂缝合20多针 4581715
- 7 健身房界爱马仕 戳破中产幻觉 4400017
- 8 女子一人分饰三角骗女老师三百多万 4349545
- 9 管理方辟谣郑州大玉米楼被刮歪 4299740
- 10 男孩遭6人围殴吐血住院?警方通报 4160921