您的位置: 主页 > 人工智能学家 > 亿欧智库:自动驾驶人工智能技术背后的人类机械工作

亿欧智库:自动驾驶人工智能技术背后的人类机械工作

时间: 2017-07-25阅读:

作者:李星宏

来源:亿欧

概要:目前主要用于自动驾驶的视觉传感器——即摄像头包括单目摄像头和双目摄像头。单目摄像头首先识别物体,再利用几何、光学的原理进行测距。


2017已进入下半年,随着Level3车型奥迪A8量产消息的公布,现代也准备提前公布“在高速公路上接近Level 3”的半自动驾驶技术,在接下来的时间,我们似乎能够看到更多量产的自动驾驶汽车涌入视野。


自动驾驶背后的支撑技术之一——深度学习在汽车的环境感知阶段具有重要意义:使汽车的计算机视觉更加智能,承担物体识别、追踪和预测的功能,感知并理解周围环境中的行人、车辆以及交通标识,帮助汽车完成决策过程。然而要训练AI实现高精度的识别能力是极为耗时耗力的过程。亿欧智库研究团队对此进行一些必要的解读分析。


为何需要图像标注?一个必须的过程。


目前主要用于自动驾驶的视觉传感器——即摄像头包括单目摄像头和双目摄像头。单目摄像头首先识别物体,再利用几何、光学的原理进行测距。双目摄像头则模拟人类视觉,利用视差测算视野中物体的距离,抓取外形完成识别。无论单双,摄像头均需要进行对拍摄图像中的物体进行识别和理解,为自动驾驶系统提供决策依据。


深度学习方法是图像识别的支撑技术。在自动驾驶的视觉识别领域,目前主要采用监督式的深度学习算法,即对摄像头获取的大量图像中的各种物体进行特性的标注,然后训练AI,使其能够检测出图像中的不同物体,继而依据各自的特征进行分类识别,乃至于实现车辆定位、物体动态跟踪的技术。高质量的训练样本的规模是巨大的:全球知名的计算机视觉识别数据库ImageNet拥有1500万张有效图片,覆盖了22000种物品。该项目还通过历年组织的挑战赛来评估数据库中物体识别、图片和场景分类算法的能力。到现在,ImageNet竞赛的算法识别精度已经达到95%以上,使计算机视觉开始超越人类识别图片的水平。此外,谷歌发布的大型视频数据集 YouTube-8M则包含了 700 万个 YouTube 视频的 URL,即 45 万小时长度的视频,并带有视频的特征标注。



AI训练背后的高强度人类机械式工作


ImageNet的图像识别成绩出色,但背后的录入过程是极为简单粗暴的机械式工作:项目组通过网络将任务众包出去,汇集了5万多人去完成10亿张备选图片的筛选标注。类似于使用photoshop手动抠图,工作人员需要细致到像素级别,描绘出不同物体的轮廓,分别着色,从而完成所谓“图像语义分割”的过程。数量足够多之后,图像、视频的质量也有要求,在标注之前往往还需要筛选分类(例如剔除低质量图片、根据天气情况分类)的过程。知名的人工智能平台Might AI也是通过众包形式,对员工进行培训,对数千小时的视频逐帧进行物体标记。像Waymo、通用、特斯拉均是这些数据库的客户。尽管ImageNet开放共享了名下数据以方便研究,22000种物品的覆盖度也的确很多,但随着汽车路测里程越来越多,驾驶的范围越来越广,需要标记、分类的人力需求也将越来越大,更何况还需要考虑不同天气、光照水平下物体在图像中的不同呈现。这样的情况与人工智能精神(使人力摆脱于枯燥简单的劳动)两相对比,竟显得有些黑色幽默。



业界改变图像数据标注低效现状的尝试


1.把自动驾驶训练搬到虚拟平台


既然难以高效完成数据的像素级标记和所有情况的覆盖,有人尝试将深度神经网络训练搬到虚拟平台。Intel实验室、德国达姆施塔特工业大学、普林斯顿大学、密歇根大学均使用游戏《侠盗猎车手5》(简称GTA V)来模拟研发自动驾驶。GTA V因其逼真的开放世界而闻名,游戏中还原程度很高的交通场景已经尽可能地覆盖了不同的天气情况,不同的路段,以及有可能发生的一些突发状况,研究人员完全可以借助这一已有的模型进行AI训练,不仅省去了搭建模拟驾驶平台的时间,从数据采集、数据标注、场景覆盖来讲,效率都有相当程度的提高,降低测试成本。例如,游戏中的每个物体都有自己的模型和属性,因而在使用模拟图片进行AI训练时无需数据标记,便能直接输入到算法之中完成识别,再经过适当地纠正,转而运用到现实测试之中。



2.改变图像传感器识别机制


法国初创公司Chronocam另辟蹊径。以往的图像传感器多是通过抓取静态的路况图片采集数据,而存取的大量重复图像又降低了图像识别和数据处理的效率。Chronocam的事件驱动型传感器则只关注图像中局部像素点的动态变化,从而探测物体的存在。目前该公司仍在构建适用于动态信息处理的数据库,使动态像素点能够对应于各自的物体属性。这个过程是否仍沿用手工标注图像不得而知,不过从其降低AI训练的数据需求量的角度来讲,确实有助于图像识别和处理效率的提高。Chronocam已经在去年得到英特尔、雷诺等公司的1500万美元投资,并和雷诺、尼桑展开一年多的测试,计划于明年推出产品。


3.从监督式学习向弱监督、无监督过渡


不同于像素级标注的监督式学习方法,有不少研究者将注意力转移到弱监督条件下的图像语义分割技术。图像仅需做出级别标注,如有人/无人、有车/无车,并不需要像素级数据便可获得与现行方法可比的精度。需要说明的是,监督式学习的特征就是对算法提供有所标记的训练样本,而弱监督学习对这方面做了弱化,无监督学习则完全忽略这个过程,半监督学习则是监督学习和无监督学习的结合。不同的方式所需要的人力介入度和人工成本是不相同的,监督式学习便是其中最耗时耗力的。


Drive.ai也在处理这部分的工作,他们利用深度学习算法辅助自动标注,因此,公司只需要维持一支小规模的团队关注新场景新型训练,以及验证自动标注的结果。国内的自动驾驶公司Momenta也声称能够通过非监督、算法辅助、渲染生成等方式生产大量标注数据。而且,该公司正在构建的标注平台可以把标注成本降低到市面价格的1/3~1/4。


亿欧智库综合以上信息判断,应该乐观地认为,人力要求很低的弱监督、无监督学习的AI训练方法将在不久之后替代繁杂的标注工作,毕竟,人工智能是为了把人从机械的劳动中解放出来的,而不是关进新的笼子里。


来源:亿欧


欢迎加入未来科技学院企业家群,共同提升企业科技竞争力

一日千里的科技进展,层出不穷的新概念,使企业家,投资人和社会大众面临巨大的科技发展压力,前沿科技现状和未来发展方向是什么?现代企业家如何应对新科学技术带来的产业升级挑战?


欢迎加入未来科技学院企业家群,未来科技学院将通过举办企业家与科技专家研讨会,未来科技学习班,企业家与科技专家、投资人的聚会交流,企业科技问题专题研究会等多种形式,帮助现代企业通过前沿科技解决产业升级问题、开展新业务拓展,提高科技竞争力。


未来科技学院由人工智能学家在中国科学院虚拟经济与数据科学研究中心的支持下建立,成立以来,已经邀请国际和国内著名科学家、科技企业家300多人参与学院建设,并建立覆盖2万余人的专业社群;与近60家投资机构合作,建立了近200名投资人的投资社群。开展前沿科技讲座和研讨会20多期。  欢迎行业、产业和科技领域的企业家加入未来科技学院


报名加入请扫描下列二维码,点击本文左下角“阅读原文”报名


上一篇:DeepMind新论文:在复杂环境中,智能体能更聪明地进行想象和思考了
下一篇:没有了

相关阅读