您的位置: 主页 > 人工智能内参 > 亿万人脸秒级定位!他用3年时间打造天眼系统,2秒锁定任何一个犯罪嫌疑人活动轨迹

亿万人脸秒级定位!他用3年时间打造天眼系统,2秒锁定任何一个犯罪嫌疑人活动轨迹

时间: 2017-12-29阅读:

导读:2017年12月26日,中国人工智能机器人CEO峰会在深圳举办。云天励飞联合创始人兼CEO陈宁发表了主题为“视界智能,用芯实现”的演讲。


国家千人计划特聘专家、云天励飞CEO陈宁


人工智能在2017年迎来全面爆发,从AlphaGo到iphone Face ID,国内外的互联网和科技巨头早已开始了人工智能的布局,而大量的初创公司也在这一年纷纷扎堆入局,抢滩AI蓝海。但在热潮之下,人工智能如何实现产业化落地,回归商业本质,已成为当前绝大多数AI企业所面临的瓶颈。


“关于人工智能,大家都在谈算法、芯片、数据,而数据是驱动所有这些业务场景的源头,人类有史以来积累的所有大数据中,85%以上是视频和图像数据,我们认为人工智能的核心之一是视觉智能,如果要量化一点的话,我们就打个比喻,解决了视觉智能的问题就解决了 80% 以上的问题。”


在CEO峰会的人工智能专场中,国家千人计划特聘专家、云天励飞CEO陈宁以“视界智能,用芯实现”为主题,详细介绍了云天励飞用两年时间打造的区域级 “深目”系统。


以下为中国人工智能机器人产业联盟(CAIA)整理的演讲内容整理。


大家好,我是深圳云天励飞联合创始人兼CEO陈宁。很高兴今天有机会在这里跟大家分享一下我们在深圳创新创业这三年的一些体会和做的一些事情。


“深目系统”15小时内解救被拐儿童


天眼,通过一套系统能够调用全球的视频监控,对于任意的个体进行实时的定位。我想这个概念在科幻中层出不穷,大家都已经非常的熟悉。而云天励飞用了三年的时间在深圳打造了一套天眼系统。基于深度学习的人脸识别、处理器的芯片技术,大数据的分析,操作为向量的高速检索等等一系列的技术的融合。我们从深圳的龙岗公安分局开始,到深圳的各个区的分局,到机场到地铁。在今天,深圳的民警手中有一款动态人像的APP,通过这款APP,两秒钟的时间,可以定位任何一个犯罪嫌疑人从深圳的机场到地铁到南山到龙岗,在整个全程的一个动态的活动轨迹。通过调用视频监控、通过以图搜图的人脸检索、并且落地他的身份,判断他的前科记录,等等一系列的分析功能,就在他的手机端两秒钟的时间可以实现。



这套系统在深圳上线一年多来,已经协助深圳警方破获各类案件3000余起,包括今年除夕,仅用15个小时,从武昌的火车站解救回来一名深圳三岁被拐带的男童,从龙岗的一个街道被拐带,已经被带上火车并且带到了武昌火车站,在除夕的凌晨解救回来。


像这样的案例,包括走失的老人、失踪的儿童、命案,甚至一些涉恐的案件,有非常非常的之多,虽然有很多的刑事案件是社会媒体没有办法公开报道的,但是这套系统其实已经在深圳,不谦虚的讲,已经协助深圳,将深圳打造成了全球,基于人工智能的安全示范区。


很多深圳区域的“两抢两盗”的严重刑事案件案发率,从去年到今年,同比下降50%以上。我们也在社区做了一些试点,比如在南山的某个社区,通过这样的一些人脸门禁以及联动公安的后台系统,去布控周边的负面人员,在三个月之内,从8月份到11月,同比的社区警情下降47%。


基于这样的一套系统,我们也有幸参与了去年的杭州G20西湖核心安保圈服务,并且这套系统由于其颠覆式的效果,基本上解决了公安的一个核心刚需。公安的一个刚需,不管是经侦、技侦、网侦、刑侦探、打拐反恐,所有的这些警种都在做一件事情,就是找人。而这套系统把我们深圳的公安民警,比如说十个人一个星期查看历史视频找人的工作,用计算机一秒钟解决,并且准确率提升十倍到一百倍,甚至更高以上。这就是人工智能落地在一个具体的行业能够解决的一个具体的问题。一旦它产生了这种颠覆性的社会效应以后,这套系统在过去的半年多的时间已经复制到了北京。上海杭州武汉等等全中国的十多个城市和东南亚的一些国家。在北京的T3航站楼,上海的南京东路,人民广场外滩等等这些标志性的区域,大家已经都可以看到,有云天励飞的这个logo的这些人工智能的摄像机,在默默的守卫着这些区域的安全。而我刚才提到的这套系统,云天生命,尤其是我提到的这款人工智能摄像机,它的核心的一个差异化的技术就在于一颗人工智能的视觉芯片,它是面向深度学习的一颗可编程的、高性能的一颗芯片。


为什么要做芯片?

AlphaGo下一场棋电费高达上千美元


人工智能跃入大部分人的视野是在2015年的3月份,谷歌通过收购DeepMind开发的出的AlphaGo系统,但是其实所有的老百姓忽略的一组数字是阿法狗的第一代系统的最大便利,曾经用了1920颗CPU和280颗GPU,训练一盘围棋的电费可能都要上千美元。原因在于人工智能的算法和技术虽然有了一个快速的进步,但是底层的处理器的芯片平台,它的运算力,其实无法承载高效的大规模的产业化的一些需求。因此我们三位联合创始人先后走在了一起,从处理器的芯片设计到视觉计算,再到面向机器学习,深度学习的这些算法的设计,做了一个跨界的创新。面向人工智能这些底层的算法去设计一系列的处理器的芯片,尤其是面向视觉这个方向,能够将深度学习运算效率提升至少一百倍以上。


为什么聚焦在视觉领域?


因为我们知道在过去的两年,我们人类所积累的这些数据,等于人类有史以来翻了一番。



而所有的这些大数据之中,85%以上的数据是由视频和图像这种非结构化数据组成。而这种数据只要有摄像机的地方,比如说全国有几千万的视频监控,每年全球有几亿部的手机,有越来越多的机器人,有越来越多的智能化的设备,而这些设备都具备一个共性,都会有一个视觉传感器,都会有一个摄像头。这些摄像头源源不断地去采集视频和图像信息,而这些视频和图像的信息,是非结构化的信息,机器无法直接理解。它不像一个身份证的号码,并且这些所有的信息已经超超出了人类眼睛可以处理的速度,我们大脑可以处理的这些能力。


解决了视觉智能的问题,

就解决了人工智能80%的关键技术问题


一个最简单的例子,如果说过去十年是视频监控的一个时代,那么视频监控最大的一个特点就是监控室,有一个监控的大屏,一个3×2的大屏,每个上面又有一个九分屏,有一堆的监控员坐在这个监控室里面去盯着这个屏幕,每一路摄像头在看。但是这个现象,可以说视频监控的时代在今天已经走到了尽头,监控这件事情由人来做,已经走到了尽头。我们看到,不管是小区里面的监控室也好,还是公安系统内部的监控室也好,已经很少有人再坐在屏幕后面盯着摄像头看。因为视频资源太多了,靠我们人脑靠我们人眼已经监控不过来,而存储的视频每一个月都会不断的在覆盖海量的信息,已经超过了我们的人类和传统的硬件和算法的一些处理的能力。所以云天励飞选择视觉智能这个方向,因为我们认为人工智能的核心之一就是视觉智能,如果一定要把它量化的话,我们认为解决了视觉智能的问题,就解决了人工智能80%的关键的技术问题。

 

刚才我提到过去十年,比如说以视频监控为例,它是一个视频的十年是一个视频通信的十年,做到了视频的采集,信息的采集和互联互通。那么未来十年将是一个内容分析的十年,将是通过人工智能的这些技术,对视觉信息进行智能化的处理和分析,提供给人类去做决策的一个十年。


而承载这样一个视觉分析的硬件平台,今天的现状是什么?是基于CPU、GPU,还是各类的XPU,比如谷歌。回到AlphaGo的例子,一代的AlphaGo用了1920颗CPU280颗GPU,但是谷歌用了两三年的时间开发了一款TPU。所以到了AlphaGo Zero就可以成为一个单机版。但是TPU还是一个后台的数据中心的服务器端的一个处理器,一颗高性能的处理器,类似于像GPU,但是更高性能的。


未来十年将是视觉智能的新十年



那么在视觉计算这种后台的定制的面向深度学习的处理器,是否能够解决视觉计算的所有问题?答案是NO。为什么这么说?我们认为,视觉计算是云计算的阿喀琉斯,所以云计算就是把所有的信息全部集中在后台,集中在数据中心进行统一的处理。视觉计算有两个非常大的特点,一个是海量的像素,一个是海量的信息检索,一个是实时的本地化的处理的实时响应。这两个特点决定了我们没有办法把全国在视频监控领域,比如说把几千万的摄像头的实时的视频流集中到后台数据中心,对视频流在后台的数据中心再去做统一的处理。这是任何目前的处理的硬件单元,包括GPU,这种硬件单都无法解决的。面向这种视觉计算,海量信息实时响应这种特点,我们必须在前端、在信息的采集端,在摄像头里面,做一些及时的本地的预处理。


所以我们面向这样一个视觉计算的特点,尤其是在视觉计算领域,在未来的人工智能分析领域,所有的这些视频和图像信息是给机器看,而不是像传统的视频监控是给人眼看的。举个最简单的例子,人眼看着一张清晰的人脸图片,未必机器喜欢这张图片,未必机器认为它能够更精准的识别,所以面向机器的所有的这一系列的特点,我们认为需要设计一系列的前端的智能的分析的一系列的IPU,将这些IPU嵌入在这个传感器的最前端,比如说摄像机里面,让这些传感器从一个采集设备变成一个智能化的感知和认知设备,能够实时的把视频图像,这样一个海量像素的特征的信息流,把其中的有用的信息提取出来。比如说把一个视频画面中的视频流中的所有的人脸提取出来,并且跟踪这个人脸,进行一个去重。在一个人3到5秒,经过一个摄像头的过程中,有90到150帧的这个图片的过程中提取一到两张质量最好的人脸,并且把这个人脸的图片转化成一个一到两K的特征值,把这个特征码、这个ID传输到云端,去进行一个大数据的分析和检索。这是这颗视觉芯片,这颗IPU可以做的事情。就是因为这颗IPU可以在前端的摄像头中将6兆bps的视频数据流压缩到了一个非常非常小一到两K的一个特征码,而在云端才可以做到60亿的人脸的数据,不到一秒钟的时间,完成全量的一个以图搜图的检索,才让这样的一个技术才让全程视频监控秒级人脸检索成为可能。


基于这样一个前端的IPU视觉处理器,后台的基于大数据的分析和超多维向量的一个高速检索,基于APJ和GPU加速的高速检索的端到云的技术架构。我们相信无论是机器人、无人系统,智能制造,甚至智慧商业智慧园区等等,所有需要用到物联网智能化的前端设备,尤其是前端的视觉感知设备的应用场景,都将去赋能这些应用场景,实现真正的一个智能化。所以我们认为未来十年将是视觉智能的新十年。 



公众号对话框回复1109可获取人工智能产业全景图】【人工智能时代的机器人3.0新生态研究报告】

推荐阅读

点击下方图片即可阅读

人工智能最大倒闭潮来临,95%公司要死掉?高通、联想、图灵机器人等企业高管却这么认为...

上一篇:自动驾驶汽车硬件与软件技术介绍
下一篇:没有了

相关阅读