图像识别能识脸,能不能识别出咱俩不为人知的关系?

 

硅谷Live / 实地探访 / 热点探秘 / 深度探讨

 

最近看电视,小探开始感慨时光如水啊。怎么觉得巴西里约奥运会才刚刚过去,日本奥运会怎么就要来了呢?!

 

图自网络,版权属于作者

 

日本 NEC 公司近日宣布,2020 日本奥运会将使用 NEC 旗下的人工智能 NeoFace 来进行大范围的人脸识别功能。据悉,该系统会被用在三十多万人身上,包括运动员、志愿者、观众、媒体等参会者。据说,NEC 目前的人脸识别技术已经通过了美国国家标准与技术研究所的基准测试,目前处于世界前列。

 

可是小探我怎么看到了张学友不怀好意的笑了呢?

 

我们都知道张学友是歌神,但其实他是一位被歌神耽误了的 “捕神” … 今年早些时候,在自己的四场音乐会上,“协警” 张学友一共帮警方抓住了五名在逃嫌疑犯!这可真是 “你来听我的演唱会,附赠手铐一对。”

 

图自网络,版权属于作者

 

作为人脸识别技术的鼻祖 —— 图像识别技术,大家又了解多少?目前已经发展到什么阶段?接下来还会不会有新的突破呢?

 

今天,小探就带领大家一起去看看关于图像识别技术的发展。

 

AI 图像识别到底是个啥?

 

图像识别技术是以图像的主要特征为基础的。比如说,如花,你要抓住她那张嘴和鼻孔。

 

图自网络,版权属于作者

 

因为研究人员发现,当人类在看图像时,视线总会集中在主要特征上,也就是在图像轮廓曲度最大或轮廓方向突然改变的地方。

 

这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。同时,在大脑里有一个机制负责整合信息,把分阶段获得的信息整理完整。

 

图像识别技术在各行业中具有广泛应用。谷歌的 TensorFlow、Facebook 的 DeepFace、微软的 Project Oxford 都是深度学习图像识别系统的例子。据KBV Research 数据预测,到2022年,全球图像识别市场将高达 422 亿美元!

 

而图像识别的技术,从一开始,就和人工智能紧紧地联系在了一起。

 

今年一月,谷歌发布了一款新的人工智能工具,让任何人都可以在他们选择的照片数据集上训练机器学习系统。该软件称为 Cloud AutoML Vision。在随后的博客文章中,Google Cloud AI 部门的首席科学家解释了该软件如何帮助没有机器学习背景的用户。

 

除了商业目的的炒作,训练 AI 看起来似乎非常简单。首先,你需要大量的标记图像。最小数量值为 20 个标记,软件最多支持数量值 10,000个标记。标记越多,辨识度也就越高。

 

很多图像识别都是关于识别模式。一旦Google的AI认为它很好地理解了用户上传的图像的链接,它就可以用来在新的上传中查找该模式,然后吐出一个数字,表示它认为新图像匹配它的程度。因此,气象学家们可以利用此技术在天气变化时上传图像,识别云、雨、雾、霜等,并同时继续训练和改进软件。

 

说起训练和改进软件,斯坦福教授李飞飞的团队去年曾经对图像识别的发展历程发表了一次演讲。在演讲中,李教授提到了早在 1996 年时,神经学家 Simon Thorpe 及团队就发布了一项研究,通过脑电波来观察人脑对于图像识别的速度。

 

仅仅用 100 微秒,也就是0.000001秒,大脑就会发出一道区分信号,对画面中的物体是否为动物做出判断。对于复杂目标对象的处理能力,构成了人类视觉系统的基础。这项对目标物体识别的研究,促进了整个计算机视觉的大发展。

 

图自网络,版权属于作者

 

而李飞飞教授当年所带领的团队所做的ImageNet则是从2010年开始挑战传统的图像分类,他们将识别错误率从 28% 降低到了 2.3%。可谓成就瞩目!

 

然而目前,AI 图像识别的虽然可以识物,但是科学家们真正关心的是如何训练出可以识别物与物关系的系统。

 

在李飞飞的演讲中,她提到了,目前大家可以在谷歌中输入“男人穿套装”或者“可爱的狗狗”这一类的词后,系统会返回给你漂亮的照片。

 

但当我们用更复杂的句子搜图时,比如搜 “一个穿着红衣服的小女孩在和一个穿着蓝衣服的小男孩在海边踢足球”,就很难搜出符合我们要求的图片了。这是为什么呢?

 

李飞飞提到,“我们希望对我们得到的东西有更多的控制,更丰富的场景检索。然后,场景检索模型就没法实现了,因为它是基于对象的,它并不真正地理解关系。”

 

这也是目前图片识别一直想要突破的问题。

 

AI图像识别 2.0 要来了?

 

然而,在硅谷就有这样一支团队,致力于解决关系型图片搜索的问题!小探最近采访了 Neuron Drop 的创始人及 CEO  Gordon Lu,请他来讲一讲 Neuron Drop 所做的开启了 AI 2.0 时代的项目。据 Gordon 介绍,他们的团队也有一批李飞飞级别的教授和工程师。 

 

CEO Gordon (右)与其团队 CPO Jack Cackler 合影

 

Gordon 认为:如果说 AI 1.0 时代是目前李飞飞等科学家已经形成的由深度学习构建而成的“辨识物体”图像识别技术,那么 AI 2.0 则是涉及到了“辨识物体间关系” 的图像识别技术。

 

 

Neuron Drop 是一家总部位于美国硅谷的AI 2.0神经网络公司,专注于动态视觉识别技术。核心是软件和芯片的开发能力 ,可赋于机器识别、追踪、监控动态物体(如珍稀动物、植物等)的能力 。公司的核心能力得到若干优质历史项目的验证,如国防系统, 驾驶技术等。现阶段随着模型的完善,将进一步把核心技术民用化、消费化。

 

 

Neuron Drop 首创了分布式智能深度学习算法 DCNN。这个算法有哪些特点呢?具体来看,首先,作为创始人的Gordon强调了“我们不是所有的情况下都需要用海量数据去学习”!

 

这个怎么讲?原来,Gordon和他的团队研发的 DCNN 算法相比较与传统的 CNN (卷积神经网络)模式,可以实现自我学习,无需海量数据来构建模型。

 

并且这其中的每一种算法的背后都有自己的 “指纹”。这是由于 Neuron Drop 原创的智能视觉能够识别、跟踪、预警深度学习模式。所以智能终端不需要重新学习。相比于其他人工智能模式可以大幅降低人工智能训练成本。

 

比如说,达芬奇的世界名画《蒙娜丽莎》真品只有一幅。那么我们怎么来通过人工智能来辨识真迹?Gordon 强调了Neuron Drop 算法的独特性,使得即使没有数据,人工智能也能做到“火眼金睛”。

 

“这也是我们和市场上李飞飞、吴恩达等人的研究的本质不同所在。这就是我们的AI 2.0 版本。” Gordon 说道。

 

同时,Neuron Drop 基于动态物体和人的行为特征构建模型,相较传统静态识别可大幅度提高识别精确度。也就是说,有些东西在静止的情况下不容易看出来是什么,但如果在动态情况下,识别起来反而容易得多。

 

“在我们的测试环境下,我们发现我们的精准度大概是97.7%-98.5%左右。” Gordon 补充到。

 

 

 

 

目前,Neuron Drop 目前主要针对中国市场。应用场景包括大型国际会议、音乐会的安防,以及人口密集地区的活动。

 

同时,国内的高铁和高压线维修保护,Neuron Drop也能帮上忙!比如说,我们目前的高压线维修都是需要人力爬到半空中检查。而有了新的图像识别技术,只需要AI来通过拍照来检测一下图像上是否有异样,便可以省去很多人力物力。

 

高铁的轨道也是一样道理。目前,国内高铁的第一班列车都会是空车运行。目的就是要保证当日铁轨的足够安全。如果人工智能够直接识别有异样的高铁轨道,那么就不需要再耗时耗力地空跑第一趟高铁了!

 

在采访的最后,Gordon 透露,“谷歌去年的文字(搜索图片)销售的销售额达到 1170 亿美金,我们估计再过两年,这个市场可以达到百亿!

 

那么项目什么时候能投入使用呢?据 Gordon介绍,今年年末国内就有望使用该技术了!

 

可以想象,图像识别2.0 的时代,不仅在识别辨识度上大幅度提高,很多人力、物力资源都会因此而被节省。那么图像识别2.0 时代何时才能真正到来呢?我们翘首以待。

 

 


 

推荐阅读

区块链报告 | 脑机接口报告 

硅谷人工智能 | 斯坦福校长

卫哲 | 姚劲波 | 胡海泉 

垂直种植 | 无人车

王者荣耀 | 返老还童