原标题:专访格灵深瞳邓亚峰 计算机视觉通往光明的未来之路才刚刚开始
雷锋网 AI 科技评论按:目前,尽管人工智能领域频频涌现「人工智能寒冬」的担忧,然而无论是企业圈还是学术圈,拥抱人工智能的热情只增不减。在这种背景色中,和语音识别、自然语言理解一起并称为人工智能三大主要技术领域的计算机视觉,更成为了 Google、微软、百度、腾讯等国内外科技巨头重点发力的研究领域,以及创业公司进入人工智能领域的重要切入口。
而随着深度学习、人脸识别、物体识别、图像分割、三维重建等技术迎来蓬勃发展以及算法性能大幅提升,计算机视觉在机器人、自动驾驶、AR/VR、医疗等多个领域得到广泛应用,不过,在实际的应用场景中,仍有很多新的技术需求和研究挑战有待解决和突破。对于计算机视觉在实际应用场景中的技术需求,企业圈往往比学术圈了解得多一些;而对于这一领域面临的挑战,创业公司或许更加深有体会。
在雷锋网 AI 科技评论的专访中,人工智能创业公司格灵深瞳 CTO 邓亚峰既从一家创业公司的角度,也从一位在计算机视觉领域深耕 16 载的科学家的视角,针对计算机视觉的发展以及在应用场景落地方面所面临的挑战等问题表达了自己的见解。
邓亚峰,现任格灵深瞳信息技术有限公司首席技术官,毕业于清华大学,具有 16 年的计算机视觉和人工智能方向的研发经验。在过去的工作中,他发表过论文十余篇,申请中国专利超过 100 项,其中已经授权的有 95 项。他曾任职百度深度学习研究院,负责人脸识别方向,曾经多次带领团队在主流的人脸检测、人脸识别竞赛上取得过优异成绩。其主要的兴趣是关注人工智能特别是计算机视觉技术如何从技术、产品和商业角度在真实世界中大规模落地。
计算机视觉的重要性和研究进程
沉浸计算机视觉领域十几年,邓亚峰对于计算机视觉在整个人工智能领域的地位和影响有着非常深刻的理解和体会,他表示:
一方面,人获取信息的方式有很多种,其中 80% 左右获取的信息来自于视觉,视觉本身对于人类的重要性不言而喻,承载这一感官的计算机视觉技术也会对人类以及其所在世界的各个领域产生重要的影响;
另一方面,计算机(机器)视觉是目前最活跃也是投资额最高的人工智能领域之一,它从应用角度来看非常重要,机器人、自动驾驶、智慧医疗、智慧城市、智慧工业、智慧商业、增强现实等多个 AI 应用领域都依赖机器视觉技术。
计算机视觉领域历经 50 多年的发展,到今天为止,在深度学习技术的推动下已经取得了长足进步,可以在一些应用领域达到实用水平,甚至在一些场景下已经超越了人类的水平。而技术逐渐能够在应用领域达到实用水平,也是计算机视觉领域不断吸引大企业不断投入和创业公司不断涌入的重要原因。
针对当下 Google、微软、Facebook 等国外科技巨头与百度、腾讯等国内科技巨头竞相发力计算机视觉领域,AI 科技评论也从中美两国的层面上,问到了邓亚峰对于二者在这一领域的研究进程、侧重点的差异以及各自优劣势的看法。他说道,在这一研究领域中,华人(包括在国外工作的中国人)是非常重要的一股力量,例如在计算机视觉顶级会议的接受论文中,华人学者大概可以占到 40%+。相对而言,美国在基础研究领域有更好的氛围、政策,也吸引了更多的人才,这都使得其在基础技术方面比中国更有优势;而中国在应用方面则更活跃,更有优势,其拥有比美国更巨大的市场、更多数量的数据和更宽容的政策,比如在创业公司数量、融资额度,以及人脸识别等技术水平方面,都是中国更领先。
计算机视觉领域应用场景落地方面的挑战
虽然国内外科技企业以及领域研究学者都积极地推动计算机领域的突破和前进,人脸识别、视频结构化等一系列技术也逐渐走向成熟,但是实际上我们也可以明显看到,现在计算机视觉领域真正的大规模成熟应用还是屈指可数。对于计算机视觉技术在应用场景落地方面存在的瓶颈和问题,他指出,一项技术能否大规模落地,取决于性能指标(准确率、速度)、成本、场景适应性以及创造的价值等几个因素。目前看,计算机视觉技术在上述几个方面都或多或少存在着一些问题。后续,对于准确率和场景适应性,将主要取决于算法方面的精雕细刻、数据量的增长以及算力的提升;而速度和成本方面,则主要取决于硬件的发展以及异构计算优化手段的进步。另外,对于可以创造价值的计算机视觉技术,则需要为其不断找到更有价值、更适合落地的产品场景。
从他的回答中,我们其实不难发现,现在计算机视觉所面临的应用场景落地方面的挑战很大程度上还是来自于底层技术,其中就包括已成为计算机视觉「标配」的深度学习与数据的规模间的平衡问题:一方面,深度学习对于大规模数据具有非常强的依赖性;另一方面,在很多现实应用场景中又往往难以获得大规模的数据。对此,邓亚峰指出,深度学习对数据的依赖是由于其模型学习过程中的优化方式决定的,如果想根本上改变,需要优化方式有非常巨大的突破,而这在短期内是比较难实现的。
尽管深度学习与大规模数据平衡问题在短期内无法得到理想化的解决方法,但邓亚峰也针对该问题提出了当下可行性较强的解决方案:
首先,可以考虑减少数据依赖的方式,比如利用迁移学习思路以及其它领域的数据训练模型的基底,再用少量领域数据去学习;又比如利用半监督或非监督方法,将大量的未标注数据利用起来。
其次,还可以考虑利用问题的约束条件,加强对模型的约束,提升泛化能力,减少对数据的依赖。
数据增广也是非常重要的提升数据量的方法,不过在目前的技术条件下,在工业界,如何低成本获取大量标注数据依然应该是最先被想到的方法。
在探讨了计算机视觉领域所存在的诸多来自技术和应用场景落地方面的挑战后,邓亚峰还是对自己从事了十几年的计算机视觉的发展和应用,怀抱坚定的信心:「相对于人的水平而言,特别是一些非常有挑战的场景下,很多视觉任务依然无法达到实用要求。但我非常相信,在计算硬件发展(特别是人工智能芯片)、算法进步、应用数据产生以及场景优化的共同推动下,会有越来越多的视觉任务达到使用要求,开始落地产生实用价值,并最终形成商业价值、产品、技术、人才的良性循环,在未来二十年甚至更久对世界产生深远影响。某种意义上,通往光明的未来之路才刚刚开始。」
深耕机器视觉领域十六年、曾发表多篇论文、获得多项专利,还曾带领团队开发出世界第一的人脸检测、人脸识别算法,而当被问及「怎样看待自己在研究生涯所取得的成果和为该领域所带来的影响」,邓亚峰也流露出科学家们一贯的谦逊态度,「作为计算机视觉领域的一名老兵,我参与了很多事情,也培养了一些小朋友,但和许多优秀的朋友相比,我还差了很远。之所以我可以在这个领域坚持下来,并做了一些事情,主要是因为自己很喜欢这个领域,并看好其未来的价值。我过去所做的事情,严格来讲,还没有一件能够对行业产生真正的影响,希望自己有生之年可以做出一些对产业和领域有价值和真正影响的事情。 」
大规模视觉计算系统的现实意义
在即将召开的 GIAC 全球互联网架构大会上,邓亚峰将作为联席主席以及 AI 专场出品人兼讲师,给大家带来「如何打造大规模视觉计算系统」的演讲。本次他将主要从算法、数据、计算等角度来分析打造大规模计算系统上的难点、关键点以及大规模视觉计算系统的现实意义。
「计算机视觉的终极目标是希望让各种视觉传感器拥有智能,理解物理世界中人、车、物的特征、身份、行为、关系,将物理世界数字化。目前为止,还没有产生真正的大规模视觉计算系统。打造大规模视觉计算系统的难点和关键在于:
一是需要不断提升算法的准确性和场景适应性,才能在海量数据中,产生可以接受的错误;
二是需要不断提升算法的效率并降低成本,使得对于海量数据的处理时间和成本可以承受;
三是需要配合大数据技术挖掘跨传感器目标间的关系。
一旦能够真正打造出成本可接受的大规模视觉计算系统,那么其将会在智慧城市、智慧商业等很多领域中对安全、管理和商业运营都会产生巨大的影响,使得线下世界将可以用更加智能、数字化的方式运营,线下世界和线上世界将融合打通,产生更多的商业模式和价值。」
最后,他也表达了自己对于本次参加论坛的计算机科学研究和从业人员的期待:「大家拿出宝贵时间来参加大会,表明大家非常热爱技术,希望学习到知识。我希望大家对我组织的部分感兴趣,我也希望通过这次活动结识更多的朋友,更希望我讲解的内容能帮助大家了解机器视觉方向的前沿技术、关键因素以及应用方向,能够让大家少走弯路。 」
邓亚锋 格灵深瞳 CTO
11 月 23 日 14:30-15:30《如何打造大规模视觉计算系统》
11 月 23-24 日,由 msup 和高可用架构社区联合主办的 GIAC 全球互联网架构大会将于上海淳大万丽酒店举行。GIAC 是中国互联网技术领域一年一度的行业盛事,组委会从互联网架构最热门系统架构设计、工程效率、机器学习、未来的编程语言、分布式架构等领域甄选前沿的有典型代表的技术创新及研发实践的架构案例,分享他们在本年度最值得的总结、盘点的实践启示。
本次大会共有 5 大板块方向,20 场技术专题,70 个互联网架构案例。目前已确定有微软、腾讯、阿里巴巴、蚂蚁金服、华为、科大讯飞、新浪微博、京东、七牛、美团点评、饿了么、才云、格灵深瞳、Databricks 等公司专家出席,围绕新兴编程语言、区块链、大前端、微服务、大数据&AI、音视频、Cloud Native 等专题分享他们的实践经验、遇到的问题及解决方案。