分類:CSDN

2019北京AIProCon开发者大会——计算机视觉技术专题

0_00

计算机视觉技术领域的创新已达瓶颈?该领域有哪些方向将取得突破,还有哪些前景应用尚待挖掘?本论坛将聚焦于计算机视觉技术最新突破和应用实践,并就当下遇到的技术挑战探索出可能的解决方案。

 

互联网视频基础技术探索及其应用
出品人: 王华彦 | 快手硅谷实验室负责人
王华彦,快手硅谷实验室负责人,斯坦福大学计算机科学博士,师从Daphne Koller教授研究计算机视觉。曾就读于斯坦福大学人工智能实验室,为复杂化的概率图模型开发了高效的推理算法,并将其应用于计算机视觉研究。王博士的研究曾登上行业期刊CACM首页,并在多个顶级会议如CVPR、ICML、ECCV、IJCV、AAAI上发表。 王华彦本科和硕士阶段就读于北京大学,师从査红彬教授,也曾参与香港科技大学的杨强教授的科研活动。加入快手前,他曾担任Vicarious AI的高级研究员,以极其高效的数据方式,开发高度结构化的模型,解决CAPTCHA和Robotics等现实问题。他在人工智能领域的工作曾发表于美国的《科学》杂志。王博士现在领导快手位于硅谷的Y-tech实验室,在开发高效的人工智能解决方案的同时,也将更多的尖端技术引入快手的移动平台。

0_0

 

文石磊 | 百度视觉技术部主任架构师,视频基础技术团队负责人
互联网视频基础技术探索及其应用
目前互联网视频数据日益增多,用户观看长视频、短视频、小视频的时长也迅速增长,在实际应用中需要解决两类重要问题,视频语义理解和视频编辑。视频语义理解从多维度解析视频内容,理解视频语义,自动分类打标签,极大节省人工审核效率,节约成本,同时实现精准用户推荐,提升体验效果。其主要技术难点在基于海量数据构建高性能视频分类模型。视频编辑主要解决手机端美颜、滤镜、属性编辑、AR特效、超分辨率等问题。随着GAN的快速发展,基于GAN的特效编辑几乎达到以假乱真的地步,逐渐成为视频编辑中研究的热点。 本次演讲将围绕高性能大规模视频分类技术与生成式对抗网络技术(GAN),主要介绍百度视觉技术部在视频语义理解和视频编辑两个问题上的探索与应用成果。

 

专家介绍:
文石磊,百度视觉技术部主任架构师,视频基础技术团队负责人,两次获得百度最高奖。带领团队获得CVPR2019 5项比赛冠军,涵盖目标检测、智慧城市、视频理解、超分辨率等领域,其中连续三年获得视频理解比赛ActivityNet冠军,19年发表AAAI/CVPR/ICCV顶会论文八篇,并将相关技术成功应用于核心产品,在百度云/AI开放平台累计输出约50项能力。

0_1

 
石建萍 | 商汤科技研究总监
视觉感知驱动的量产自动驾驶
计算视觉及其在图像视频中的识别理解能力在近些年的突飞猛进,极大提升了量产自动驾驶对于低成本高感知能力方案的可靠度。在本报告中,我们会综述团队在计算视觉领悟的整体布局及重点突破。接下来会以优化自动驾驶系统能力,提升量产可靠性为整体目标,介绍系统级的优化实践。最后,我们将展望自动驾驶方向未来的研究热点以及商汤在自动驾驶方面的整体布局。

 

专家介绍:
石建萍博士为商汤科技研究总监。她领导了商汤科技自动驾驶研发团队,推动商汤科技与本田的长期战略合作。同时,她也负责多条产品线的算法交付,包括娱乐互联网,手机,遥感等。 石建萍本科毕业于浙江大学计算机科学与技术系,同时隶属于竺可桢荣誉学院,2015年博士毕业于香港中文大学计算机科学与工程系。她是深度学习和计算机视觉领域的专家。她领导了商汤科技的团队赢得多项国际竞赛冠军,包括ImageNet Scene Parsing Challenge 2016, COCO Instance Segmentation Challenge 2017, 2018以及众多CVPR, ECCV workshop竞赛等。建萍发表过超过40篇顶级会议,期刊论文,论文发表在SIGGRAPH Asia, CVPR, ICCV, ECCV, NIPS, MM, TPAMI,TIP等。她的论文在Google Scholar上引用率超过3400。在博士期间,她获得过微软学者,HK-ACM最佳年轻学者,香港博士生政府津贴等众多荣誉奖项。 2018年,凭借在计算机视觉原创技术的卓越创新成就,石建萍还入选了《麻省理工科技评论》 “35岁以下科技创新35人”(35 Innovators Under 35)中国榜单。

0_2

 

王乃岩 | 图森未来合伙人&首席科学家
图森未来无人驾驶技术实践分享
【演讲大纲】1、 图森未来无人驾驶的发展历程,以及最新的技术进展;2、 计算机视觉技术在无人驾驶卡车领域中的实践和应用

 

专家介绍:
王乃岩,图森未来合伙人&首席科学家。香港科技大学博士,主要负责带领中国国内算法团队进行自动驾驶卡车技术研发。曾多次在国际数据挖掘和计算机视觉比赛中名列前茅,发表论文引用次数已超过4000余次,是将深度学习应用于目标追踪领域全球第一人。曾入选2014Google PhD Fellow 计划, 也是 MXNet 核心开发者。

0_2_2

 

张祥雨 | 旷视研究院主任研究员、基础模型组负责人
高效轻量级深度模型的研究与实践
深度基础模型在现代深度视觉系统中居于核心地位。在实际应用中,受应用场景、目标任务、硬件平台等的不同,经常会对模型的执行速度、存储大小、运算功耗等进行限制。因此,如何针对各种不同的情景设计“又好又快”的模型,成为深度学习系统实用化的重要课题。尤其是近年来,AutoML技术的发展给轻量级模型的研发带来了新的思路,基于AutoML/NAS技术的深度视觉模型在多个维度上不断刷新性能上限,展现出了良好的研究与应用前景。 本次演讲主要围绕实用模型设计的两个常用技术:轻量级模型设计和模型裁剪,重点介绍旷视研究院在高效视觉模型领域的科研成果和实践经验。分享内容包括多种轻量级高性能模型,以及基于AutoML的自动化模型设计、模型裁剪的最新研究成果。

 

专家介绍:
张祥雨,现任旷视研究院主任研究员、基础模型组负责人。2017年博士毕业于西安交通大学。期间参加西交大-微软亚洲研究院联合培养博士生项目,师从孙剑博士和何恺明博士。目前团队研究方向包括高性能卷积网络设计、AutoML与自动化神经网络架构搜索、深度模型的裁剪与加速等。已在CVPR/ICCV/ECCV/NIPS/TPAMI等顶级会议/期刊上发表论文二十余篇,获CVPR 2016最佳论文奖,Google Scholar引用数38000+。多次获得顶级视觉竞赛如ImageNet 2015、COCO 2015/2017/2018冠军。代表作包括ResNet、ShuffleNet v1/v2等,均在业界得到广泛应用。

0_3

 
王晶 |华为云OCR人工智能高级算法工程师
文字识别服务的技术实践、底层框架及应用场景
近年来,随着智能设备的普及和大数据技术的高速发展,自动化办公和智能数据分析成为可能并逐渐普及,人们要求计算机“读懂并理解文字”。本活动将会以介绍华为云文字识别服务的识别精度高、鲁棒性好、支持多类单据识别、服务稳定高效等特点,以及实现这些特点所应用的技术内容及框架、实践的过程与经验。初次之外,还会介绍一体化模型、任意角度纠正技术、端云结合等特色技术的实现方式及底层架构。 除了技术内容、架构设计的介绍,还会用一部分篇幅介绍目前已经成熟的应用场景,例如全球快递物流、财务、医疗、保险、金融、政务、交通、汽车等具有跨系统信息整合需求的业务领域,以帮助听众更好地了解这一领域的技术与实践的结合,通过华为的项目经历,分享这一技术在实践过程中的真实经验、踩过的坑和解决方案等。

 

专家介绍:
王晶,华为云OCR人工智能高级算法工程师,拥有多年的算法经验,分别获得新加坡南洋理工大学和中国科学技术大学数学与应用数学博士和学士学位。负责文字识别核心算法,提交多个基于深度学习的文字识别专利和论文,组队ICDAR SROIE票据识别大赛并以96.43%的高精度夺得世界第一,华为云文字识别服务获得2019数博会“新产品奖”。熟悉云计算、人工智能、密码和计算机网络安全。从事过华为云PaaS平台安全设计和测试工作。Covert Redirect(隐蔽重定向)漏洞发现者,曾提交十几个CVE安全漏洞并被微软、苹果、阿里巴巴等十几家公司列名安全感谢榜,多个发现被包括人民网、凤凰网、CNET在内的众多国内外媒体报道。

0_4

 
杨民光 | Product manager in Google Research Perception Research
On-Device, Real-Time multi-modal (video, audio) applications with MediaPipe
Video, audio (multimodal) mobile applications that utilize machine learning models (eg Tiktok 抖音, Shazam) are becoming more common. However, creating these multimodal ML applications are challenging as developers need to deal with real time synchronization of time series data during model inference and doing it cross platform (Android & iOS) on mobile and edge devices.

 

专家介绍:
Ming Guang is a Product manager in Google Research Perception Research leading open source efforts in computer vision. In Google, he was previously product manager in Google Search and product lead for mobile video ad formats. Before Google, Ming was cofounder Socialwok, an enterprise collaboration service for Google Apps (Finalist of the Techcrunch Disrupt 2011) and Voiceroute, a startup focused on open source VOIP telephony services for small medium enterprises.

0_5

 

专题链接
https://bss.csdn.net/m/topic/ai_procon/topic_detail?mid=2051&id=9374