李琦 嘉宾
中科院自动化所博士,助理研究员,图形图像学会会员,图象图形学会视觉与大数据专委会委员,中国人工智能学会模式识别专委会委员。2011年-2016年在中科院自动化所模式识别国家重点实验室获得博士学位,师从谭铁牛研究员。一直从事计算机视觉、人脸预处理和识别方面的工作。参与的人脸识别系统成功应用于国有商业银行和地方铁路系统等。在国际主流期刊和会议(如tip,tifs,rr,cvpr,nips等)发表过多篇文章,申请多项专利,ijcai2019 program committee member,icml2019, aaai2019等审稿人,现任《ieee transactions on patternrecognition and machine intelligence》,《international journal of automation andcomputing》,《pattern recognition》等审稿人。
楼燚航 嘉宾
北京大学数字媒体所在读博士,导师段凌宇教授。研究方向为大规模图像与视频检索,以及大规模分布式背景下的图像视频特征压缩与标准化。iso/iecjtc1 /sc29/ wg11 国际标准化委员会中国代表团专家库成员,参与iso/mpeg国际标准化组织制定“面向视频分析的紧凑描述子”国际标准,3项核心技术提案被标准采纳。目前在计算机视觉著名会议与期刊(cvpr,tip,mm)和数据压缩与通信领域著名会议与期刊(dcc,jsac)等发表十余篇学术论文。
博士生panel环节的问答内容
关于cv领域热点问题的探讨
何相腾(panel环节主持人):物体检测和跟踪是计算机视觉(computer vision,cv)中的两大方向,也是比较相关的,跟踪一般也会用到物体检测的方法,那么二者之间有怎样的联系与区别呢?
朱政(嘉宾):我的主要研究方向是目标跟踪,几个细分的方向有单目标跟踪、多目标跟踪、人体姿态跟踪、跨摄像头的跟踪,跟踪通常是不会预定义好类别,就是测试集要跟踪耳朵还是眼睛,没有严格的定义,而物体检测通常会有预先定义好的类别,而且不像检测的领域,跟踪领域没有严格的测试,需要自己的数据训练集。从学术上讲跟踪与检测的区别是定义的问题。
张士峰(嘉宾):做跟踪首先要有检测提供的初始的检测框,这两者之间有一个一前一后的关系。在做视频检测的时候,跟踪和检测基本上变成了一个任务,所以在进行视频物体检测的时候就可以把很多tracking的东西全部拿来用了。通常来说,物体检测的结果可以给跟踪来用,但是跟踪对后续的检测没有任何帮助,但今年微软亚洲研究院的戴季峰老师组有一篇二者之间互相帮助的文章(可以在戴季峰老师的pg麻将胡了下载入口主页上搜到),能够让跟踪的信息帮助下一阶段的检测信息,使得二者可以互相帮助。跟踪中有一个tracklet,下一步做检测可以利用这个信息,应该会互相帮助、互相提升。
李弘扬(嘉宾):在tracking时应该是有一个初始的框,通过周围的一些扰动产生一百个框,根据分数排序一下选出下一步的位置。一般来说就是detection检测一下,然后帮助tracking,之所以倒回到detection大家做得比较少,因为tracking本身就是检测的output,假设跟得比较对,可以检测得到下一步的东西在哪里。如果能够单纯地做检测为什么还要借助tracking的东西?当然从tracking到detection可能会提供一些比较有用的先验,大致知道目标在哪个位置,可以在下一帧做检测时,把anchor在预测的目标位置多铺一些,而在其它背景的部分少铺一点。
何相腾(panel环节主持人):resnet、faster r-cnn和hinton提出的capsulenetworks都比较火,这些工作都很有原创性,如何把这些模型更好地应用到自己的工作中?