特邀报告

特邀报告1:基于大模型的可进化自主智能体

刘洋
清华大学万国数据教授、智能产业研究院执行院长

嘉宾简介:刘洋,清华大学万国数据教授、智能产业研究院执行院长、计算机科学与技术系副系主任、人工智能研究院副院长,国家杰出青年基金获得者。研究方向为人工智能、自然语言处理、AI for Science,主持科技创新2030“新一代人工智能”重大项目、国家自然科学基金委国际合作项目等重要科研项目,获得国家科技进步二等奖1项、省部级与一级学会科技奖励5项、重要国际会议优秀论文奖4项。主要学术兼职包括中国人工智能学会组织工作委员会秘书长、中国中文信息学会计算语言学专委会主任等。曾担任ACL亚太分会创始执委兼秘书长、Computational Linguistics编委、中国中文信息学会青年工作委员会主任。

报告简介:大规模语言模型近年来发展迅速,人工智能进入新的历史发展阶段,当前呈现的态势是大模型作为“灵魂”提供内部核心能力支撑,自主智能体作为“载体”进行外部应用场景赋能。在真实、复杂、动态环境下,自主智能体很有可能像人类一样具备可进化性,实现持续自我提升,并且其进化速度远远超过人类。报告从单智能体“智商”进化、单智能体“情商”进化和多智能体“组织”进化三个方面介绍近期研究工作,并对可进化自主智能体的未来发展进行探讨。

特邀报告2:具身智能中的视觉导航

蒋树强
中国科学院计算技术研究所研究员

嘉宾简介:蒋树强,中国科学院计算技术研究所研究员,博士生导师,国家杰出青年科学基金获得者,先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委,中国计算机学会多媒体专委会副主任、中国人工智能学会智能服务专委会副主任、中国自动化学会网络计算专委会副主任、ACM SIGMM中国分会副主席。主要研究方向是多媒体内容分析、多模态具身智能技术和食品计算。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金等项目20余项,发表论文200余篇,获授权专利20余项,多项技术应用到实际系统中,先后获省部级或学会奖励5项。

报告简介:具身智能是真实物理场景下人工智能的重要表现形态,在动态开放环境的无人系统与人机协同系统中有潜在重大应用价值,视觉导航是具身智能的一项重要任务,是智能系统应用在现实世界中的一项重要能力。在静态且可充分探索的环境中,借助地图定位智能系统能达到令人满意的导航性能。然而对于动态且未知环境,现有技术由于缺乏准确的地图而无法进行高效的导航。相比于机器,人类依赖于对目标先验知识,可以轻松在未知动态环境中高效地寻找并导航至目标物体。如何将人类的视觉导航能力赋予机器是视觉导航任务所关注的问题。本报告将首先介绍具身智能研究背景,并汇报视觉导航技术研究进展,包括类别级/实例级物体导航、单物体/多物体导航、物体导航/视觉语言导航等技术,并介绍物体导航从虚拟到真实环境的适配并给出演示。

特邀报告3:多模态大模型Monkey及其在文档智能中的应用

白翔
华中科技大学教授、软件学院院长

嘉宾简介:白翔,华中科技大学教授、博导,软件学院院长,国家杰青获得者,机器视觉与智能系统湖北省工程研究中心主任。主要研究方向计算机视觉与模式识别、文档分析等。已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、CVPR等发表论文80余篇。由于在场景文字检测与识别取得的显著成绩,2019年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award (青年学者奖)。现任期刊IEEE TPAMI,CHINA SCIENCE Information Science,IJDAR, Pattern Recognition,Frontier of Computer Science,自动化学报,中国图象图形学学报等期刊编委。曾担任CVPR、AAAI、IJCAI、ICPR等人工智能主流国际会议的领域主席/资深技术程序委员或竞赛主席十余次,并获得AAAI-2019 Outstanding SPC Award。2014-2020连续7年入选Elsevier中国高被引学者榜,2020年入选IAPR Fellow。

报告简介:多模态大模型Monkey专为处理高分辨率图像设计,能有效识别和解析复杂视觉信息。该模型将图像切割成统一大小的小块逐块处理,每块大小与训练中使用的视觉编码器的尺寸相匹配,提升了对细节的捕捉能力,并支持处理高分辨率图像。Monkey采用多层次描述生成方法,丰富场景与对象的关联描述,增强语言输出的详细性和准确性。在18个视觉语言数据集上的实验表明,Monkey在图像标题生成和视觉问答任务中表现最佳。基于Monkey模型,进一步针对文档任务引入移位窗口注意力机制和零初始化,提高了更高分辨率输入时的跨窗口连接性,优化了早期训练稳定性。进一步,通过筛选重复的图像标记简化了处理流程,提升了模型性能。同时该模型增强了文本定位和位置解释性,精确执行截屏任务和文本识别。在多达12个的文本基准以及在OCRBench的评估测试中,该方法显著超越了过去的开源方法。