YSSNLP2024

特邀报告1：基于大模型的可进化自主智能体

刘洋
清华大学万国数据教授、智能产业研究院执行院长

嘉宾简介：刘洋，清华大学万国数据教授、智能产业研究院执行院长、计算机科学与技术系副系主任、人工智能研究院副院长，国家杰出青年基金获得者。研究方向为人工智能、自然语言处理、AI for Science，主持科技创新2030“新一代人工智能”重大项目、国家自然科学基金委国际合作项目等重要科研项目，获得国家科技进步二等奖1项、省部级与一级学会科技奖励5项、重要国际会议优秀论文奖4项。主要学术兼职包括中国人工智能学会组织工作委员会秘书长、中国中文信息学会计算语言学专委会主任等。曾担任ACL亚太分会创始执委兼秘书长、Computational Linguistics编委、中国中文信息学会青年工作委员会主任。

报告简介：大规模语言模型近年来发展迅速，人工智能进入新的历史发展阶段，当前呈现的态势是大模型作为“灵魂”提供内部核心能力支撑，自主智能体作为“载体”进行外部应用场景赋能。在真实、复杂、动态环境下，自主智能体很有可能像人类一样具备可进化性，实现持续自我提升，并且其进化速度远远超过人类。报告从单智能体“智商”进化、单智能体“情商”进化和多智能体“组织”进化三个方面介绍近期研究工作，并对可进化自主智能体的未来发展进行探讨。

特邀报告2：具身智能中的视觉导航

蒋树强
中国科学院计算技术研究所研究员

嘉宾简介：蒋树强，中国科学院计算技术研究所研究员，博士生导师，国家杰出青年科学基金获得者，先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委，中国计算机学会多媒体专委会副主任、中国人工智能学会智能服务专委会副主任、中国自动化学会网络计算专委会副主任、ACM SIGMM中国分会副主席。主要研究方向是多媒体内容分析、多模态具身智能技术和食品计算。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金等项目20余项，发表论文200余篇，获授权专利20余项，多项技术应用到实际系统中，先后获省部级或学会奖励5项。

报告简介：具身智能是真实物理场景下人工智能的重要表现形态，在动态开放环境的无人系统与人机协同系统中有潜在重大应用价值，视觉导航是具身智能的一项重要任务，是智能系统应用在现实世界中的一项重要能力。在静态且可充分探索的环境中，借助地图定位智能系统能达到令人满意的导航性能。然而对于动态且未知环境，现有技术由于缺乏准确的地图而无法进行高效的导航。相比于机器，人类依赖于对目标先验知识，可以轻松在未知动态环境中高效地寻找并导航至目标物体。如何将人类的视觉导航能力赋予机器是视觉导航任务所关注的问题。本报告将首先介绍具身智能研究背景，并汇报视觉导航技术研究进展，包括类别级/实例级物体导航、单物体/多物体导航、物体导航/视觉语言导航等技术，并介绍物体导航从虚拟到真实环境的适配并给出演示。

特邀报告3：多模态大模型Monkey及其在文档智能中的应用

白翔
华中科技大学教授、软件学院院长

嘉宾简介：白翔，华中科技大学教授、博导，软件学院院长，国家杰青获得者，机器视觉与智能系统湖北省工程研究中心主任。主要研究方向计算机视觉与模式识别、文档分析等。已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、CVPR等发表论文80余篇。由于在场景文字检测与识别取得的显著成绩，2019年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award (青年学者奖)。现任期刊IEEE TPAMI，CHINA SCIENCE Information Science，IJDAR, Pattern Recognition，Frontier of Computer Science，自动化学报，中国图象图形学学报等期刊编委。曾担任CVPR、AAAI、IJCAI、ICPR等人工智能主流国际会议的领域主席/资深技术程序委员或竞赛主席十余次，并获得AAAI-2019 Outstanding SPC Award。2014-2020连续7年入选Elsevier中国高被引学者榜，2020年入选IAPR Fellow。

报告简介：多模态大模型Monkey专为处理高分辨率图像设计，能有效识别和解析复杂视觉信息。该模型将图像切割成统一大小的小块逐块处理，每块大小与训练中使用的视觉编码器的尺寸相匹配，提升了对细节的捕捉能力，并支持处理高分辨率图像。Monkey采用多层次描述生成方法，丰富场景与对象的关联描述，增强语言输出的详细性和准确性。在18个视觉语言数据集上的实验表明，Monkey在图像标题生成和视觉问答任务中表现最佳。基于Monkey模型，进一步针对文档任务引入移位窗口注意力机制和零初始化，提高了更高分辨率输入时的跨窗口连接性，优化了早期训练稳定性。进一步，通过筛选重复的图像标记简化了处理流程，提升了模型性能。同时该模型增强了文本定位和位置解释性，精确执行截屏任务和文本识别。在多达12个的文本基准以及在OCRBench的评估测试中，该方法显著超越了过去的开源方法。