计算机与人工智能学院2篇论文被国∏际顶级会议ACM Multimedia 2021录用

2021-07-08 0 新闻公告来源：西『南交通大学新闻网

计算机与人工智能学院有2篇︼论文被国际顶级会议——第29届国际多媒体学术〓会议（ACM International Conference on Multimedia, 简称ACM MM）录用。这两篇论文均是以西南交通☆大学为第一署名单位。在全球1942篇投稿中，542篇论文◣被录用，接收率为27.9%。国际多媒体学术会议（ACM MM）是计算机学科公认的多媒◆体领域和计算机视觉领域的国际∩顶级会议，被中国计算机学会（CCF）列为A类会议，在我校期刊分级目录中列为A++级别。在教育部第四轮学科评估中，CCF A类会议论文被列为重要▅的论文发表指标项。这是我校计算机学科自2016年以来，连续六年⊙在ACM MM发表高水平论文，标志着我校在人工智能和计算机视觉领域的研究成果得到了国际同行的认可。

车辆▲目标计数是当前计算机视觉领域的前沿研究之一，由于受尺度变化、位置分布不一致、视觉表观多样化等多种因素影▃响，该任务极具挑战性→。计算机与人工智能学院博士生张基为第♀一作者︼，吴晓教授为通讯作者，博士生乔建军和李威▲老师共同完成的论文《Vehicle Counting Network with Attention-based Mask Refinement and Spatial-awareness Block Loss》提出了一种基于细粒度◇注意力掩码和空间感知损失的车辆々计数网络（VCNet）来解决所述难点。论文采用了多分支混合空洞卷积块结构，生成包含不同尺度信息的高质量密度图。同时，设计了一种能够感知ξ　不同位置空间分布的损失函数来提高模型的空间感知能力。该方法在多个公开车辆计数数据【集上取得了最优的计数结果，有效缓解『了拥挤交通场景中车辆尺度、视觉信息变化剧烈和空间分布不一致的难题。

图表 1基于细粒度注意力掩码和空间感知损失的车辆计数网※络架构图

视觉问答系统是视觉-语言结合的研究热点之一。计算机与人工智能学院袁召全老师为第◤一作者，吴晓教授为通讯作者，硕士生彭潇■以及我校兼职教授徐常胜共同完成的论文《Hierarchical Multi-Task Learning for Diagram Question Answering with Multi-Modal Transformer》提出了一种新颖的基于多模态Transformer框架的层级多任务学习（HMTL）模型。相对于自然图片的问∩答，插图问答（Diagram QA）任务需要对视觉插图和文本问答语句进行联合的语义理解与推理，是一项具有挑战性的研究课题。现有的独立两阶段◢方法受限于低效率的反馈机制而不能实现端到端的参数学习。在提出的HMTL中，图结构化解析和问答这两个任□　务采用不同的Transformer模块，并处于不同的语义层级，从而形成╱层次结构。结构解析模块对插图中的成分及其关系进行∞编码，问答模块则对结构化信号进→行解码并结合问答语句来推断正确的答案。视觉的图解析与文本问答在多模态Transformer中相互作用，从而实→现跨模态的语义理解和推理。实验证明，论文提出的HMTL模型对插图问答任】务具有有效性，并在公开数据集上达到当前最优性能。

图表 2基于层级多任务学习的图表∏问答系统架构图

计算机与人工智能学院在计算机领域国Ψ际会议的连续突破，反映出学院在“智能引领、交叉融合”的战略牵引下，在科研创新、扩大国际影响↙力、开拓∑　国际视野等方面取得了重要进展。

未经允许不得转载：二九年华大学▃门户 » 计算机与人工智能学院2篇论文被国际顶级会↓议ACM Multimedia 2021录用

内容标题40

西南√交通大学

计算机与人工智能学院2篇论文被国∏际顶级会议ACM Multimedia 2021录用

相关推荐

新闻公告

高考招生

学校老师

各大学〓列表

标签