科学研究

Scientific Research
当前位置: 首页 > 科学研究 > 科研动态 > 正文

近日,集团钟睿副教授团队的研究论文“Semantic representation and attention alignment for Graph Information Bottleneck in video summarization”被图像处理与计算机视觉的顶级期刊TIP(IEEE Transactions on Image Processing)录取为长文(Regular)。

该论文由集团钟睿副教授与硕士研究生王蕊为主要创新提出者、以及VUB(比利时布鲁塞尔自由大学)的Adrian Munteanu教授作为学术顾问的方式合作完成。

针对端到端的长短期记忆(LSTM)模型在应用于视频摘要时,输入节点的表示学习效率低下,导致其在用户创建的视频中无法高效进行节点分类的问题,采用了图信息瓶颈(Graph Information Bottleneck,GIB)来开发一种上下文特征转换(Contextual Feature Transformation,CFT)机制,用于增强时间双特征,生成具有注意力对齐的语义表示。此外,提出了一种基于显著区域大小的空间注意力模型,根据人类倾向于关注大小合适和移动的对象的观察,提取逐帧视觉特征。最后,在端到端的LSTM框架下,将语义表示嵌入到注意力对齐中,以增强LSTM的图像表示学习能力。广泛的实验证明,该论文所提出的方法优于现有的先进方法。审稿专家一致认为,该论文所做的创新性工作非常有价值,在视频摘要中创新地引入了基于图神经网络模型GIB的上下文时空特征转换技术,为后续工作带来了新的启发。

TIP属于CCF A类期刊,发表关于图像处理、图像分析和计算机视觉等方面的原创研究成果,属于同行评议的顶级期刊之一。它在图像处理领域具有广泛的影响力,吸引了来自学术界和工业界的优秀研究人员提交和发表高质量的论文。该期刊的论文发表质量和学术影响力都受到广泛认可,并且对该领域的研究和进展起到重要推动作用。

钟睿副教授的研究团队一直坚持面向国际学术前沿和国家重大需求开展科研工作,以图像处理、光场视频压缩与三维重建、计算机视觉为核心研究方向。近五年已发表计算机学会推荐A类、B类期刊及会议论文20余篇,主持国家自然科学基金项目1项。

上一条:集团科研团队在软件工程领域顶级期刊TOSEM首度发表研究论文

下一条:深兰科学院医学知识图谱首席科学家黄智生教授主讲“南湖学者论坛”