基于多层级上下文投票的三维密集字幕

引用

摘要：

传统的三维密集字幕方法存在未充分考虑上下文信息、点云特征信息丢失以及隐藏状态信息量单一等问题.?为了应对这些挑战,?提出了多层级上下文投票网络,?该网络在投票过程中使用自注意力机制捕获点云的上下文信息并加以多层级利用,?提升检测对象的准确率.?同时,?还设计了隐藏状态-注意力时序融合模块,?将当前时刻隐藏状态融合与前一时刻注意力结果融合,?丰富隐藏状态信息量,?从而提高模型表达能力.?除此之外,?采用"两阶段"训练方法,?有效过滤掉生成的低质量对象提案,?增强描述效果.?在官方数据集ScanNet和ScanRefer上的大量实验表明,该方法与基线方法相比取得了更有竞争力的结果.

关键词：三维密集字幕、注意力机制、上下文投票、隐藏状态-注意力时序融合、两阶段训练方法

所属期刊栏目：32

分类号：TP391;TN957.52;G808.12

资助基金：山东省自然科学基金ZR2020MF136

在线出版日期：2023-03-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：291-299

英文信息展示

期刊专题