1 说在前头
近期由于对多源融合相关研究的深入梳理和缺陷复盘工作的不断展开,有了一些个人的思考和感悟在其中,故此做下分享记录。
首先要说明的是,多源融合其实属于多模态的一个分支,但是现在比较热门的计算机多模态其实更多属于一种图像、文本、语音等多个物理隐藏的模态输入概念,而多源融合则是属于一种图像(相机)、红外、雷达、射频等多个物理可见的传感器模态输入概念,并且大部分融合框架极其依赖于各传感器之间的时空标定对齐。他们遵循不相同的技术路线,但技术细节又互有交叉。在本漫谈中,还是采用更加细致的分类,不将二者混为一谈。
2 融合策略
传统定义上,多源融合分为数据级、特征级、决策级三种不同的融合路线。
数据级融合意指在原始传感器采集到原始图像、雷达回波/点云等数据时采用一定策略进行融合,这种融合可以最大程度的保留下原始信息,但是由于没有经过任何处理,所以数据级融合往往面临计算量巨大的问题,同时这种融合方式对于传感器标定和时空对齐的要求极高,稍微偏差可能会影响整个系统的结果。传统做法有将RGB图像与红外图像进行像素级融合、雷达点云投影到图像空间等等。
特征级融合则是先对原始传感器做一定的特征分析处理后,将处理结果进行融合再统一一次检测的策略方法。常见方法包括加权平均、使用注意力机制融合等等。通过前置处理可以有效去除信息冗余,对抑制噪声和干扰有明显作用。但这种融合方式,最终检测只进行一次,极大概率上增加了平衡各模态特征融合权重的难度,特别是对于多目标物体时,每个目标物体对于不同传感器的依赖不用,全局单次检测很容易失准。
加载评论中……