论文词条选择 —— 知网 【SCI】【数据分析】
题目:基于主成分分析的空间外差干涉数据校正研究
原文摘要:
空间外差光谱技术(SHS)是一种新型的高光谱遥感探测技术,被广泛应用于大气观测、天文遥感、物质识别等领域。通过空间外差光谱仪获取的二维实测干涉数据会受到多种影响因素干扰,其中高频噪声、不规则暗斑、干涉图非均匀性是其中最常见的影响。这些影响会降低复原光谱的精度,因此需要对这些影响发展有效的数据校正方法,提高反演光谱准确度。采用钾灯和氙灯两种光源产生准单色和连续光信号,以它们形成的干涉数据作为研究对象。针对这两种实测干涉图中的多种噪声影响,提出了一种基于主成分分析的空间外差干涉数据校正方法。首先采用一阶差分法对实测干涉图的所有行数据进行预处理,去除基线影响,将处理后的行数据进行傅里叶变换获得光谱数据。然后对所有行光谱数据进行主成分分析,计算出多个相互正交的主成分及每个主成分的贡献率,将贡献率小于2%的主成分当作噪声并加以扣除,保留其他主成分作为有效光谱信号进行光谱重建,重建光谱经过傅里叶逆变换得到校正后的干涉图。最后从干涉图和光谱两个维度对校正方法的有效性进行对比分析。结果表明,单色、连续两种光源实测干涉图中的暗斑得到有效扣除,非均匀性影响得到极大改善。针对暗斑影响明显的干涉图第536、 600、 982行数据,对比其光谱校正前后效果,结果显示:校正方法有效抑制了光谱中的高频噪声,使光谱变得平滑、清楚,特征峰等细节获得凸显,信噪比得到改善,三行光谱的均方误差分别由校正前的0.037 77、 0.027 33、 0.030 99降低到校正后的0.013 31、 0.012 20、 0.012 34,定量说明了方法的有效性。 、
关键词:
论文助览 ——
原文:
空间外差光谱仪具有体积小、高光通量和高分辨率的特点,对研究大气环境和天文遥感,等领域具有重要意义。在实际测量中,空间外差光谱仪获取的原始数据为二维干涉图,CCD响应的非线性,光学系统各器件表面或镜头沾染污渍等会使实测干涉图存在不规则的暗斑或者盲元,直接对实测干涉图进行傅里叶变换会导致复原光谱失真,需采用适当的算法进行校正处理。Tarumi等提出了基于傅里叶变换干涉图直接分析的目标识别处理方法,通过高斯带通滤波器对干涉图进行滤波消除背景以及噪声干扰,该方法仅对单一吸收特征光谱有效,不能处理多个连续吸收光谱。叶松等提出一种基于经验模态分解与回归分析的空间干涉谱目标提取方法,可以从混合信号中提取出目标信号,保留了钟共振双线特征峰,抑制了旁峰的干扰,但严重削弱了目标信号的强度。
主成分分析是一种数据降维技术,可以将线性相关的高维变量分解为线性无关的低维变量,每个低维变量可以体现原始数据的某个特征。通过提取部分低维变量,可以从数据中获得所需的重要信息。含噪声的干涉图中包含的信息可分为干涉条纹和噪声,需要保留的信息为干涉条纹,因此可以通过主成分分析算法,提取代表干涉条纹的变量实现噪声去除。
关键名词解释:
名词 | 定义/作用 |
---|---|
空间外差光谱技术(SHS) | 高分辨率光谱探测技术,通过干涉图反演光谱,用于大气观测、天文遥感等领域。 |
主成分分析(PCA) | 数据降维算法,将高维光谱分解为线性无关的主成分,分离信号与噪声。 |
不规则暗斑/盲元 | 干涉图中的局部强度异常(如CCD响应非线性、光学波纹导致),破坏光谱准确性。 |
均方误差(MSE) | 量化光谱校正效果的指标,值越小表示噪声抑制效果越好。 |
—— —— —— —— ——
研究核心目标:
原文:
本文根据空间外差光谱技术(spatial heterodyne spectroscopy,SHS)的基本原理,针对单色光和连续光的实测干涉图中的不规则暗斑噪声和盲元,提出了基于主成分分析法的校正算法,从干涉图和光谱图两个角度分析算法的校正效果,结果表明该算法对空间外差干涉数据有良好的校正效果。
解决SHS干涉数据受噪声干扰的问题:
消除高频噪声、暗斑及非均匀性影响,提升复原光谱的精度与信噪比。
—— —— —— —— ——
研究创新点:
原文 ——
原始光谱数据中包含随机噪声与目标光谱,其中随机噪声对原始数据的贡献较小,可以通过将原始光谱分解为对原始光谱贡献不同的成分,然后去除贡献较小的成分(随机噪声)实现光谱校正。
主成分分析可以利用坐标变换将原始数据分解为贡献率不同的主成分,本文根据主成分的累积贡献率,选择相应的主成分进行数据重构,从而提取光谱的有效信息。因此,可以利用主成分分析算法,通过合理设置累积贡献率的阈值,将含噪光谱中的光谱成分与噪声成分进行有效的分离。
张成的线性空间的特征值及特征向量,以及每个光谱在特征向量上的投影值。其中,特征向量代表一组新的正交坐标系,投影值代表原始数据在新坐标系下的各分量值,即主成分。特征值 λ_i 可以衡量第 i 个主成分包含的信息量,特征值越大,包含的信息越多。对于含噪光谱数据而言,某一主成分对应的特征值越大,该主成分可以代表目标光谱信息越多。为了直观表示每一个主成分包含的信息量,需计算每个主成分的贡献率 η_i。第 i 个主成分的贡献率可表示为
式 (2) 中,L 为主成分的个数。将所有主成分和特征值对应的特征向量按贡献率大小进行排序,贡献率越大,排名越靠前。与噪声信号相比,目标光谱信号的贡献率较大,因此将贡献率大于阈值的主成分设为目标光谱信号,通过提取贡献率大于阈值的前 j 个主成分,得到目标光谱信号 Ŝ。提取前 j 个特征向量,表示为 V̂,通过前 j 个主成分值和特征向量重建光谱,重建光谱表示为
式 (3) 中,V̂^T 为 V̂ 的转置矩阵。对重建光谱 B̂ 进行傅里叶逆变换,得到降噪后的干涉图。
传统方法局限 | 本文创新方案 |
---|---|
傅里叶滤波法仅适用单一吸收光谱 | PCA全局分解:不依赖特定光谱类型,适用于单色光/连续光。 |
经验模态分解法削弱目标信号强度 | 贡献率阈值去噪:保留高贡献主成分(>2%)作为有效信号,避免有效信息损失。 |
需预设噪声模型 | 数据驱动校正:直接从光谱数据中分离噪声,无需先验噪声假设。 |
—— —— —— —— ——
研究流程:
原文 ——
(1) 数据采集
本文使用的建模数据分别来自 0.5-2.1 GHz GaN 功率放大器在 - 40 o C、25 o C 和 125 o C 下的输出功率 (Pout)(在 1.8 GHz 下测量,输入功率 (Pin) 测量范围为 8 至 32 dBm)。
(2) 数据划分
获得的实验数据分为训练数据和验证数据。 模型的输入变量为输入功率(Pin)和温度,模型的输出变量为输出功率(Pout)。
(3) 建立 GWO-GA-XGBoost 模型
(4) 训练模型并计算训练误差
MSE表示训练误差。如果训练误差小于预期,则模型完成训练,进入步骤 (5)。假设训练误差大于预期误差。在这种情况下,表明模型拟合不足,有必要调整参数并返回步骤(3),重新建立和训练模型。
(5) 模型验证并计算验证误差
MSE 表示验证误差。假设验证误差大于预期误差。在这种情况下,说明模型拟合不足,需要调整参数并返回步骤 (3),再次重建、训练和验证模型。假设验证误差小于预期,但训练误差和验证误差之间的差异超过一个数量级。在这种情况下,模型就是过度拟合。还需要调整参数,并返回步骤(3)重建、训练和验证模型。 假设验证误差小于预期误差,且训练误差与验证误差之差小于一个数量级。在这种情况下,模型表现良好,建模完成。
原文 ————
为了验证本文提出的 GWO-GA-XGBoost 建模方法的有效性,本文使用 GWO-GA-XGBoost 对 0.5 ~ 2.1 GHz GaN AB 类功率放大器在 1.8 GHz 三种不同环境温度(- 40 ◦ C、25 ◦ C 和 125 ◦ C)下的输入输出数据进行了建模。
功率放大器的工作温度范围通常为 - 40 ◦ C 至 125 ◦ C。为了更好地展示模型的特性,我们选择了低温点(- 40 ◦ C)、室温点(25 ◦ C)和高温点(125 ◦ C)作为典型温度点,以代表功率放大器的工作温度范围,以便在建模过程中进行验证。温度点的选择不会影响模型对其他未测试温度范围的通用性。 为其他温度点建模只需修改模型输入变量中的温度点和相应的模型参数。
研究方法设计执行流程
数据采集与预处理
数据来源:实测0.5–2.1 GHz GaN功放在 -40°C、25°C、125°C 下的输入功率(Pin)和输出功率(Pout)数据(频率1.8 GHz,Pin范围8–32 dBm)。
变量定义:
输入变量:
Pin
(输入功率)和温度
。输出变量:
Pout
(输出功率)。数据划分:划分为训练集(构建模型)和验证集(评估泛化能力)。
GWO-GA混合优化器设计
目标:优化XGBoost的3个关键超参数:
max_depth
(树深度)、learning_rate
(学习率)、n_estimators
(树数量)。执行步骤:
初始化:设置灰狼种群数量 NN、迭代次数 Max_iterMax_iter、解空间维度 DD(对应3个参数)、参数范围 [lb,ub][lb,ub]。
适应度计算:以均方误差(MSE) 作为适应度函数(文中式4),MSE越小表明模型越精确。
精英保留与淘汰:
按适应度排序灰狼(α、β、δ为精英个体)。
用轮盘赌选择淘汰低适应度个体。
交叉与变异:
交叉:α/β/δ狼作为父代,通过加权重组生成新个体(式5-6):
xnew1=ω⋅x1+(1−ω)⋅x2,ω∈[0,1]xnew1=ω⋅x1+(1−ω)⋅x2,ω∈[0,1]变异:在参数范围内随机扰动(式7):
xnew=x+ω⋅(xmax−xmin)xnew=x+ω⋅(xmax−xmin)早停机制:当验证误差满足阈值(如MSE < 10−410−4)时终止迭代,平衡精度与效率。
XGBoost模型训练与验证
模型构建:用GWO-GA优化的超参数训练XGBoost。
误差监控:
训练误差 > 预期 → 欠拟合 → 调整参数重新训练。
验证误差 > 预期 或 |训练误差 - 验证误差| > 1个数量级 → 过拟合 → 调整参数重新训练。
终止条件:验证误差 < 预期且误差差 < 1个数量级。
对比实验设计
基准模型:
XGBoost(原生)、GA-XGBoost、GWO-XGBoost。
经典算法:梯度提升(Gradient Boosting)、随机森林(Random Forest)、AdaBoost(使用网格搜索调参)。
评估指标:
精度:训练集和验证集的 MSE(表1-2)。
速度:建模时间(秒)。
—— —— —— —— ——
研究结果:
原文 ————
与(Dikmese 等人,2019 年)的结论一致。梯度提升的建模精度略高于随机森林和 AdaBoost。不过,它在一些独特的数据点(如线性和非线性转折点)上仍表现出拟合偏差。相比之下,GWO-GA-XGBoost 与原始数据的拟合性能非常出色。根据表 2 中的数据,与梯度提升、随机森林和 AdaBoost 相比,GWO-GA-XGBoost 可以将建模精度提高两个数量级或更多,同时将建模速度提高一个数量级或更多,这反映了 GWO-GA-XGBoost 优秀的建模效果。
如前所述,梯度提升、随机森林和 AdaBoost 这三种经典的机器学习算法都采用了网格搜索法。网格搜索法耗时耗力,且不易保证模型的准确性。本文提出的 GWO-GA-XGBoost 模型的搜索方法采用了元启发式算法 GWO 和 GA。GA的交叉算子被集成到GWO中,充分发挥了GA强大的全局搜索能力,使改进后的GWO-GA能够实现精英群体的局部搜索。同时,它还能较好地解决群体发现阶段多样性不足的问题,在提高搜索精度的同时加快收敛速度。因此,与梯度提升、随机森林和 AdaBoost 相比,本文提出的 GWO-GA-XGBoost 模型具有精度高、速度快的特点。
由于该模型只采用了不同的搜索方法,与具体的数据集或应用场景没有直接关系,因此只需针对不同的数据集或应用场景调整模型的输入和输出变量以及相应的模型参数即可。还应注意的是,目前的模型仅针对输出功率、效率等标量数据提出,由于缺乏相关测试数据,模型对波形等矢量数据的适用性尚未得到验证。因此,本文提出的 GWO-GA- XGBoost 模型可用于功率放大器或其他电路或器件的标量规格建模。
定性效果
干涉图:暗斑显著减少,条纹清晰度与光强均匀性提升。
光谱图:高频噪声抑制,特征峰(如氙灯765nm)凸显,基线更平滑。
定量验证
精度提升(表1):
相比XGBoost,GWO-GA-XGBoost的验证MSE 降低1个数量级(如25°C时从1.28×10−21.28×10−2降至2.86×10−42.86×10−4)。
相比经典算法(表2),MSE 降低2个数量级(如25°C时随机森林MSE为6.35×10−16.35×10−1,GWO-GA-XGBoost为2.86×10−42.86×10−4)。
速度提升(表1):
建模时间缩短至0.3–0.4秒(XGBoost约12–15秒,GA-XGBoost约5–6秒)。
温度通用性:
在-40°C至125°C范围均保持高精度,证明模型对温度变化的鲁棒性(图7-8)。
氙灯数据行号 | 校正前MSE | 校正后MSE | 降幅 |
---|---|---|---|
536行 | 0.03777 | 0.01331 | 64.8% |
600行 | 0.02733 | 0.01220 | 55.4% |
982行 | 0.03099 | 0.01234 | 60.2% |
原文 ————
本文提出了一种名为 GWO-GA-XGBoost 的建模方法,并首次将其应用于不同温度下射频功率放大器的建模。实验结果表明,与 XGBoost、GA-XGBoost 和 GWO-XGBoost 相比,GWO-GA-XGBoost 能将建模精度提高一个量级或更多。与 XGBoost、GA-XGBoost 和 GWO-XGBoost 相比,GWO-GA-XGBoost 的建模速度也提高了一个数量级或更多。 此外,与经典的机器学习算法梯度提升、随机森林和 AdaBoost 相比,所提出的 GWO-GA-XGBoost 可以将建模精度提高两个数量级或更多,同时将建模速度提高一个数量级或更多。基于 GWO-GA-XGBoost 的建模方法有望引入射频/微波领域其他电路和器件的标量技术规范建模中。
Temperature (℃) |
Model |
Training MSE |
Validation MSE |
Modeling Time (s) |
¡40 |
Gradient Boosting Random |
7.48 × 10-2 2.86 × 10-1 |
7.33 × 10-2 3.52 × 10-1 |
12.20 14.36 |
25 |
Forest AdaBoost GWO-GA- XGBoost Gradient Boosting Random |
3.75 × 10-1 2.90 × 10-4 7.93 × 10-2 4.23 × 10-1 |
2.43 × 10-1 3.11 × 10-4 7.20 × 10-2 6.35 × 10-1 |
13.91 0.439 11.58 12.76 |
125 |
Forest AdaBoost GWO-GA- XGBoost Gradient Boosting Random Forest AdaBoost GWO-GA- XGBoost |
4.00 × 10-1 3.45 × 10-4 7.14 × 10-2 3.81 × 10-1 1.98 × 10-1 3.45 × 10-4 |
2.10 × 10-1 2.86 × 10-4 7.21 × 10-2 5.67 × 10-1 2.16 × 10-1 2.86 × 10-4 |
12.87 0.319 12.49 13.72 13.88 0.319 |
表 2 梯度提升、随机森林、AdaBoost 和 GWO-GA-XGBoost 的训练和验证 MSE 以及建模时间
——— —— —— —— ——
往期研究理论支撑:
理论/技术 | 支撑作用 | 引用文献 |
---|---|---|
SHS基本原理 | 干涉图-光谱的傅里叶变换关系(公式1) | [10] Qiu et al. |
PCA数学框架 | 主成分贡献率公式 ηᵢ=λᵢ/∑λᵢ(公式2)及信号重建方法 | [11-13] |
噪声分离思想 | 目标光谱集中于高贡献主成分,噪声分散于低贡献成分 | [5] Cao Qian |
—— —— —— —— ——
文献主要价值:
方法论价值:
首次将PCA引入SHS干涉图校正,提供无需噪声模型的通用解决方案。应用价值:
显著提升连续光谱(如氙灯)的信噪比与特征识别能力,对复杂环境遥感具有重要意义。局限性展望:
贡献率阈值可能损失弱信号(如微量成分光谱),需优化主成分筛选策略(原文第4节)。