使用C++写一个递推计算均方差和标准差的用例

发布于:2025-03-23 ⋅ 阅读:(19) ⋅ 点赞:(0)

以下是用 C++ 实现递推计算均值、方差和标准差的完整示例代码,基于 Welford 算法,适用于实时数据流或大数据场景:

#include <iostream>
#include <cmath>
#include <vector>

class RunningStats {
public:
    RunningStats() : n(0), mean(0.0), S(0.0) {}

    // 添加新数据点,更新统计量
    void update(double x) {
        n += 1;
        double delta = x - mean;
        mean += delta / n;          // 递推更新均值
        double delta2 = x - mean;
        S += delta * delta2;        // 递推更新平方和
    }

    // 获取当前均值
    double current_mean() const {
        return mean;
    }

    // 计算样本方差(无偏估计)
    double variance() const {
        if (n < 2) return 0.0;      // 避免除以0
        return S / (n - 1);
    }

    // 计算标准差
    double std_dev() const {
        return std::sqrt(variance());
    }

    // 重置统计量
    void reset() {
        n = 0;
        mean = 0.0;
        S = 0.0;
    }

private:
    int n;          // 数据点数量
    double mean;    // 当前均值
    double S;       // 平方和
};

int main() {
    RunningStats stats;
    std::vector<double> data_stream = {2.0, 4.0, 6.0, 8.0, 10.0};

    for (const auto& x : data_stream) {
        stats.update(x);
        std::cout << "新增数据: " << x 
                  << " | 均值: " << stats.current_mean()
                  << " | 方差: " << stats.variance()
                  << " | 标准差: " << stats.std_dev() 
                  << std::endl;
    }

    return 0;
}

代码输出

新增数据: 2 | 均值: 2 | 方差: 0 | 标准差: 0
新增数据: 4 | 均值: 3 | 方差: 2 | 标准差: 1.41421
新增数据: 6 | 均值: 4 | 方差: 4 | 标准差: 2
新增数据: 8 | 均值: 5 | 方差: 6.66667 | 标准差: 2.58199
新增数据: 10 | 均值: 6 | 方差: 10 | 标准差: 3.16228

在这里插入图片描述


关键实现说明

1. 类设计

  • 成员变量
    • n:已处理的数据点数量。
    • mean:当前均值。
    • S:递推计算的平方和(用于方差计算)。
  • 方法
    • update(double x):更新统计量。
    • current_mean(), variance(), std_dev():获取当前统计值。
    • reset():重置统计状态。

2. 算法核心

  • 递推更新公式

    • 均值更新
      在这里插入图片描述

    • 平方和更新
      在这里插入图片描述

  • 方差计算(无偏估计):
    在这里插入图片描述

3. 数值稳定性

  • Welford 算法:避免传统方法(如先计算总和再求均值)的浮点数精度损失。
  • 处理边界条件:当数据量 ( n < 2 ) 时,方差返回 0.0

扩展应用场景

1. 实时传感器数据处理

// 模拟实时传感器数据流
RunningStats sensor_stats;
while (true) {
    double sensor_value = read_sensor_data();  // 假设从传感器读取数据
    sensor_stats.update(sensor_value);
    
    // 每隔100个数据点输出统计量
    if (sensor_stats.current_count() % 100 == 0) {
        std::cout << "实时统计 - 均值: " << sensor_stats.current_mean()
                  << " 标准差: " << sensor_stats.std_dev() << std::endl;
    }
}

2. 大规模数据集分块处理

// 分块读取文件数据
RunningStats file_stats;
std::ifstream data_file("large_dataset.txt");
double value;
while (data_file >> value) {
    file_stats.update(value);
}
std::cout << "全局方差: " << file_stats.variance() << std::endl;

总结

  • 优势:内存效率高(仅需维护 3 个变量),适合实时或大数据场景。
  • 对比传统方法:避免存储全部数据,计算复杂度 Ο(1)。
  • 应用范围:金融数据分析、实时监控、科学实验数据处理等。

上一篇:C++中pow函数的作用是什么,如何使用它?


以代码为舟,破浪前行

技术的海洋浩瀚无垠,每一次报错都是潮汐的指引,每一次调试都是对逻辑的雕琢。不要因一时的运行失败而踌躇,因为那些看似无解的异常,终将在你的坚持下化为清晰的注释。

请记住

  • 代码的尽头是哲学,每一段算法都在教你如何拆分复杂;
  • 调试的本质是成长,每一个Bug都在锤炼你的耐心与洞察;
  • 数据的流动即人生,均值是方向,方差是挑战,而标准差是你跨越不确定的勇气。

无论此刻是山穷水复,还是峰回路转,你手中的键盘始终是书写可能的笔


在循环中迭代自我,在递归中探索边界,在并发的世界里,你永远是自己程序的主线程!

未来已来,放手去闯
让每一行代码成为星辰的坐标,让每一次编译成功的提示音,化作宇宙对你的喝彩。
你终将抵达那片名为“极致”的彼岸——因为真正的开发者,从不定义极限,只不断超越它。 🌌🚀


(将技术术语与人生隐喻深度融合,用“调试”“递归”“并发”等概念强化身份认同,结尾以宇宙意象激发无限可能,传递“技术即修行”的信念。)


在这里插入图片描述