2025年全国大学生数学建模竞赛将于9月4日正式举行!
有些第一次参加数学竞赛的同学可能觉得自己还没准备好,临近比赛感到紧张很正常,但需调整心态——数学建模比赛本就是学习过程,遇到不会的知识及时搜索、现学现用即可,直接参赛就是最好的学习方式。
无论题目是怎样的,掌握核心的模型及数据处理方法都是关键的。今天将按流程分别介绍数学建模过程中可能用到的处理方法及模型算法。
数学建模常用方法大致可分为四大部分:数据处理、描述性统计、模型算法、模型评价,如下图:
接下来将分别进行介绍说明。
一、数据处理
国赛的数据处理是指进行数据的清洗和变换,预处理的质量会直接影响到后续建模和预测的准确性。数据清洗也就是我们常说的缺失值处理和异常值处理,数据变换是指对数据进行标准化、归一化等无量纲化处理,常见的数据预处理方式见下图:
1、异常值处理
异常值是指显著偏离主体数据的观测值,可能引发模型偏差、统计效力下降及分布假设失效。
(1)检测异常值
检测异常值的常用方法主要包括以下两类:统计方法(如Z-score法、IQR箱线图法)、可视化方法(如散点图、箱线图)。Z-score通过标准差识别偏离均值过远的点;IQR箱线图则基于四分位距划定正常范围,之外的点视为异常。
(2)处理异常值的方法
异常值处理通常有以下4种方式:
异常值处理 |
说明 |
---|---|
删除 |
如果异常值是随机错误导致的,或者异常值的数量非常少,以考虑直接删除这些异常值。 |
替换 |
用均值、中位数或众数替换异常值。 |
转换 |
对数据进行对数转换、Box-Cox转换等,减少异常值的影响。 |
保留 |
如果异常值是重要的数据点,这时可以选择保留。 |
2、缺失值处理
对缺失值进行处理方法通常有删除、填充、插值3类方法,说明如下表:
方法名称 |
描述 |
---|---|
删除行 |
从数据集中删除含有缺失值的整行数据。 |
删除列 |
如果某一列缺失值过多,考虑删除整列。 |
均值/中位数/众数填充 |
使用特征的均值、中位数(适用于数值型变量)或众数(适用于分类变量)来填充缺失值。 |
固定值填充 |
用一个固定的值(如0、-1或特定标记)填充缺失值。 |
线性插值 |
在时间序列数据中使用通过相邻数据点进行线性内插。 |
该点线性趋势插值 |
利用缺失点前后的数据来估计缺失值,假设数据在短期内呈线性变化。 |
对于异常值和缺失值的处理,可以使用【数据处理】模块的【异常值】方法进行处理,操作如下:
3、量纲处理
数学建模很多算法在使用前均需要进行数据处理。例如熵值法计算权重前需要对正向指标进行正向化处理,负向指标进行逆向化处理。这里提供17种数据无量纲化处理方法,常用的如标准化、中心化、归一化、均值化、正向化、逆向化等,说明如下:
类型 |
意义 |
---|---|
标准化(S) |
让数据变成平均值为0,标准差为1 |
中心化(C) |
让数据变成平均值为0 |
归一化(MMS) |
让数据压缩在【0,1】范围内 |
均值化(MC) |
以平均值作为标准进行对比 |
正向化(MMS) |
让数据压缩在【0,1】范围内 |
逆向化(NMMS) |
让数据压缩在【0,1】范围内,且数据方向颠倒 |
适度化(M) |
让数据进行适度化处理 |
区间化(Interval) |
让数据压缩在自己希望的范围内 |
初值化(Init) |
数据除以第1个数字 |
最小值化(MinS) |
以最小值作为标准进行对比 |
最大值化(MaxS) |
以最大值作为标准进行对比 |
求和归一化(SN) |
数据表达总和的比例 |
平方和归一化(SSN) |
数据表达平方和的比例 |
固定值化(CloseFixedValue) |
固定值化时离FixedValue越近越好 |
偏固定值化(OffFixedValue) |
偏固定值化时离FixedValue越远越好 |
近区间化(CloseInterval) |
近区间化时离(p,q)区间越近越好 |
偏区间化(OffInterval) |
偏区间化时离(p,q)区间越远越好 |
在【数据处理】模块选择【生成变量】可对数据进行处理,操作如下图:
在研究时具体应该使用哪一种处理方式呢,其实并没有固定的要求,而是结合建模实际情况进行选择,
二、描述性统计
描述性统计是数学建模的关键预处理步骤,通过量化分析(均值/方差)和可视化工具(箱线图/直方图)等快速把握数据分布特征与变量关联性,为后续建模提供数据质量评估与策略依据。
描述性统计分析方法整理表格如下:
描述性统计分析基本步骤:
计算基本统计量:均值、中位数、标准差等
绘制可视化图表:直方图、箱线图等
分析数据分布:是否正态分布,是否有偏态
检查相关性:查看变量间的关系
三、模型算法
数学建模关键的步骤就在于模型的选择与构建,根据问题的性质选择合适的模型类型,如数学建模中常见的三大模型评价模型、预测模型、分类模型。
1、评价模型
评价模型是数学建模中用于量化分析、比较和优选方案的工具,通过系统化的指标体系和算法对复杂问题进行客观评估。常用的方法如层次分析法、熵值法、TOPSIS法等,说明如下表:
方法名称 |
简要介绍 |
---|---|
AHP层次分析法 |
通过构建层次结构模型,对指标进行两两比较,确定权重,最终得出评价对象的综合得分。适用于多准则决策问题。 |
熵值法 |
根据指标数据的离散程度(信息熵)计算权重,信息熵越小,权重越大,是一种客观赋权方法。 |
TOPSIS法 |
通过计算评价对象与理想解和负理想解的距离,进行排序,选择最优方案。适用于多属性决策分析。 |
模糊综合评价 |
利用模糊数学理论,将定性指标转化为定量评价,适用于处理评价过程中存在的不确定性和模糊性问题。 |
灰色关联法 |
通过分析评价对象与参考序列之间的关联度,判断其接近程度,适用于数据量少或信息不完全的情况。 |
数据包络分析(DEA) |
利用线性规划方法,评价具有相同类型多投入、多产出的决策单元之间的相对效率。 |
秩和比法(RSR) |
将指标排序后转化为秩次,计算秩和比,综合评价对象的优劣,适用于多指标综合评价。 |
2、分类模型
分类模型是基于数学算法的数据划分工具,通过分析历史数据的特征规律,构建预测规则以实现新数据的自动归类。其核心是通过学习已知样本的分布模式,推断未知样本的类别归属。典型的方法包括聚类分析、判别分析、logistic回归、机器学习。
(1)聚类分析
聚类分析是一种无监督学习方法,通过将数据集中相似的对象自动分组,从而发现数据内在的结构与模式。常用的聚类分析分为K-means聚类、K-modes聚类、K-prototype聚类以及分层聚类。其中前三种聚类方法是按行聚类(R型聚类),分层聚类是按列聚类(Q型),最常用的为K-means聚类,各自适用场景说明如下表:
聚类方法 |
适用场景 |
---|---|
K-means聚类 |
数据为定量数据时使用 |
K-modes聚类 |
数据为定类数据时使用 |
K-prototype聚类 |
数据既有定量数据又有定类数据时使用 |
分层聚类 |
对定量数据进行按列聚类时使用 |
(2)判别分析
判别分析是一种基于已知分类样本建立判别函数,用于对新样本进行分类的统计方法,广泛应用于模式识别、机器学习和生物统计学等领域。判别分析有很多种,比如Fisher判别、距离判别、Beyes判别等,其中Fisher判别使用频率最高。
判别分析 |
说明 |
---|---|
Fisher判别 |
通过计算样本点与各个类别之间的距离,来确定样本点所属类别 |
距离判别 |
通过计算欧式距离,确定样本点所属类别 |
Bayes判别 |
通过计算样本点各个特征的概率分布,来确定每个样本点所属类别 |
(3)logistic回归
logistic回归可以用于分类,它的核心思想是利用逻辑函数将线性回归的结果转化成一个概率值,这个概率值可以用来进行分类。logistic回归分析可细分为二元logistic回归、多分类logistic回归、有序logistic回归、条件logistic回归。各自适用场景说明如下表:
logistic回归 |
适用场景 |
---|---|
二元logistic回归 |
Y值仅两个选项,分别是有和无之类的二分类数据 |
多分类logistic回归 |
Y值的选项有多个,并且选项之间没有大小对比关系 |
有序logistic回归 |
Y值的选项有多个,并且选项之间可以对比大小关系,选项具有对比意义 |
条件logistic回归 |
Y值为二分类数据,通常用于处理配对数据,如成对取样、双胞胎、案例 - 对照研究等 |
(4)机器学习
机器学习算法中常用于分类的模型包括决策树、随机森林、KNN、神经网络、朴素贝叶斯、支持向量机等等。具体说明如下:
机器学习 |
说明 |
---|---|
决策树 |
是一种基于树结构的分类模型,它通过训练数据集划分为若干个子集,从而实现对新数据的分类。 |
随机森林 |
是一种集成学习模型,通过构建多个决策树并将它们的预测结果进行投票,从而得到最终的分类结果。 |
KNN |
是一种基于实例的学习算法,它将训练数据集中的最近邻样本作为新样本的预测依据 |
神经网络 |
是一种模拟人脑神经元结构的计算模型,通过多层神经元的组合和连接来实现对数据的分类。 |
朴素贝叶斯 |
是一种基于贝叶斯定理的分类模型,它假设特征之间相互独立。 |
支持向量机 |
是一种基于间隔最大化的分类模型,它通过在特征空间中找到一个最优超平面将不同类别的样本分隔开来。 |
logistic回归 |
是一种广义线性回归模型,常用于二分类问题,通过Sigmoid函数将线性回归结果映射到0-1之间以得到分类概率。 |
apriori关联分析 |
是一种用于数据挖掘的经典算法,其作用是找出数据中频繁出现的集合,进而辅助进行有效决策。 |
XGBoost |
是高效的梯度提升树算法,模型加入正则化项、支持并行计算等,能有效处理过拟合,提升模型性能。 |
GBDT |
梯度提升决策树,通过构建一系列弱决策树,利用梯度下降思想迭代,将各树预测结果累加得到强预测模型。 |
Adaboost |
自适应增强算法,根据前一轮模型预测误差调整样本权重,使错误分类样本在后续训练中受更多关注,组合多个弱分类器形成强分类器。 |
极端随机树 |
与随机森林类似的集成学习方法,构建决策树时随机选择特征子集和分裂点,增加随机性以防止过拟合。 |
CatBoost |
基于梯度提升的算法,针对类别型特征优化,能自动处理类别特征,通过排序提升和防止过拟合机制提高模型效果。 |
3、预测模型
数学建模预测模型是一种利用数学模型和统计方法来预测未来可能发生的结果的模型。它通常基于历史数据和已知信息,通过建立数学模型来分析问题,并预测未来的发展趋势。预测类常见的方法有时间序列类预测、回归分析进行预测、机器学习进行预测等。
(1)时间序列预测
时间序列数据预测是利用按时间顺序排列的历史数据,分析其变化规律并推测未来发展趋势的方法,广泛应用于金融、气象、经济等领域。比较常用的时间序列数据预测方法有ARIMA预测、指数平滑法、灰色预测模型、VAR模型、季节Sarima模型,说明如下:
方法 |
说明 |
---|---|
ARIMA预测 |
自回归积分滑动平均模型,适用于非平稳时间序列数据的预测。 |
指数平滑法 |
简单的时间序列预测方法,通过指数衰减历史数据的权重来预测未来值。 |
灰色预测模型 |
基于灰色系统理论的预测方法,通过构建灰色模型GM(1,1)来预测时间序列数据。 |
VAR模型 |
向量自回归模型,用于分析多个时间序列变量之间的动态关系。 |
季节Sarima模型 |
季节性自回归积分滑动平均模型,适用于具有季节性的时间序列数据的预测。 |
回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。常用方法如多元线性回归、logistic回归、多项式回归等,说明如下:
方法 |
说明 |
---|---|
多元线性回归 |
当自变量与因变量之间存在线性关系时,适用于连续性因变量,用于预测数值型数据 |
Logistic回归 |
当因变量为定类数据时,用于预测概率 |
多项式回归 |
当自变量与因变量存在非线性关系时,用于预测非线性关系的数值型数据 |
(3)机器学习预测
机器学习用于从数据中学习模式和规律,并利用这些知识进行预测。通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。常用方法及说明如下:
方法名称 |
描述 |
---|---|
决策树 |
基于树结构划分数据,通过特征选择实现分类或回归预测。 |
随机森林 |
集成多棵决策树,通过投票或平均结果提升预测鲁棒性。 |
KNN |
根据邻近样本的多数类别或均值进行预测,适用于局部模式识别。 |
朴素贝叶斯 |
基于贝叶斯定理与特征独立性假设,计算概率实现分类。 |
支持向量机 |
通过寻找最优超平面最大化分类间隔,适用于高维数据。 |
神经网络 |
模拟人脑神经元连接,通过多层非线性变换学习复杂模式。 |
logistic回归 |
利用Sigmoid函数将线性输出映射为概率,解决二分类问题。 |
apriori关联分析 |
挖掘数据项集间的关联规则,用于发现频繁共现模式(如购物篮分析)。 |
XGBoost |
优化梯度提升树,引入正则化与并行计算,提升预测精度与效率。 |
GBDT |
迭代训练弱决策树,通过梯度下降逐步修正残差,实现强预测模型。 |
Adaboost |
动态调整样本权重,组合弱分类器为强分类器,侧重纠正错误样本。 |
极端随机树 |
随机选择特征与分裂点构建决策树,增强模型泛化能力。 |
CatBoost |
自动处理类别特征,通过排序提升减少过拟合,优化梯度提升效果。 |
LightGBM |
基于直方图的梯度提升框架,采用Leaf-wise生长策略加速训练,适合大规模数据。 |
四、模型评估
在模型构建与分析过程中,模型评价是不可或缺的环节。选用恰当的评价指标,有助于客观衡量模型性能,并指导后续的优化与改进。不过,评价指标的选择需结合具体模型和应用场景而定。
1、回归模型评价指标
回归模型常用的评价指标可分为以下三大类:
- 第1类:
回归模型拟合优度的评价指标,包括R方与调整后R方值;
- 第2类:
回归模型拟合值与真实值的差异程度的评价指标,常用的包括MSE、RMSE、MAE、MAPE;
- 第3类:
极大似然法的估计准则,包括AIC值和BIC值。
指标说明如下:
指标名称 |
说明 |
---|---|
R方 |
衡量模型拟合度,表示自变量对因变量变化的解释比例。范围 [0, 1],越接近1越好。 |
调整后R方 |
对R方进行修正,引入了模型复杂度惩罚项(自变量个数p)。 |
MSE |
均方误差,预测值与真实值之差的平方的平均值。 |
RMSE |
均方根误差,MSE的平方根。 |
MAE |
平均绝对误差,预测值与真实值之差的绝对值的平均值。 |
MAPE |
平均绝对百分比误差,将每个误差表示为百分比的形式。 |
AIC |
赤池信息准则,衡量统计模型的相对拟合优度,引入了模型复杂度的惩罚。 |
BIC |
贝叶斯信息准则,与AIC类似,但对模型复杂度的惩罚更重(尤其当样本量n较大时)。 |
【提示】:综合使用不要只依赖一个指标。应结合RMSE/MAE看误差大小,结合R²看解释度,再结合AIC/BIC来权衡复杂度和拟合效果。
2、分类模型评价指标
分类模型常用评价指标说明如下:
指标名称 |
说明 |
---|---|
准确率 (Accuracy) |
分类正确的样本数占总样本数的比例 |
精确率 (Precision) |
正确预测为正类的样本数占预测为正类的样本总数的比例 |
召回率 (Recall) |
正确预测为正类的样本数占实际正类样本总数的比例 |
F1-score |
精确率和召回率的调和平均数 |
ROC曲线 |
接收者操作特征曲线,展示不同阈值下真正率(TPR)和假正率(FPR)的关系 |
AUC值 |
ROC曲线下面积,值越大表示模型分类性能越好 |
【提示】:选择指标时需根据具体业务需求和对不同类型错误的容忍度来决定。例如,在医疗诊断中,可能更关注召回率以减少漏诊;而在垃圾邮件检测中,可能更关注精确率以减少误判。决策树模型输出部分评价指标结果如下:
2025年高教社杯全国大学生数学建模竞赛将于北京时间,9月4日(周四)18时至9月7日(周日)20时举行。
赛题的发布
1.赛题发布时间:9月4日(周四)18时在国赛官网、中国大学生在线等网站发布,由此可能会造成网络拥堵,为了便于同学们拿到原版赛题及数据,将于国赛开赛后第一时间发布赛题。
A题:偏工程/物理应用,传统硬核建模
特点:专业性强,赛题有标准答案。根据物理定理使用微分方程和偏微分方程建模。题目往往涉及物理、力学、工程优化等,需要较强的数学推导能力。同时,需要从多个方案中选择最优解,涉及线性/非线性规划、整数规划等模型,需编程实现算法(如梯度下降、智能优化算法)。
挑战:需精准定义目标函数与约束条件,对编程能力和数学建模深度要求高。
典型例子:卫星轨道计算、机械结构优化、传热问题等。
适合队伍:数学功底扎实,擅长微分方程、优化算法、数值计算的队伍。
B题:一般为优化类题目,综合性较强的问题,主要涉及优化问题和决策模型的构建。
C题:一般为经管/运筹/统计/数据分析类问题,这类题目一般背景比较贴近生活,理解起来较为容易。相对于AB题来说会简单一点,选择人数最多,所以想要用C题拿奖需要论文非常出彩。
赛题选择技巧
难度分析
A题比较重视模型结果,与B题C题不同,并且A题每年都会给一个参考结果,这也是一个评判标准,所以有物理或数学知识过硬的同学适合选择A题。
19年的B题涉及物理学知识,20年则涉及运筹学图论问题,由于近两年改革,题型不定,所以还是要看具体赛题。
C题的赛题开放易读懂,但是数据可能没有给出,需要自己查找,一般没有最优解,结果合理即可,需要严谨的研究方法和论文写作水平,所以C题获奖会更容易,但是很难做到出彩。
选题建议:
A题建议,一般来说专业性较强,更适合偏物理学和工程学的同学,对于工科同学比较有优势。第一次参加的同学不建议选择A题,因为会花费很多时间在理解题目上,得不偿失。同时A题不适用于启发式算法(启发式求的是较优解,不是最优解建议),建议拿到A题时先建立简单模型,之后在根据题目不断改进模型
B题:B题比较偏优化和运筹类,所以计算机或自动化专业的同学可能更适合。
C题:题目简单易读懂,适合大部分同学选择,但相对来说人数也会比其他两题人数多一些。使用优化分析便可,C题题目也更加易懂,对于数模小白来说适用,C题型无最优解,结果合理即可。
拿到赛题之后,组内先把各个题目都讨论一遍,结合指导老师的意见确定选题。进行文献的初查,通过各类题型文献调研的情况进行选题。队伍里成员更擅长哪一类题型,就选哪一类题型。开始时谨慎选题,选完题型之后要坚定。
选题技巧要牢记!
排出复杂选易懂
少数服从多数
先查文献,资料多的优先选择
什么都不会就选c
时间开赛后6小时内定题,不要中途更换赛题
解不出来硬着头皮写下去,这是一次完成论文的机会
国赛选题情况分布
我们通过官方平台对2024年国赛选题情况做了统计分析,如下图:
通过数据发现本科组中,选择C题的人是最多的,占到了百分之40.9%,其次是B题,占39.5%,选A题是最少的,A题上边已经说到,属于偏物理类题目,相对比较难,所以只占到了19.5%。
通过上边分析今年赛题的难度及选题比例得出结论,数据分析类的题目依然是属于大家比较受欢迎的,也是相对比较简单的。所以选题技巧第一方面往往是自己最擅长或者是本专业熟悉的。
第二方面就是题目当中觉得最简单好入手的,今年注定选择C题的人还是最多的,我们拭目以待。由于选择C题的人最多,意味着竞争会很激烈,也很难做出采,因此,相对于其他两道本科组题目,选择C题要慎重。
赛前准备
1.提前制作国赛论文模板,资料群里百度网盘链接打包好了,并熟悉论文格式,根据往年经验,国赛赛题发布后,对应论文格式要求也会在赛题包里,届时可以下载。
下面总结了数学建模常用的算法和模型,可以收藏此篇,教你如何进行操作!通过总结分成两大处理、四大模型、六大算法,如下:
1、优化模型
一般可以利用优化模型得到最优目标,比如在经济问题、生产问题、投入产出等等,人们总希望用最小的投入得到最大的产出,一般分析的流程如下:
其中决策变量一般有0-1规划或者整数规划,通过目标函数和约束条件,确定优化模型的类型,一般有动态规划,线性规划,非线性规划以及多目标规划。
- 动态规划
以时间划分阶段的动态优化模型。可以解决最小路径问题、生产规划问题、资源配置问题。虽然动态规划用于求解以时间划分阶段的动态过程的优化问题,但是如果对于线性规划、非线性规划引入时间因素,也可以把他视为多阶段决策过程。最小路径模型图类似如下:
- 线性规划
目标函数和约束条件均为线性。线性规划的目标函数可以是求最大值,也可以是求最小值,约束条件的不等号可以是小于号也可以是大于号。其标准形式如下:
其中c和x为n维列向量,A、Aeq为适当维数的矩阵,b、beq为适当维数的列向量。
- 非线性规划
目标函数和约束条件均不是线性,非线性规划比线性规划偏难,线性规划与非线性规划的区别为:如果线性规划的最优解存在,其最优解只能在其可行域的边界上达到(特别是可行域的顶点上达到);而非线性规划的最优解(如果最优解存在)则可能在其可行域的任意一点达到。
- 多目标规划
目标函数不唯一,此种算法主要是解决线性规划的局限性,线性规划只能解决最大值、最小值问题,有些问题需要衡量多目标规划,一般需要将此种需要转化为单目标模型,所以需要有加权系数,表述不同目标之间的重要程度对比。
- 整数规划
决策变量取值为整数。整数规划最优解一般不能按照实数最优解简单取整而获得,所以一般求解方法有分枝定界法、割平面法、隐枚举法(一般解决0-1整数规划问题)、蒙特卡罗法(可以求解各类型规划)。
2、六大算法
一般常用的算法有现代优化算法、蒙特卡罗算法、规划算法、图与网络、排队论以及差分和微分等。
现代优化算法
现代优化算法一般包括遗传算法、模拟退火法、禁忌搜索法、蚁群算法等。一般遗传算法通常解决决策变量为离散变量时,跳出局部最优解的能力较强,模拟退火法跳出局部最优解能力最强,紧急搜索法是组合优化算法的一种,可以记录已经打到过的局部最优点。
蒙特卡罗算法
蒙特卡罗算法主要手段是随机抽样和统计实验,利用计算机实现统计模拟或抽样,得到问题的近似解,可以进行微分方程求解,可以将微分方程转化为概率模型,然后通过模拟随机过程得到方程近似解同事也可以解决积分方程非线性方程组等等。
规划算法
规划算法一般用于解决优化模型,常用的动态规划、线性规划、非线性规划、多目标规划、整数规划等。
图与网络
图与网络算法可以解决最小路径问题,最优着色问题,最大流问题,以及最小生成树等问题,但是其计算复杂度较高,并且消耗大量资源和储存空间。
排队论
排队论研究的内容包括性态问题、最优化问题以及排队系统的统计推断,排队论主要是解决服务系统的排队问题,通过分析排队系统的概率规律性和优化问题,提出最优的排队策略,同时也可以提供精确的数学模型,对排队系统的性能进行定量分析和预测,如平均等待时间、平均队列长度、平均服务时间等。但是使用该算法需要很多参数,需要保证参数的精确性。
差分和微分
差分算法可以解决连续型问题,能够用迭代的方式求解方程,避免了微分方程中的导数,更便于计算。例如商品销售量的预测等,微分算法适用于基于相关原理的因果预测模型,大多是物理或几何方面的典型问题,可以通过数学符号表示规律,列出方程,求解的结果就是问题的答案,可以处理连续型问题,假设条件清晰,规律性强。但是涉及求导所以计算更复杂。
3、两大处理
无论是赛题给你数据还是自己搜集数据,一般都需要数据的清洗和数据的变换,尤其是C题,具体说明如下:
数据清洗一般包括缺失值处理和异常值处理,如果数据中有缺失值,可以进行删除处理,或者平均值、中位数、众数等填充,其中众数一般适用于分类数据,除此之外,还可以使用线性插值、牛顿插值、拉格朗日插值法进行插值可以参考下方资料。
数据变换:有些数据在分析前还需要进行变换,处理量纲问题等,比如因子分析或者主成分分析前需要将数据标准化,一些综合评价法也需要将数据进行处理,比如指标为正向(越大越好),则可以进行正向化处理,有些指标为负向(越小越好),则可以进行逆向化处理等等,可以参考下方资料。
标准化:此种处理方式会让数据呈现出一种特征,即数据的平均值一定为0,标准差一定是1。针对数据进行了压缩大小处理,同时还让数据具有特殊特征(平均值为0标准差为1)。在很多研究算法中均有使用此种处理,比如聚类分析前一般需要进行标准化处理,也或者因子分析时默认会对数据标准化处理。
归一化:当某数据刚好为最小值时,则归一化后为0;如果数据刚好为最大值时,则归一化后为1。归一化也是一种常见的量纲处理方式,可以让所有的数据均压缩在【0,1】范围内,让数据之间的数理单位保持一致。
中心化:此种处理方式会让数据呈现出一种特征,即数据的平均值一定为0。针对数据进行了压缩大小处理,同时还让数据具有特殊特征(平均值为0)。
正向化:适用于当指标中有正向指标,又有负向指标时;此时使用正向化让正向指标全部量纲化;也或者指标全部都是正向指标,让所有正向指标都量纲化处理。
逆向化:一般多应用于评价模型中,逆向的指标逆向化,这种方法适用于指标值越小越好的情况,比如工厂的污染情况等。
适度化:这种方法适用于指标值差异较大的情况,比如消费者对某产品的满意度等。
区间化:目的是让数据压缩在【a,b】范围内,a和b是自己希望的区间值,如果a=0,b=1,那么其实就是一种特殊情况即归一化;其计算公式为a + (b - a) * (X - Min)/(Max - Min)。
4、评价模型
评价类模型一般包括权重计算和进行综合评价对比,分析前搜集原始数据,然后对数据进行预处理,比如标准化,正向化逆向化等等,一般评价类模型,需要将计算权重的模型和进行综合评价的模型相结合分析,比如熵权topsis法等,计算权重包括主观方法和客观方法,各自有各自的优缺点,但在分析中往往二者相结合进行分析对比更为准确,一般最终目的得到综合评价结果。具体如下:
评价模型的方法说明如下:
一般在分析评价类模型是通常采用组合赋权法,即通过主观赋权法和客观赋权法综合得到权重,然后结合综合评价方法得到结论。
5、预测模型
预测模型一般包括回归预测模型、时间序列预测模型,灰色预测法、马尔科夫预测、机器学习(神经网络、决策树)等。一般预测模型的流程如下:
时间序列模型
时间序列模型是一种根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法,如非线性最小二乘法,来对时间序列数据进行拟合,从而建立相应的数学模型。适合中长期预测。
灰色预测法
灰色预测模型为小样本预测模型,适合短期预测,其利用微分方程来充分挖掘数据的本质,建模所需信息少,精度较高,运算简便,易于检验,也不用考虑分布规律或变化趋势等。
马尔科夫预测
马尔科夫预测是一种基于马尔科夫链的预测方法,主要用于预测随机过程未来的状态。这种方法假设一个系统的下一个状态只与前一个状态有关,而与之前的状态无关。
其它:
建议选择预测模型时也建立分析流程,比如进行时间序列预测:
6、分类模型
分类模型一般可以解决国赛数学建模的小问,一般常用的方法有聚类分析、判别分析以及机器学习(决策树、神经网络等)等。聚类分析前提不明确数据对象应该分为几类,常用的计算有欧式距离、pearson相关系数、夹角余弦法等,判别分析一般是分析前就明确观察对象应该分为几类,一般在分析中可以将二者结合进行分析以及还有机器学习可以进行分类。
7、建模六个步骤
建模的六个步骤一般如下:
8、比赛技巧
1、多画图
可以在论文中多画图进行描述问题,更加直观,可以使用python、以及R和MATLAB等等。
2、排版
可以使用LaTeX或者Markdown文档,LaTeX数学符号和命令很方便,还可以处理复杂的数学公式和图表。Markdown与LaTeX相比,Markdown语法简单,易于上手。它可以将Markdown文本轻松转换为HTML、PDF等格式的文档。还有其他的软件,比如Office、WPS等,但它们可以根据个人习惯和需求,选择适合自己的排版软件即可。
3、摘要
一定要重视摘要,因为评委可能看你的论文的速度特别特别快,如果没有亮点很大可能不能拿奖,一定要写明自己分析什么问题,如何解决,用了哪些方法,得到了什么结论,并且整篇论文的格式也需要规规整整,可以多读几篇优秀论文然后在进行书写。
祝大家取得好成绩!!