个人爱好分享
原文:
此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种 *** 的有效性。当存在大量预测变量时,PLSR和PCR都是对因变量建模的 *** ,并且这些预测变量高度相关或甚至共线性。两种 *** 都将新的预测变量(称为成分)构建为原始预测变量的线性组合,但它们以不同的方式构造这些成分。PCR创建成分来解释预测变量中观察到的变异性,而根本不考虑因变量。另一方面,PLSR确实将因变量考虑在内,因此通常会导致模型能够使用更少的成分来适应因变量。
加载数据
加载包括401个波长的60个汽油样品的光谱强度及其辛烷值的数据集。
使用两个拟合数据
使PLSR模型拟合10个PLS成分和一个因变量。
为了充分拟合数据,可能需要十个成分,但可以使用此拟合的诊断来选择具有更少成分的更简单模型。例如,选择成分数量的一种快速 *** 是将因变量中解释的方差百分比绘制为成分数量的函数。
在实践中,在选择成分数量时可能需要更加谨慎。例如,交叉验证是一种广泛使用的 *** ,稍后将在本示例中进行说明。目前,上图显示具有两个成分的PLSR解释了观察到的大部分方差y。计算双组分模型的拟合因变量。
接下来,拟合具有两个主要成分的PCR模型。之一步是X使用该pca函数执行主成分分析,并保留两个主成分。然后,PCR只是这两个成分的因变量的线性回归。当变量具有非常不同的可变性时,通常首先通过其标准偏差来规范每个变量。
从某种意义上说,上图中的比较并不合理 - 通过观察双组分PLSR模型预测因变量的程度来选择成分数(两个),并且没有说明为什么PCR模型应该限制相同数量的成分。然而,使用相同数量的成分,PLSR做得更好。实际上,观察上图中拟合值的水平分布,使用两个分量的PCR几乎不比使用常数模型好。回归的r方值证实了这一点。
比较两种模型的预测能力的另一种 *** 是在两种情况下将因变量绘制成两个预测变量。
如果不能以交互方式旋转图形,有点难以看到,但上面的PLSR图显示了紧密分散在平面上的点。另一方面,下面的PCR图显示点几乎没有线性关系。
请注意,尽管两个PLS成分是观察到的更好的预测因子,但下图显示它们解释的方差比例比PCR中使用的前两个主成分少。
PCR曲线一致性较高的事实表明,为什么使用两种成分的PCR相对于PLSR在拟合时表现很差。PCR构建成分以便更好地解释X,因此,前两个成分忽略了数据拟合中观察到的重要信息y。
拟合更多成分
随着在PCR中添加更多成分,它必然会更好地拟合原始数据y,这仅仅是因为在某些时候,大多数重要的预测信息X将存在于主要成分中。例如,使用10个成分时,两种 *** 的残差远小于两个成分的残差。
交叉验证
在预测未来变量的观察结果时,选择成分数量以减少预期误差通常很有用。简单地使用大量成分将很好地拟合当前观察到的数据,但这是一种导致过度拟合的策略。过于拟合当前数据会导致模型不能很好地推广到其他数据,并对预期误差给出过度乐观的估计。
交叉验证是一种更加统计上合理的 *** ,用于选择PLSR或PCR中的成分数量。它通过不重复使用相同的数据来拟合模型和估计预测误差来避免过度拟合数据。因此,预测误差的估计不会乐观地向下偏差。
pls可以选择通过交叉验证来估计均方预测误差(MSEP),在这种情况下使用10倍CV。
plsreg(X,y,10,'CV',10);
对于PCR,crossval结合用于计算PCR的平方误差之和,可以再次使用10倍交叉验证来估计MSEP。
sum(crossval(@ pcrsse,X,y,'KFold',10),1)/ n;
PLSR的MSEP曲线表明两个或三个成分好。另一方面,PCR需要四个成分才能获得相同的预测精度。
事实上,PCR中的第二个成分会增加模型的预测误差,这表明该成分中包含的预测变量的组合与其没有很强的相关性y。再次,这是因为PCR构建成分来解释X,而不是y。
模型简约
因此,如果PCR需要四个成分来获得与具有三个成分的PLSR相同的预测精度,那么PLSR模型是否更加简约?这取决于您考虑的模型的哪个方面。
PLS权重是定义PLS分量的原始变量的线性组合,即,它们描述了PLSR中的每个分量依赖于原始变量的权重。
类似地,PCA载荷描述了PCR中每个成分依赖于原始变量的强度。
对于PLSR或PCR,可以通过检查每个成分最重要的变量来为每个成分提供有意义的解释。例如,利用这些光谱数据,可以根据汽油中存在的化合物解释强度峰值,然后观察特定成分的权重挑选出少量这些化合物。从这个角度来看,更少的成分更易于解释,并且由于PLSR通常需要更少的成分来充分预测因变量,因此会导致更简约的模型。
另一方面,PLSR和PCR都导致每个原始预测变量的一个回归系数加上截距。从这个意义上讲,两者都不是更简约,因为无论使用多少成分,两种模型都依赖于所有预测变量。更具体地,对于这些数据,两个模型都需要401个光谱强度值以进行预测。
然而,最终目标可能是将原始变量集减少到仍然能够准确预测因变量的较小子集。例如,可以使用PLS权重或PCA载荷来仅选择对每个成分贡献更大的那些变量。如前所示,来自PCR模型拟合的一些成分可主要用于描述预测变量的变化,并且可包括与因变量不强相关的变量的权重。因此,PCR会导致保留预测不必要的变量。
对于本例中使用的数据,PLSR和PCR所需的成分数量之间的差异不是很大,PLS权重和PCA载荷选择了相同的变量。其他数据可能并非如此。
有问题欢迎下方留言!
参考文献
1.matlab使用经验模式分解emd 对信号进行去噪
2.Matlab使用Hampel滤波去除异常值
3.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)
4.matlab预测ARMA-GARCH 条件均值和方差模型
5.matlab中使用VMD(变分模态分解)
6.matlab使用贝叶斯优化的深度学习
7.matlab贝叶斯隐马尔可夫hmm模型
8.matlab中的隐马尔可夫模型(HMM)实现
9.matlab实现MCMC的马尔可夫切换ARMA – GARCH模型
[img]看各个IMF分量的周期啊,频率啊,均值大小,然后设定一个
阀值
。通过用EMD做分解预测,做好都是将IMF分量划分为高频,低频以及
残差
来做,划分的依据是看均值是不是显著大于0
。
经验模态分解(Empirical Mode Decomposition,简称EMD)) *** 被认为是2000年来以傅立叶变换为基础的线性和稳态频谱分析的一个重大突破 ,该 *** 是依据数据自身的时间尺度特征来进行信号分解,无须预先设定任何基函数。这一点与建立在先验性的谐波基函数和小波基函数上的傅里叶分解与小波分解 *** 具有本质性的差别。正是由于这样的特点,EMD *** 在理论上可以应用于任何类型的信号的分解, 因而在处理非平稳及非线性数据上,具有非常明显的优势,适合于分析非线性、非平稳信号序列,具有很高的信噪比。所以,EMD *** 一经提出就在不同的工程领域得到了迅速有效的应用,例如用在海洋、大气、天体观测资料与地震记录分析、机械故障诊断、密频动力系统的阻尼识别以及大型土木工程结构的模态参数识别方面。
该 *** 的关键是经验模式分解,它能使复杂信号分解为有限个本征模函数(Intrinsic Mode Function,简称IMF),所分解出来的各IMF分量包含了原信号的不同时间尺度的局部特征信号。经验模态分解法能使非平稳数据进行平稳化处理,然后进行希尔伯特变换获得时频谱图,得到有物理意义的频率。与短时傅立叶变换、小波分解等 *** 相比,这种 *** 是直观的、直接的、后验的和自适应的,因为基函数是由数据本身所分解得到。由于分解是基于信号序列时间尺度的局部特性,因此具有自适应性。
滤波法和拟合基线法是两类最常用的抑制 *** 。
消除趋势项的 *** :1,最小二乘法拟合,最小二乘法拟合出趋势项,再用原始数据减去趋势项。
2,小波变换,通过小波变换的多尺度分解过程,在分解的低频系数中可以观察到信号的基线趋势,用原始信号减去这个基线趋势即可。
3,EMD,EMD *** 认为任何信号都可以分解为若干个不同的本征模态函数(IMF)和一个残余量稳定态。其中各个不同的本征模态函数反映了信号的局部特性,残余量反映了信号的趋势或均值。所以EMD *** 可以通过“筛选”的 *** 把残余量分离出来。其他去除基线漂移的 *** 还有凸优化、平滑先验 *** 、VMD、FIR滤波、中值滤波、低通滤波器等。
国际期货关于铜的代码有:
一、HG --- Copper, High Grade 铜(COMEX);
二、+HG --- Copper, High Grade 铜(COMEX/GLOBEX);
三、QC --- miNY Copper 迷你铜(COMEX/GLOBEX);
四、LK --- London Copper Grade A 伦敦铜(COMEX/GLOBEX);
国际期货代码表:
6A --- Australian Dollar 澳元(GLOBEX)
6B --- British Pound 英镑(GLOBEX)
6C --- Canadian Dollar 加元(GLOBEX)
6E --- Euro FX 欧元(GLOBEX)
E7 --- Mini Euro FX 迷你欧元(GLOBEX)
6J --- Japanese Yen 日元(GLOBEX)
J7 --- Mini Japanese Yen 迷你日元(GLOBEX)
6S --- Swiss Franc 瑞士法郎(GLOBEX)
RMB --- Chinese Renminbi 人民币(GLOBEX)
GE --- Eurodollar 欧洲美元存款(Globex)
ZQ --- Federal Funds 联邦基金(eCBOT)
ZB --- US Treasury Bonds, 30-year 美国30年期国债(eCBOT)
ZN --- US Treasury Notes, 10-year 美国10年期国债(eCBOT)
ZF --- US Treasury Notes, 5 year 美国5年期国债(eCBOT)
ZT --- US Treasury Notes, 2 year 美国2年期国债(eCBOT)
YM --- Mini-Sized Dow ($5)迷你道琼斯指数
DD --- Dow Jones Industrial Average 道琼斯指数($25)
NQ --- E-Mini NASDAQ-100迷你纳斯达克100指数
ER2 --- E-mini Russell 2000迷你俄罗斯2000指数
ES --- E-mini SP 500迷你标准普尔指数
EMD --- E-mini SP Midcap 400迷你标准普尔中型400指数
CI --- Continous Commodity Index (NYFE)
VX --- Volatility Index (CBOT)
ZC --- Corn 玉米(eCBOT)
ZO --- Oats 燕麦(eCBOT) 燕麦
ZR --- Rough Rice 粗米(eCBOT)
ZS --- Soybeans 大豆(eCBOT)
ZM --- Soybean Meal 豆粕(eCBOT)
ZL --- Soybean Oil 豆油(eCBOT)
ZW --- Wheat 酒精(eCBOT)
KE Wheat - Kansas City (eCBOT)
LA Wheat - Minn (eCBOT)
+GC --- Gold 黄金(COMEX/GLOBEX)
ZG --- Gold 黄金(eCBOT)
YG --- Mini-Sized New York Gold 迷你纽约黄金(eCBOT)
QO --- miNY Gold 迷你纽约黄金(COMEX/GLOBEX)
+SI --- Silver 白银(COMEX/GLOBEX)
ZI --- Silver 白银(eCBOT)
YI --- Mini-Sized New York Silver 迷你白银(eCBOT)
QI --- miNY Silver 迷你白银(COMEX/GLOBEX)
+HG --- Copper, High Grade 铜(COMEX/GLOBEX)
QC --- miNY Copper 迷你铜(COMEX/GLOBEX)
+PA --- Palladium 钯(COMEX/GLOBEX)
+PL --- Platinum 铂(COMEX/GLOBEX)
PQ --- miNY Platinum 迷你铂(NYMEX/GLOBEX)
LQ --- miNY Palladium 迷你钯(NYMEX/GLOBEX)
QR --- Asian Platinum 亚洲铂(COMEX/GLOBEX)
QS --- Asian Gold 亚洲黄金(COMEX/GLOBEX)
QT --- Asian Palladium 亚洲钯(COMEX/GLOBEX)
QM --- miNY Crude Oil迷你原油
QH --- miNY Heating Oil迷你燃料油
QG --- miNY Natural Gas迷你天然气
QU --- miNY Unleaded Gas 迷你无铅气(NYMEX)
+CL --- Crude Oil, Light Sweet 原油(NYMEX/GLOBEX)
+HO --- Heating Oil 燃料油(NYMEX/GLOBEX)
+NG --- Natural Gas, Henry Hub 天然气(NYMEX/GLOBEX)
SC --- Brent Crude Oil Spec. 布伦特原油(NYMEX/GLOBEX)
BH --- Heating Oil - Financial Contract 燃料油金融合约(NYMEX/GLOBEX)
HH --- Natural Gas - Financial Contract Last Day 天然气金融合约最后一天(NYMEX/GLOBEX)
HP --- Natural Gas - Financial Contract 天然气金融合约(NYMEX/GLOBEX)
WS --- Crude Oil Financial Futures 原油金融期货(NYMEX/GLOBEX)
LK --- London Copper Grade A 伦敦铜(COMEX/GLOBEX)
LZ --- London SHG Zinc 伦敦锌(COMEX/GLOBEX)
ICC --- Cocoa 可可(ICE)
IKC --- Coffee 咖啡(ICE)
ICT --- Cotton 棉花(ICE)
IOJ --- Orange Juice 橙汁(ICE)
ISB --- Sugar 蔗糖(ICE)
TT --- Cotton 棉花(NYMEX/GLOBEX)
CJ --- Cocoa 可可(NYMEX/GLOBEX)
FJ --- Orange Juice 橙汁(NYMEX/GLOBEX)
KT --- Coffee 咖啡(NYMEX/GLOBEX)
YO --- Sugar 蔗糖(NYMEX/GLOBEX)
FDAX --- DAX法兰克福DAX指数
FBEL --- Euro-BOBL中期欧元债券
FGBM --- Euro-BUND长期欧元债券
DFE --- Eurbor (Eurex)拆放利率
AUD/CAD --- AUD/CAD (FOREX)
AUD/CHF --- AUD/CHF (FOREX)
AUD/JPY --- AUD/JPY (FOREX)
AUD/NZD --- AUD/NZD (FOREX)
AUD/USD --- AUD/USD (FOREX)
CAD/JPY --- CAD/JPY (FOREX)
CHF/JPY --- CHF/JPY (FOREX)
CHF/USD --- CHF/USD (FOREX)
EUR/AUD --- EUR/AUD (FOREX)
EUR/CAD --- EUR/CAD (FOREX)
EUR/CHF --- EUR/CHF (FOREX)
EUR/GBP --- EUR/GBP (FOREX)
EUR/JPY --- EUR/JPY (FOREX)
EUR/NOK --- EUR/NOK (FOREX)
EUR/SEK --- EUR/SEK (FOREX)
EUR/USD --- EUR/USD (FOREX)
GBP/CHF --- GBP/CHF (FOREX)
GBP/JPY --- GBP/JPY (FOREX)
GBP/USD --- GBP/USD (FOREX)
JPY/USD --- JPY/USD (FOREX)
NZD/JPY --- NZD/JPY (FOREX)
NZD/USD --- NZD/USD (FOREX)
USD/CAD --- USD/CAD (FOREX)
USD/CHF --- USD/CHF (FOREX)
USD/JPY --- USD/JPY (FOREX)
USD/MXN --- USD/MXN (FOREX)
USD/NOK --- USD/NOK (FOREX)
USD/SEK --- USD/SEK (FOREX)
USD/SGD --- USD/SGD (FOREX)
USD/ZAR --- USD/ZAR (FOREX)
AD --- Australian Dollar澳元
BP --- British Pound英镑
CD --- Canadian Dollar加元
EC --- Euro FX欧元
JY--- Japanese Yen日元
SF --- Swiss Franc瑞士法郎
ED – Eurodollar欧洲美元存款
US --- US Treasury Bonds, 30-year美国30年期国债
TY --- US Treasury Notes, 10-year美国10年期国债
FV --- US Treasury Notes, 5 year美国5年期国债
TU --- US Treasury Notes, 2 year美国2年期国债
DJ --- Dow Jones Industrial Average ($10)道琼斯工业指数
ND --- NASDAQ-100 Index纳斯达克100指数
NK --- NIKKEI 225 Stock Index日经225股票指数
SP --- SP 500标普500指数
C --- Corn玉米
O --- Oats燕麦
RR --- Rough Rice粗米
S --- Soybeans大豆
*** --- Soybean Meal豆粕
BO --- Soybean Oil豆油
W --- Wheat酒精
FC --- Feeder Cattle育肥牛
LC --- Live Cattle活牛
LH --- Lean Hogs瘦肉猪
PB --- Pork Bellies, Frozen冷冻猪脯
LB --- Lumber, Random Length木材
HG --- Copper, High Grade 铜(COMEX)
GC --- Gold 黄金(COMEX)
PA --- Palladium钯
PL --- Platinum铂
SI --- Silver 白银(COMEX)
CC --- Cocoa可可
KC --- Coffee “C”咖啡
CT --- Cotton #2棉花
OJ --- Frozen Concentrated Orange Juice 冷藏浓缩橙汁(FCOJ)
SB --- Sugar #11 蔗糖(World)
HS – Hang Seng Index恒生指数
网站首页:期货手续费网-加1分开户(微信:527209157)
本文链接:http://52ol.cn/post/127012.html
Copyright 2012-2024 期货手续费网-加1分开户 网站地图 邮箱:diyijiaoyi@qq.com 微信:527209157 湘ICP备18014167号