您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页A型恒星光谱线指数岭回归有效温度的预测分析

A型恒星光谱线指数岭回归有效温度的预测分析

来源:爱go旅游网
第39卷,第8期2019 年 8 月光谱学与光谱分析SpectroscopyandSpectralAnalysisVol 39,No. 8,pp2624-2629August, 2019A型恒星光谱线指数岭回归有效温度的预测分析薛仁政X陈淑鑫!黄宏本21.

2.

齐齐哈尔大学计算机与控制工程学院,黑龙江齐齐哈尔161006梧州学院大数据与软件工程学院,广西梧州3002摘 要 天文光谱线指数数据能够较好地保留着恒星的物理特征信息,为此借助线指数特征数据构建多参

数模型,有利于更好地回归分析数据的共变关系及谱线的内在规律。世界上光谱获取率最高的施密特天文 望远镜LAMOST发布的观测光谱都已经过标记,利用天文可视化工具分析这些标记的恒星光谱线指数会

产生预测因子自相关,多元线性回归时因变量存在共线性,导致方差较大、得到最小二乘回归系数不稳定,

虽不影响使用回归的有效性,但较难从回归方程中得到预测因子的评估系数。利用LAMOST巡天光谱

数据中A型恒星Lick线指数为数据源,选取有效温度丁母为7 000〜8 500 K,取信噪比大于50的光谱特征

值实现回归分析恒星参数丁母值,经箱线图呈现DR5星表中,A型光谱86 097条具备丁母值大样本光谱数据

的整体分布,统计分析26种线指数的特征值后,选取分布相似且带宽为12 A的kp12, halpha12和hgam- ma12字段,减少解释线指数变量的数目,优化冗余变量方差膨胀因子(VIF)系数。实验选取两两变量间观

测数据集,局部拟合回归散点、同样的数据源使用散点图的总体轮廓生成高密度散点图,利用色差透明性突

出显示数据密集区域。结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温 度,但经过共线性数据分析有偏估计实验,使用岭回归分析寻找最佳模型,能更准确地确定恒星有效温度,

进而得到预测A型恒星有效温度及谱线回归特性。关键词 恒星光谱;LAMOST#岭回归;线性模型;Lick线指数中图分类号:P145. 4 文献标识码:A

DOI: 10. 39/j. issn. 1000-0593(2019)08-2624-06数!利用多元线性回归算法分析实现估计 A 型恒星的有效温

引言2008年10月16日作为世界上光谱获取率最高的施密

特天文望远镜LAMOST投入使用,增强了我国在国际天文

度。实验选取温度值7 000〜8 500 K,信噪比S/N大于50的 A 型恒星数据!经线性拟合分析!最后利用岭回归方法构建共

线性数据分析有偏估计回归模型,解决过拟合问题,得出一种 预测LAMOST大样本实测光谱有效温度的回归方法。研究领域巡天观测的地位提升了我国大视场天文学及大

数据光学光谱观测研究方面的科研水平。天文大数据中蕴含

着海量天体光谱信息⑵,研究者们通过定义光谱线指数来描

1天文光谱线指数天文光谱线指数值在天文研究领域已取得诸多成果,线 指数表示天文光谱中物理特征的数值,保留着多种类型的参

述光谱的特征,其中Lick线指数的应用最为广泛已有研

究者利用Lick指数对LAMOST光谱分析,例如,2015年国

家天文台刘超利用LAMOST星表中线指数分析MK恒星分

类CallK特征值之间的分布⑷,2016年潘景昌等提出利用

数特征数据,1994年Guy Worthey等给出Lick线指数的完

整定义及描述⑹,光谱线指数的数值定义光谱中特征谱线的

线指数特征对LAMOST DR2数据中F, G, K和M型恒星

光谱聚类分析研究5(,并基于SVM输入光谱线指数完成恒

'积分星等特征数值、谱线等值宽度(EW )以及半高全宽

(FWHM)的光谱线指数组合。1. 1 LAMOST线指数星分类等°本文通过分析LAMOST已发布的A型光谱线指

收稿日期:2019-02-24,修订日期:2019-05-16基金项目:国家自然科学基金项目(U1631239),国家自然科学基金青年科学基金项目(11803013),黑龙江省教育厅基本业务专项项目(135109248),齐齐哈尔市科技计划项目(GYGG-201720)作者简介:薛仁政,1979年生,齐齐哈尔大学讲师 e-mail: 27744950@qq.com通讯联系人 e-mail: shuxinfriend@126. com第*期光谱学与光谱分析2625光谱数据是天体物理学研究的基础和证认依据,我国国 家天文台运行着大天区多目标光纤光谱望远镜(LAMOST)

截止到2018年7月,LAMOST已经积累了六年的巡天数据 (http://dr5. lamost. org/) , DR5 数据集共获得 9 017 844个

光谱& LAMOST巡天光谱数据按MK分类标准系统进行光 谱型分类,波长覆盖范围从3 690〜9 100 A,步长为1 @(总 采样点数N=5 491),分辨率为1 800,在用模板光谱来自约 100万条的大量先导巡天实测恒星光谱数据&LAMOST发布DR5数据v1版中A型恒星提供的光度

类型比DR1目录中包含了更多的线指数信息,DR5星表中 共计439 914条A型光谱,其中86 097条光谱数据具备Teff

值,如图1所示经箱线图呈现大样本之间的不同,反映线指

数统计量整体分布,从26种线指数特征值中选取分布相似,

且带宽为12 A的kpl2, halphal2和hgammal2字段,减少

解释变量的数目,增加方差膨胀因子(VIF)系数,在第3.1

节分析VIF冗余变量获得更好的预测效果&后文实验选取信

噪比S/N大于50,且温度在7 000〜8 500 K范围的A型恒

星数据线性拟合分析恒星大气物理参数的有效温度值&图1 A型恒星线指数26种特征值分析箱线图Fig. 1 Boxplot analysis of 26 eigenvaluesof A-type stellar line index1.2构造数据模型LAMOST发布的观测光谱都已经过标记,先前研究所

构建的回归模型大部分都是假定自变量和因变量之间呈线性 关系'(,对于任何回归问题的预测因子都可能产生自相关,

虽然并不影响回归使用的有效性,但很难或者不可能从回归

方程中得到预测因子的评估系数&后文提出的方案包括

以下步骤:首先,利用天文可视化工具对LAMOST线指数 数据统计分析;其次,用Lick线指数对\"eff测量进行多元线

性回归;最后,采用岭回归寻找最佳模型,得到多元线性回

归训练预测的模型&结果表明多元线性回归和岭回归算法都 能准确地从低分辨率光谱中确定A型恒星的有效温度&2线性模型分析多个不同的解释变量显示相似的变量信息时,可能导致

方差非常大,使估计准确性变差,需要解决变量间的共线性

问题&当线指数的特征变量和恒星参数呈非线性关系时,需

保留线指数的多个类型的参数数据,本节结合响应变量与解

释变量之间的关系,用散点图表示,并进行多线性回归分

析,较好地解释变量相互关联性问题&2.1谱线多重共线性多重共线性分析可定量解释模型中包含的多个变量函 数,基于A型恒星参数建立的回归模型能够有效预测\"eff数 据特征之间相关方法,与典型线性回归不同,使用多重线性

回归来实现分析Lick线指数与\"eff之间的关系,特别是连续

光谱中存在着校准和消光等较多的不确定性因素,后文运用

预测方法有效地利用谱线指数从天文光谱中提取\"eff特征&

多元线性回归方程模型如式(1)所示\"eff, $ ! % !i x#,1 + ! X#,2 + …+ !px#,p % \"

(1)式(1)中,# = 1,2,…,N ;回归误差\";方差#2 ;预测因素的

数量级为P;每个变量的值Xp ; N是测试数据N (0,

#2),满足(\") = 0和Var(£z |X) =#2 ,预测因子系数血,

…,伤-1,伤常数项“。是估计与最小二乘方法&利用拟合函

数能执行完整的线性模型分析,输出值与最小二乘估计位 和!。值如式(2)所示&s(!)$ # (\"eff , # — ! —

—\"2X2 —…一#$1!PX#2p )2 $ || \"eff — / II 2

(2)2.2线性拟合观测数据依据 1.1 节 分 析 结 果 当 LAMOST 观 测 样 本 量 较 大

所绘制数据点非常集中时,很多数据点重合叠加,不利于直 观展示数据的局部规律和趋势以及线指数特征值之间的相关 性特征,本文实验选取相应比例的局部数据集拟合回归&实

验将观测数据两两变量间以散点呈现在二维平面的数据点分 布,如图2-图4所示被分析量恒星有效温度\"eff与线指数

之间相关关系&实验中用模型回归线与观测数据的拟合程度

来表示因变量与所有自变量之间的总体关系,经函数拟合回 归曲线如图2(a)、图3(a)和图4(a)数据点重叠集中,分别包

含蓝色线、绿色线和红色线显示线性回归趋势&由于数据点

的重叠使得因变量和自变量之间的关系难以识别,不利于直

观地显示观察变量之间的相关特征,同样的数据源使用统计 透明性如图2(b),图3(M)和图4(M)所示任意坐标上重叠点 的数量,使用散点图的总体轮廓生成高密度散点图,利用色

差突出显示数据密集区域,将不同Counts数据点分箱,用灰 度深浅表示箱中数据点的个数,明晰散点图的整体轮廓,数 据的散点映射表示核密度估计。该函数自动在一定范围内设

置数据点,显示数据点被划分成几个框,灰色的数据用来表

示框中数据点的数量&从图2—图4中散点分布趋势显示心与kpl2, hdeltal2

和hgammal2变量之间的负线性相关性是非常明显的,如表 1所示两两变量间所得到协方差矩阵为对称矩阵,表中计算

各列的方差值,其中以主对角线为对称轴对应相等的矩阵,

列出的运行结果可得因变量可变性的百分比,后续章节利用

回归方程误差度量线性模型反映拟合程度真实关系,后文岭

回归预测模型中协同因子是最关键的相关关系&2626光谱学与光谱分析第39卷6 5 4 3 2

.n.E'XUPUI

UUHeldk7 000

7 500 8 000 Effective temperature/K8 5007 000

7 500 8 000 8 500Effective temperature/K图2 A型恒星有效温度7^与kpl2线指数分析(a):线性回归散点图(蓝色);(b):高密度散点图Fig. 2 A-type stellar effective temperature Teff and kpl2 line indices(a) : Scatter plot with linear regression (in blue) ; (b) : High density scatter plotEffective temperature/K Effective temperature/K图3 A型恒星有效温度7;ff与hdeltal2线指数分析(a):线性回归散点图(绿色);(M):高密度散点图Fig. 3 A-type stellar effective temperature Teff and hdeltal2 line indices(a) : Scatter plot with linear regression (ingreen) ; (M) : High density scatter plotCounts■ 148:139130J J;幣II0 l]0l I7 500 8 000Effective temperature/K图4 A型恒星有效温度Teff与hgammal2线指数分析(a):线性回归散点图(红色);(M):高密度散点图Fig. 4 A-type stellar effective temperature Teff and hgammal2 line indices(a) : Scatter plot with linear regression (in red) ; (b) : High density scatter plot第*期光谱学与光谱分析2627表1线指数特征值与Teff参数线性相关系数值Table 1 Linear correlation coefficient betweenlin4ind4x4ig4nvalu4sand T4ff相关系数Teffkp12hdelta12hgamma12Teff1. 0000. 7430. 90 . 936kp120. 7431.(((—(.633— .6 1hdelta120. 9—(.6331.(((0 . 981hgamma120. 936—(.6(10. 9811.3预测大气参数基于上述对LAMOST观测数据模型的分析,建立多线

性回归预测恒星参数的数据模型,预测模型体现输出的恒星

有效温度Teff即被解释变量与线指数输入的多个特征变量的

线性和非线性关系&3.1线指数共线性结合上节提及的共线性问题是多个线指数的特征值变量

给出相似的分析,LAMOST数据绘制散点图呈现所有变量 的散点图表示响应变量与解释变量之间的关系相关性,利用

方差膨胀因子VIF确定解释变量的共线性程度&实验利用多

线性共同标准方差膨胀因子VIF=1/(1 —),其中,表示 多个其他相关变量的回归系数,线指数通过X-变量计算

VIF ,得到hgammal2的VIF值为3. 288 479 T106远远超过

VIF的最大限度影响因子,>0.9 ,故存在多重共线性,多

线性分析会影响估计量的准确性&依据存在非线性的因素,

建立多线性回归模型变量的相关系数 得 到 与 有 效 温 度 相 关

的皮尔森相关系数矩阵,建立模型残差为1213 ,调整可决

系数为0.993 ,优化模型线指数特征值结果&如式(3)表述线 性组合在两组随机变量XX中选取若干个相关关系的指标,

表示原来的两组变量的综合关系&后文实验采用岭回归估计

在变量XX中增加正常矩阵kI(k>0),则XX + 0更接近 真实的回归值,符合参数k值如图5所示,正规方程最优解

时当k&0时!(0)得到原来的最小二乘估计,训练线性回归

模型为式(3)。!(k) $ (X + I)' X2

(3)Ridge parameter regression coefficient100

200

300 400 500 600 700Wavelength/nm图5 A型恒星线指数系数线性回归估计分析图Fig.5 Lin4arr4gr4sionanalysisdiagram of A-typ4star lin44xpon4ntialco4fici4nt3.2 岭回 归分析从上文得到线指数值实现多元线性回归时系数矩阵与其转置矩阵相乘得到的矩阵不能求逆,且方差较大使得光谱特

征变量间存在共线性造成最小二乘回归不稳定&为此本节通

过Ridge岭回归解决最小二乘法的无偏性,没有抛弃任何特

征缩小回归系数获得可靠的回归系数预测大气有效温度参数

预测模型 teff = 12 770+!ikpl2-------念6 hdelta_d02 式中!系数值,如表2列出各特征显示模型准确地从低分辨率光谱

中确定A型恒星的有效温度&表2岭回归模型线指数特征值与Teff

参数线性相关系数值Table 2 Line index characteristic value and Teff parameter line­

ar correlation value with ridge regression model特征值

系数\"

特征值

系数“kp12—2. 981X107hdelta121.5(6X1(8kp188.222T1(6hdelta24—3.(67X1(7kp63.5(3X1(7hdelta48—1.167X1(8hbeta12—4.225X1(8hdelta4.939X1(7hbeta243.(96X1(8hgamma122.523X1(8hbeta48—5.391X1(7hgamma24—1.186X1(7hbeta62.567X1(7hgamma48—6.411X1(8halpha12—1.239X1(8hgamma5.244X1(8halpha242.(38X1(8paschenl39.443X1(5halpha48—3.923X1(8paschen142—6.71(X1(6halpha72.888X1(8paschen242—2.3(6X1(7halpha-d 22.529X1(4hgamma-d(2—4.984X1(3hbeta-d 2—2.138X1(4hdelta_d023.635X1(6•n.Eas5E+10-nleA

JBU0E+00UIeJed o-5E+10-&op一

-1E+11-OE+OO 2E-04 4E-04 6E-04 8E-04 1E-03Generalized cross-validation coefficient/a.u.图6A型恒星有效温度Teff与26种线指数特征值岭回归分 析图,修正后的估计值HKB为1.921 567X10\"5和L-

W 为 330.336 5Fig.6Ridge regression analysis chart of Teff and 26 kinds of

eigen values with the line index of A-type stars, which

modified HKB estimator was 1. 921 567 X 10_5 and modified L-W estimator was 330. 336 5当变量间存在共线性且方差很大,得到不稳定的最小二

乘回归系数&为此系数矩阵X与其转置矩阵相乘得到的矩阵

不能求得其逆矩阵,实验通过ridge regression函数引入参数

lambda,解决上述问题,利用第1. 1节中列出26种特征值选

2628光谱学与光谱分析第39卷择岭回归参数/从优化模型运行结果得岭回归参数值为 0.014 7,各自变量的系数显著明显提高,岭回归模型的

谱线特征中获取恒星有效温度\"母值具有很好的研究价值,

特别是通过训练信息丰富的线指数值得出A型恒星特征与

lambda值代入线性回归模型,得到\"母有偏的估计,也可采 \"母之间的关系模型,利用LAMOST发布的光谱和相应的恒

星参数来获得这种关系,尤其提供晚期A型恒星的\"母更为

用优化广义交叉验证GCV方法自动选取得到最佳岭回归的 参数k值如图6所示,经岭回归计算变量的相关性分析,合

准确&本文依据光学巡天光谱数据的Lick线指数特征值,运 用LAMOST发布DR5实测数据计算预测有效温度\"eff,实

验中偏回归系数对A型恒星线指数数据绘制散点图其中

Xi , X2 , X3 分别为 kp12, hdelta12, hgamma12 变量与有效

理简化LAMOST发布的线指数变量值,输入由该组变量的 数值预测有效温度以增强预测模型的可信度&4展望线指数作为描述天文光谱较有效的数据特征方式!若将 每个波长采样点视作一个维度!则需降维天文高维光谱数 据!进而获取更好的数据分布和知识信息&天文光谱直接从温度多重共线性分析相互关联时!产生多重共线性引起系数

的噪声波动,降低其显著性&岭回归预测模型既解决过拟合 问题,也给出大样本实测光谱数据预测有效温度\"母的方法,

进而正确预测未来恒星演化的发展趋势!为后续研究分析A

型恒星演化规律提供必要的论证模型&References[1( LuoAli, Zhao Yongheng, Zhao Gang, et al. Research in Astron. Astrophys, 2015, 15(8): 1095.[2( ZHAO Yong-heng(赵永恒).Scientia Sinica: Physica, Mechancia&Astronomica(中国科学:物理学力学天文学),2014, 44(10) : 1041.CUI Chen-zhou, YU Ce, XIAO Jian, et al(崔辰州,于 策,肖 健,等).Chinese Science Bulletin\"科学通报),2015, 60(5-6): 445.

[4( Liu Chao, Cui Wenyuan, Zhang Bo, et al. Research in Astron. Astrophys, 2015 , 15(8): 1137.[5( WANG Guang-pei, PAN Jing-chang, YI Zhen-ping, et al(王光沛,潘景昌,衣振萍,等).Spectroscopy and Spectral Analysis(光谱学与光

谱分析),2016, 36(8): 26.[6( Guy Worthey, Faber S M, et al. The Astrophysical Journal Supplement Series, 1994, 94 : 687.[7( Chen Shuxin, Sun Weimin, Yan Qi. Research in Astron. Astrophys, 2018, 18(6): 73.Line Index of A-Type Stellar Astronomical Spectrum Predict Effective Temperature by Ridge Regression ModelXUE Renzhengi , CHEN Shu-xin1 - , HUANG Hong-ben21. School of Computer and Control Engineering, Qiqihar University, Qiqihar 161006, China2. School of Data Science and Software Engineering, Wuzhou University, Wuzhou 3002, ChinaAbstract Line index is widely used in describing the features of spectral lines for astronomical objects because it retains the main physical characteristic information of these objects. Based on line index, a multi-parameter model for regression analysis could be usedtouncoverco-varJatonrelatonshJpofdataandtheJnherentlawsofspectrallnes.TheobservedspectrareleasedbyLAM-

OST, whJchhasthehJghestspectraacquJstoncapablty, provJdeuswthrealdataforestablshJngarobustregressJon model. The multvarJatelnearregressJonwasappledtogettheco-lnearJtyofthedependentvarJables, however, tresultedJnlargeva- riance. It is unstable to obtain the least squares regression coefficient sometimes. Especially, it's difficult for the multivariate linearregression-oob-ain-heevalua-ioncoeficien-ofindependen-predic-orfrom-heregressionequaion.In-hispaper, weuse

-heA--ypes-elarLicklineindexin-heLAMOSTsurveyda-aas-heda-asource.Selecing-hespec-rawi-hefecive-empera- -ure \"ef)from7000-o8500 K, and-hesignal--o-noisera-iohigher-han50-orealize-heregressionanalysis.Af-erase-of linearbiasedesimaionexperimen-forA--ypes-ars, -he me-hod of ridge regression-raining was employed. In-he ca-alogue of

LAMOSTda-arelease5 (DR5), 86 097 A--ype spec-ra have provided-he\"efvalue. Af-er s-a-is ical analysis of-he eigenvalues of 26 line indices, the kp12, halpha12 and hgamma12 with similar distribution and bandwidth of 12 A were selected to reduce the da-aredundance.Thenumberofvarie-ywasop-imizedfor-heredundan-variablevarianceexpansionfac-or (VIF)coeficien-. Tworegressionexperimen-sselec-ed-hesameobserva-ionda-ase--olocalyfi -heregressionsca-er, using-heoveralcon-our

of the scatter plot to generate a high-density scatter plot, highlighting the data-intensive region with the color difference trans- parency.Theresul-sshow-ha-bo-h-hemul-iplelinearregressionand-heridgeregressionalgorihmcande-ermine-heefecive

-empera-ure \"ef)of-heA--ypes-ar-hrough-helow-resolu-ionspec-rum!bu--heco-lineariyda-aanalysishassomebiasedes-

第8 期光谱学与光谱分析2629imaion.Theridgeregression modelcan moreaccura-elypredic--heefecive-empera-ureofA-ypes-arsfrom-helowresolu-

ionspec-ra.Keywords St ellar spectra; LAMOST (Large sky area multi-objec t fiber spectroscopy t elescope) ; Ridge regression; Linear mod-

el)Licklineindex(Received Feb. 24, 2019 ; accepted May 16, 2019)'Correspondingau hor敬告读者一《光谱学与光谱分析》已全文上网从2008年第7期开始在《光谱学与光谱分析》网站(www. gpxygpfx. com)\"在线期刊''栏内 发布《光谱学与光谱分析》期刊全文,读者可方便地免费下载摘要和PDF全文,欢迎浏览、检 索本刊当期的全部内容;并陆续刊出自2004年以后出版的各期摘要和PDF全文内容。2009

年起《光谱学与光谱分析》每期出版日期改为每月1日。《光谱学与光谱分析》期刊社

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务