山东大学机电与信息工程学院, 山东 威海 264209
随着天文学的发展以及天文望远镜观测能力的提升, 国内外许多大型巡天望远镜将产生PB级的恒星光谱数据。 恒星光谱是来自恒星的电磁辐射, 通常由连续谱与吸收线叠加而成, 其差异源于恒星的有效温度、 表面重力加速度以及元素的化学丰度等。 恒星光谱自动分类是天文数据处理的一项重要研究内容, 是研究恒星演化和参数测量的基础。 海量的恒星光谱对分类方法提出了高效、 准确的要求。 传统的人工分类方法存在速度慢、 精度低等缺点, 已经无法满足海量恒星光谱特别是低信噪比恒星光谱自动分类的实际需要, 机器学习算法目前已经被广泛地应用于恒星光谱分类。 恒星光谱的一个显著特征是数据维度较高, 降维不但可以实现特征提取, 而且可以降低计算量, 是光谱分类的首要任务。 传统的线性降维方法如主成分分析仅依据方差对光谱进行降维, 不同类型的光谱在投影到低维特征空间后会出现交叉现象, 而流形学习能够产生优良的分类边界, 很好地避开重叠, 有利于后续的分类。 针对光谱数据维度较高的特点, 研究了光谱数据在高维空间内的分布以及流形学习对高维线性数据降维的原理, 比较了t-SNE和主成分分析两种降维方法对光谱数据降维的效果, 并使用基于属性值相关距离的改进的K近邻算法进行光谱分类, 最终对实验结果进行了分析并使用多种机器学习分类器进行比较和验证。 采用Python语言及Scikit-learn第三方库实现了算法, 对SDSS的12 000条低信噪比的恒星光谱进行实验, 最终实现了光谱数据的高精度自动处理和分类。 实验结果表明, 对于光谱数据的降维处理, 基于流形学习的t-SNE方法能够在高维光谱数据中恢复低维流形结构, 即找出高维空间中的低维流形, 并解出与之对应的嵌入映射, 在降维过程中最大程度地保留不同类别光谱样本之间的差异从而产生明显的分类边界。 特征提取后, 使用机器学习分类器能够在测试数据集上达到满意的分类准确率。 所使用的方法也可以应用于其他的巡天望远镜产生的海量光谱的自动分类以及稀少天体的数据挖掘。
流行学习 恒星光谱分类 数据降维 K近邻算法 Manifold learning Stellar spectral classification Data reduction K-Nearest neighbor algorithm 光谱学与光谱分析
2020, 40(9): 2913
1 中北大学软件学院, 山西 太原 030051
2 中国科学院光学天文重点实验室, 北京 100012
数据挖掘被广泛应用于恒星光谱分类。 为了提高传统光谱分类方法性能, 提出熵学习机(Entropy-based Learning Machine, ELM)。 在该方法中, 熵用来刻画分类的不确定性。 为了得到理想的分类结果, 分类的不确定性应最小, 基于此, 可得ELM的最优化问题。 ELM在处理二分类问题和稀有光谱发现等方面具有一定优势。 SDSS中K型、 F型、 G型恒星光谱数据集上的比较实验表明: ELM在进行恒星光谱分类时, 其分类性能优于k近邻(k Nearest Neighbor)和支持向量机(Support Vector Machine)等传统分类方法。
数据挖掘 恒星光谱分类 熵 斯隆数字巡天 Data mining Stellar spectra classification Entropy Sloan digital sky survey (SDSS)
1 山东大学(威海)机电与信息工程学院, 山东 威海 264209
2 中国科学院光学天文重点实验室, 国家天文台, 北京 100012
3 烟台大学计算机与控制工程学院, 山东 烟台 264005
天体光谱中蕴含着非常丰富的天体物理信息, 通过对光谱的分析, 可以得到天体的物理信息、 化学成分以及天体的大气参数等。 随着LAMOST和SDSS等大规模巡天望远镜的实施, 将会产生海量的光谱数据, 尤其是LAMOST正式运行后, 每个观测夜产生大约2~4万条光谱数据。 如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。 恒星光谱的自动分类是光谱处理的一项基本内容, 该研究主要工作就是研究海量恒星光谱的自动分类技术。 Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数, 代表光谱的物理特性, 以每个线指数最突出的吸收线命名, 是一个相对较宽的光谱特征。 研究了基于Lick线指数的贝叶斯光谱分类方法, 对F, G, K三类恒星进行分类。 首先, 计算各类光谱的Lick线指数作为特征向量, 然后利用贝叶斯分类算法对三类恒星进行分类。 针对海量光谱的情况, 基于Hadoop平台实现了Lick线指数的计算, 以及利用贝叶斯决策进行光谱分类的方法。 利用Hadoop HDFS高吞吐率和高容错性的特点, 结合Hadoop MapReduce编程模型的并行优势, 提高了对大规模光谱数据的分析和处理效率。 该研究的创新点为: (1) 以Lick线指数作为特征, 基于贝叶斯算法实现恒星光谱分类; (2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。
Lick线指数 恒星光谱分类 Lick line index Stellar spectral classification Hadoop Hadoop 光谱学与光谱分析
2016, 36(8): 2651
1 中国科学院国家天文台,北京 100012
2 北京服装学院基础部,北京 100029
恒星光谱数据的自动识别与分类是现代巡天望远镜所产生的海量光谱数据处理的一项重要研究内容。针对流量未定标的低分辨率恒星光谱设计了一种有效的自动分类方案,实现恒星光谱的MK分类:光谱型及其次型分类,光度型分类。该方案由三部分实现:(1)连续谱归一化:基于小波技术提取低频信号逼近连续谱的方法;(2)七种光谱型及其次型的分类通过非参数回归方法实现。(3)光度型分类通过基于最近邻的χ2 方法实现。实验结果表明该方案能够有效实现恒星光谱的MK 分类,光谱型及其次型的分类精度为3.2个光谱次型,栺灢桋光度型的正确识别率为60%,次优统计率为78%。该方案训练速度快,方法实现容易,适用于海量恒星光谱自动分类处理系统。
恒星光谱分类 连续谱归一化 非参数回归 最近邻方法 光度 Stellar spectra classification Continuum normalization Non-parameter regression Nearest neighbor method Luminosity 光谱学与光谱分析
2009, 29(12): 3424