首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 109 毫秒
1.
恒星光谱分类是恒星光谱分析的重要工作之一。我国大型巡天项目LAMOST能够获得海量的恒星光谱数据,为了对海量恒星光谱数据进行高效分类,特别是对恒星光谱子型数据进行分类,需要研究快速有效的恒星光谱自动分类算法。提出一种基于Transformer特征提取的混合深度学习算法Bert+svm(简记为Besvm)实现A型恒星光谱子型的自动分类。该算法将A型恒星光谱26个线指数作为输入特征,应用Bert模型对26个线指数进行更深层次的学习,通过学习26个线指数的内在关联,进而提取到更有利于A型恒星光谱子型分类的特征。提取好的新特征被输入到分类器算法支持向量机(简记为SVM)中,进而对A型恒星光谱的三个子型A1、 A2和A3进行自动分类。此前,SVM算法在恒星光谱分类任务中已经有过应用,一些衍生的SVM算法在恒星光谱分类任务中也有较高的分类正确率。相比从前应用到恒星光谱分类任务的SVM算法,我们的混合深度学习算法受数据的信噪比影响较小,使用低信噪比数据也能有较高的分类正确率,并且所用数据量较少。通过五组实验验证了该算法的有效性和优越性:实验1用来对比选择优秀的核函数,通过光谱数据的匹配实验,最终选择...  相似文献   

2.
天体光谱中蕴含着非常丰富的天体物理信息,通过对光谱的分析,可以得到天体的物理信息、化学成分以及天体的大气参数等。随着LAMOST和SDSS等大规模巡天望远镜的实施,将会产生海量的光谱数据,尤其是LAMOST正式运行后,每个观测夜产生大约2~4万条光谱数据。如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。恒星光谱的自动分类是光谱处理的一项基本内容,该研究主要工作就是研究海量恒星光谱的自动分类技术。Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数,代表光谱的物理特性,以每个线指数最突出的吸收线命名,是一个相对较宽的光谱特征。研究了基于Lick线指数的贝叶斯光谱分类方法,对F,G,K三类恒星进行分类。首先,计算各类光谱的Lick线指数作为特征向量,然后利用贝叶斯分类算法对三类恒星进行分类。针对海量光谱的情况,基于Hadoop平台实现了Lick线指数的计算,以及利用贝叶斯决策进行光谱分类的方法。利用Hadoop HDFS高吞吐率和高容错性的特点,结合Hadoop MapReduce编程模型的并行优势,提高了对大规模光谱数据的分析和处理效率。该研究的创新点为:(1) 以Lick线指数作为特征,基于贝叶斯算法实现恒星光谱分类;(2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。  相似文献   

3.
铝合金作为重要的金属材料,广泛应用于各领域,但大量的铝合金废料却难以进行分类回收。二次资源的回收利用是我国工业绿色、可持续发展的助推器,如何快速、简便地对铝合金废料进行识别分类则成为了铝合金废料回收利用的先决条件。激光诱导击穿光谱(LIBS)是近年来发展快速的一种分析技术,具有快速、全元素分析、实时、原位、远距离检测等优点,已广泛应用于塑料、土壤、肉类、钢铁等识别研究,大多采用最小二乘判别分析法、簇类独立软模式、人工神经网络、支持向量机、随机森林等算法来建立模型。基于迭代型树的XGBoost算法具有正则化、并行处理运算、内置交叉验证和高度的算法灵活性等优势,其模型结构相对简单、运算量较小,且准确率较高,成为近年来机器学习中极受欢迎的算法,因而被广泛应用。基于六种铝合金样品的600组光谱数据,根据NIST原子发射光谱数据库进行光谱特征提取,确定光谱特征谱线的分类依据。利用XGBoost算法进行自动分类及排序,将处理后的光谱数据随机划分为训练集和测试集,通过训练集构建算法模型,提取其分类特征;利用测试集检验模型的稳定性和可用性,防止出现过拟合。XGBoost在固定参数下得到的模型具有一定的自适应性,较少受数据集的影响,总体准确率可达96.67%。其分类特征与已知的元素含量信息相吻合,证明了基于光谱的特征谱线数据,可为分类识别提供参考;同时还可根据XGBoost生成的特征评分来对光谱谱线特征的重要性进行排序。实验结果表明,LIBS可用于不同种类铝合金的快速识别,为废弃金属的分类回收提供了一种新的技术。  相似文献   

4.
聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法,能简单有效地研究大样本、多参量和类别未知的光谱数据。以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时,有效解决高维光谱数据聚类分析中运算复杂度较高的问题。本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法,提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征,使用k均值聚类算法完成对光谱数据的聚类,然后对聚类结果进行有效的分析。实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起,该方法可以应用到巡天数据的研究中。  相似文献   

5.
随着天文大数据不断积累,我国大天区多目标光纤光谱望远镜LAMOST已完成6年的大规模巡天观测,获得DR5数据集已达到900多万条光谱,其中含有观测比例较低的早型恒星光谱,具备重要的研究价值。利用准确的恒星分类模板库可提升恒星的分类精度与可靠性,由于LAMOST第一年的巡天光谱中并没有完整覆盖B型恒星包含的所有子类型,造成后续观测数据分类的子类型范围受限。依据LAMOST已发布DR5数据中B型恒星光谱为研究对象,选取ELODIE发布的B型恒星实测光谱模板库来检测LAMOST在用的分类光谱。首先完成ELODIE发布37条B型光谱模板的相关性分析,去掉相关性弱的三条光谱后,筛选出ELODIE 34条B型恒星实测模板作为中心,通过计算LAMOST DR5发布的绝大多数被标记为B6型(7 662条)和B9型(3 969条)实测光谱的马氏距离,经有监督聚类LAMOST早型恒星光谱数据,标记13个子类型在涵盖B2-B9子类的34条ELODIE光谱模板中的分布。经线性分析判别每条谱线子类型的类内距离,确保波长覆盖范围和分辨率与LAMOST数据完全一致,去掉距离数值偏差较大的数据,计算相应子类的平均谱线,得到LAMOST源于DR5观测数据早型B型恒星的13条子类型光谱分类模板,为后期完善模板提供较好的参考性。  相似文献   

6.
天体光谱处理中的一项基本任务是对大量的恒星光谱进行自动分类。到目前为止,恒星光谱的分类工作多是基于一维光谱数据。该研究打破传统的天体光谱数据处理流程,提出了基于二维恒星光谱分类的方法。在LAMOST(the large sky area multi-object fiber spectroscopic telescope)的数据处理流程中,所有的一维光谱都是由二维光谱抽谱、合并得来。二维光谱是由光谱仪产生的图像,包括蓝端图像和红端图像。基于LAMOST二维光谱数据,提出了特征融合卷积神经网络(FFCNN)分类模型,用于二维恒星光谱的分类。该模型是一个有监督的算法,通过两个CNN模型分别提取蓝端图像和红端图像的特征,然后将二者进行融合得到新的特征,再利用CNN对新特征进行分类。所使用的数据全部来源于LAMOST,我们在LMOST DR7中随机选择了一批源,然后获得了它们的二维光谱。一共有14 840根F,G和K型恒星的二维光谱用于FFCNN模型的训练,其中包括7 420根蓝端光谱和7 420根红端光谱。由于三类恒星光谱的数量并不均衡,在训练的过程中分别为每类恒星光谱设置了不同权重,防止模型出现分类失衡现象。同时,为了加快模型收敛,对二维光谱数据采用Z-score归一化处理。此外,为了充分利用所有样本,提高模型的可靠度,采用五折交叉验证的方法验证模型。3 710根二维光谱用作测试集,使用准确率、精确率、召回率和F1-score来对FFCNN模型的性能进行评价。实验结果显示,F,G和K型恒星的精确率分别达到87.6%,79.2%和88.5%,而且它们超过了一维光谱分类的结果。实验结果证明基于FFCNN的二维恒星光谱分类是一种有效的方法,它也为恒星光谱的处理提供了新的思路和方法。  相似文献   

7.
基于谱线特征匹配的恒星光谱自动识别方法   总被引:1,自引:0,他引:1  
我国正在实施的大型巡天项目(LAMOST项目),急需恒星光谱的自动识别系统。文章给出了一种基于谱线特征匹配的恒星光谱自动识别方法。该方法由以下主要步骤组成:(1) 利用小波变换的方法对观测光谱进行谱线特征提取;(2) 将提取出的特征和恒星谱线的特征模板进行相关匹配;(3) 根据相关匹配结果进行恒星光谱识别。通过对Sloan Digital Sky Survey (SDSS),Data Release Four (DR4)中的大量真实光谱数据实验表明,该方法具有对噪声鲁棒等特点,正确识别率高达96.7%。该方法可对相对定标的巡天光谱进行自动识别,符合LAMOST数据的要求,可为天文学家进行恒星和银河系的结构等研究提供帮助。  相似文献   

8.
随着获取和收集天文光谱大数据能力的与日俱增,合理利用计算科学技术正确地分析海量光谱的处理方法及结果统计。前述工作采用了欧氏距离分析判别LAMOST实测光谱与模板之间相似度的研究,研究恒星分类准确性取决于高质量的模板光谱,选取LAMOST光谱在用的分类软件中183个恒星模板光谱,分别利用欧氏距离和马氏距离方法得出A,F,G,K和M型恒星模板间的均值和最大值,完成每条谱线相互之间的相关性分析,找出相对距离较大的模板及形成原因。相似度度量可视化实验数据结果表明模板之间具有一定的区分度,通过马氏距离分析模板间相似性能更进一步辨识出相近模板之间的细微差别,具备较优良的判别效果,证实了LAMOST现有分类的各模板间距离较均匀,且分类结果较为准确。该研究可进一步优化在用光谱分类模板,提升LAMOST恒星分类模板库的精确度和可信度。  相似文献   

9.
在赫罗图中,M巨星位于红巨星的顶端,是由类太阳的主序星逐渐演化而成的最明亮的一类恒星。M巨星的研究对于理解银河系,特别是银河系晕的性质至关重要。中低分辨率的M巨星光谱,常因为特征不显著、噪声影响等因素而与M矮星的光谱混在一起,不易区分。现有研究一般利用CaH2+CaH3 vs. TiO5分子谱指数初步筛选M巨星光谱候选体,再通过人眼检查确认。但这种方法仅利用了三个巨星相关的分子带指数,没有利用识别M巨星的其他光谱特征,可能会由于噪声对指数的污染而导致分类错误。而且,人眼检查数量众多的光谱不仅耗时而且检查质量依赖于人的经验,可靠性无法得到保证。LAMOST望远镜自2011年开始先导巡天到2017年6月,已经发布了900多万天体的光谱,最新释放的光谱数据DR5包含了52万的M型星光谱数据,需要采用自动、准确、有效的方法来区分其中不同光度级的M子样本。本研究利用集成树模型分类M巨星和M矮星光谱,分别采用随机森林、GBDT、XGBoost和LightGBM算法,构建区分M巨星和M矮星的光度分类器。四种分类器的测试准确率分别达到97.23%,98%,98.05%和98.32%。实验表明LightGBM模型比其他三种集成树模型准确率更高,训练时间更少,分类效率更高。对分类器模型获取到的重要特征分析的结果表明,集成树算法有效提取并表达了用于区分M巨星和M矮星的结构性特征,模型提取到的重要特征不仅包括原子线或分子带吸收的波长位置,还包含了它们相邻的伪连续谱,这与传统上计算指数所需要特征波长和伪连续谱是一致的。相比于传统M巨星和M矮星分类方法,集成树模型能够采用光谱中的多个重要特征组合进行分类,避免仅依赖某一种特征易受噪声影响而得出错误的分类结果。研究结果表明集成树算法在巨星识别过程中具有显著优势,完全可以替代传统上只利用CaH和TiO指数的巨星光谱判别方法。基于集成树模型对M型星光谱的分类研究,为LAMOST高效、准确地处理海量天体光谱提供了有效的方法。随着LAMOST巡天项目不断开展,积累的M巨星和M矮星样本将为研究银河系的结构和演化提供重要的数据基础。  相似文献   

10.
大规模光谱巡天项目如LAMOST等产生了海量极具研究价值的观测数据,如何对此数量级的数据进行有效的分析是当前的一个研究热点。聚类算法是一类无监督的机器学习算法,可以在不依赖于领域知识的情况下对数据进行处理,发现其中的规律与结构。恒星光谱聚类是天文数据处理中一项非常重要的工作,主要对海量光谱巡天数据按照其物理及化学性质分类。针对LAMOST巡天中的早M型矮恒星的光谱数据,使用多种聚类算法如K-Means,Bisecting K-Means和OPTICS算法做了聚类分析,研究不同聚类算法在早M型恒星数据的表现。聚类算法在一定程度依赖于其使用的距离度量算法,同时研究了欧氏距离、曼哈顿距离、残差分布距离和上述三种聚类算法搭配下的表现。实验结果表明:(1)聚类算法可以很好地辅助分析早M型矮恒星的光谱数据,聚类产生的簇心数据和MK分类吻合得非常好。(2)三种不同聚类算法表现不尽相同,Bisecting K-Means在恒星光谱细分类方面更有优势。(3) 在聚类的同时也会产生一些数量较少的簇,从这些簇中可以发现一些稀有天体候选体,相对而言OPTICS适合用来寻找稀有天体候选体。  相似文献   

11.
恒星光谱数据的分类是天体光谱自动识别的最基本任务之一,光谱分类的研究能够为恒星的演化提供线索。随着科技的发展,天文数据也向大数据时代迈进,需要处理的恒星光谱数量越来越多,如何对其进行自动而精准地分类成为了天文学家要解决的难题之一。当前恒星光谱自动分类问题的解决方法相对较少,为此本文使用了一种基于卷积神经网络的方法对恒星光谱MK系统进行分类。该网络由数据输入层、四个卷积层、四个池化层、全连接层、输出层构成,与传统网络相比具有局部感知、参数共享等优点实验。在Python3.5的环境下编程,利用Tensorflow构建了一个简单高效的具有四个卷积层的卷积神经网络,并将Dropout作用于全连接层之后以防止过度拟合。Dropout的基本思想:当网络模型进行训练时,把一些神经网络节点按一定的比例丢弃,使其暂时不发挥作用。Dropout可以理解成是一种十分高效的神经网络模型平均方法,由于它不依赖于某些局部特征所以能够让网络模型更加鲁棒。实验中使用的一维恒星光谱图是取自LAMOST DR3数据库,首先进行预处理截取光谱3 600~7 300 Å的部分,均匀采样后使用min-max标准化法对其进行初始化。实验包括两部分:第一部分为依据恒星光谱MK系统对光谱进行分类,每一类的训练样本包含1 000条光谱数据,测试样本为400条光谱数据,首先通过训练样本对CNN网络进行训练,进行3 000次的迭代,用训练后的网络将测试样本进行分类以验证网络的准确性;第二部分为相邻两类的恒星光谱的分类,其中O型星数据集样本为250条光谱,其余类别恒星样本数据集均为4 000条光谱,将数据5等分,每次选取当中的一份当作测试集,其余部分当作训练集,采用5折交叉验证法求得模型准确率,用BP神经网络进行对比实验。选择对网络模型进行评估的指标包括精确率P、召回率R、F-score、准确率A。实验结果显示CNN在对六类恒星光谱进行分类时其准确率都在95%以上,在对相邻类别的恒星进行分类时,由于O型星样本量较少,所以得到的分类结果不太理想,对其余类别的恒星分类准确率都高于98%,以上结果都证明了CNN算法能够很好地解决恒星光谱的分类问题。  相似文献   

12.
基于谱线检测的发射线星自动识别方法   总被引:1,自引:0,他引:1  
刘中田  邱宽民  杨金福 《光学学报》2008,28(6):1101-1105
针对我国即将建成的大型巡天项目(LAMOST),给出了一种基于谱线检测的发射线星自动识别方法.主要步骤:1)通过获取谱线特征匹配值进行恒星谱线整体估计;2)利用提取出的恒星谱线特征检测恒星的巴耳末(Balmer)线;3)对获取的特征匹配值采用阈值法,并结合恒星Balmer线的检测结果,进行发射线里判别.通过对SDSS DR4所有光谱进行识别,共获得了242条具有恒星发射线的特殊天体.根据星表查询结果,这些天体包括发射线星、激变变星和一些未知特殊天体等.大量真实光谱数据实验表明,本文方法可有效识别发射线星.  相似文献   

13.
我国正在实施的大型巡天项目(LAMOST项目),急需恒星光谱自动识别与分类系统并给出了一种基于光谱特征的恒星自动识别方法。该方法由以下主要步骤组成: (1)利用谱线小波特征进行恒星谱线整体估计和恒星Balmer线的检测;(2)利用吸收带小波特征进行吸收带位置和M型星特征频率检测;(3)根据以上检测结果进行发射线星、M型星和早型恒星识别。通过对(sloan digital sky survey, SDSS)(data release four, DR4)中的大量真实光谱数据实验表明,方法具有对噪声鲁棒等特点,发射线星识别率达到97.5%,M型星识别率达到98.1%,早型恒星识别率达到96.8%,类星体和星系的误识别率低于2%。该方法可对相对定标的巡天光谱进行自动识别,符合LAMOST数据的要求。  相似文献   

14.
恒星光谱自动分类是研究恒星光谱的基础内容,快速、准确自动识别、分类恒星光谱可提高搜寻特殊天体速度,对天文学研究有重大意义。目前我国大型巡天项目LAMOST每年发布数百万条光谱数据,对海量恒星光谱进行快速、准确自动识别与分类研究已成为天文学大数据分析与处理领域的研究热点之一。针对恒星光谱自动分类问题,提出一种基于卷积神经网络(CNN)的K和F型恒星光谱分类方法,并与支持向量机(SVM)、误差反向传播算法(BP)对比,采用交叉验证方法验证分类器性能。与传统方法相比CNN具有权值共享,减少模型学习参数;可直接对训练数据自动进行特征提取等优点。实验采用Tensorflow深度学习框架,Python3.5编程环境。K和F恒星光谱数据集采用国家天文台提供的LAMOST DR3数据。截取每条光谱波长范围为3 500~7 500 部分,对光谱均匀采样生成数据集样本,采用min-max归一化方法对数据集样本进行归一化处理。CNN结构包括:输入层,卷积层C1,池化层S1,卷积层C2,池化层S2,卷积层C3,池化层S3,全连接层,输出层。输入层为一批K和F型恒星光谱相同的3 700个波长点处流量值。C1层设有10个大小为1×3步长为1的卷积核。S1层采用最大池化方法,采样窗口大小为1×2,无重叠采样,生成10张特征图,与C1层特征图数量相同,大小为C1层特征图的二分之一。C2层设有20个大小为1×2步长为1的卷积核,输出20张特征图。S2层对C2层20张特征图下采样输出20张特征图。C3层设有30个大小为1×3步长为1的卷积核,输出30张特征图。S3层对C3层30张特征图下采样输出30张特征图。全连接层神经元个数设置为50,每个神经元都与S3层的所有神经元连接。输出层神经元个数设置为2,输出分类结果。卷积层激活函数采用ReLU函数,输出层激活函数采用softmax函数。对比算法SVM类型为C-SVC,核函数采用径向基函数,BP算法设有3个隐藏层,每个隐藏层设有20,40和20个神经元。数据集分为训练数据和测试数据,将训练数据的40%,60%,80%和100%作为5个训练集,测试数据作为测试集。分别将5个训练集放入模型中训练,共迭代8 000次,每次训练好的模型用测试集进行验证。对比实验采用100%的训练数据作为训练集,测试数据作为测试集。采用精确率、召回率、F-score、准确率四个评价指标评价模型性能,对实验结果进行详细分析。分析结果表明CNN算法可对K和F型恒星光谱快速自动分类和筛选,训练集数据量越大,模型泛化能力越强,分类准确率越高。对比实验结果表明采用CNN算法对K和F型恒星光谱自动分类较传统机器学习SVM和BP算法自动分类准确率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号