第2 7 卷, 第7 期 光 谱 学 与 光 谱 分 析 Vol27, No7, pp14481 451
2 0 0 7 年 7 月 Spectro sco py and Spectral Analy sis July , 2007
巡天光谱分类前的预处理 流量标准化
李乡儒
1, 2
, 刘中田
1, 2
, 胡占义
1
, 吴福朝
1
, 赵永恒
2
1 中国科学院自动化所模式识别实验室, 北京 100080
2 中国科学院国家天文台, 北京 100012
摘要由于噪声 畸变 观测环境和观测设备 以及流 量未定标等因素的影响, 对天体光谱进行自动识别
之前, 需要对它进行相应的标准化 预处理 文章 研究了对巡天光谱自动分 类前的预处 理 光谱流量 的标
准化问题通过分析光谱流量的干扰因素及其特点, 提出了流量数量级变化的基本模型, 并给出了相应的流
量标准化方法通过对正常星系和类星体的分类实验, 表明文章所给基本模型的正确性, 以及所给流量标准
化方法良好的性能并且从理论上分析 比较 解释了上 述方法在性能上的差 异 特别需要指出的是, 研究
表明文献中通常采用的流量标准化方法的效果较差该研究结 果对于大型 光谱巡 天所产 生的海 量数据 的其
它自动处理研究( 例如, 红移测量, 天体表面有效 温度, 和化学丰度估计等) 也具有重要的指导意义
关键词光谱分类流量模型 流量标准化 预处理类星体主成分分析
中图分类号T N9117 文献标识码A 文章编号10000593( 2007) 07144804
收稿日期 20051206, 修订日期 20060316
基金项目 国家 863 项目计划( 2003 AA133060) 和国家自然科学基金项目( 60202013) 资助
作者简介 李乡儒, 1972 年生, 中国科学院自动化研究所国家模式识别实验室在读博士研究生
通讯联系人 email h uzy nlp r iaaccn
引 言
随着天文观测技术的进步 数据获取 能力的提 高和大型
光谱巡天计划的相继实施( 如 SDSS
1
计划, 2dF 计划和
LA M O ST 项目等) , 光谱数据的自动处理越来越受到重视和
关注, 例如, Co nnoliy
2
和 Galaz
3
分别采用主分量分析对红
移值已知的星系光谱进行自动分类, 覃 冬梅
4
采用主成分分
析和最近邻方法研究了恒星的光谱型自动分类最近, 刘中
田
5
李乡儒
6
等研究了未知红移天体的自动分类, 许馨
7
等研究了天体红移的自动测量, 张健楠
810
等研究了恒星大
气基本物理参量( 表面 有效 温度 表面重力加速度 化学丰
度) 的自动估计
由于噪声和畸变的影响, 对天体光谱进行自动识别之
前, 需要对它进行相应的预处理, 以抑 制与自 动处理 或分析
任务无关的信息, 例如, 去噪 校正 流量标准化, 连续谱归
一化 剔 除离群 点 去掉天光线, 以及特征提取等噪声和
畸变可能有多种原因光学透镜 的残次 光电传感器的非线
性 不当的焦距 以及 大气 的扰 动( 不均衡 不 稳 定) 等 等
通过特征提取和特征选择能够去除或减少与当前的分类任务
无关的冗余信息, 这不仅能减少 问题的 复杂性, 提高 处理效
率, 还能极大地简化分类器的设计
11
预处理的目的是改善
光谱数据, 抑制不需要的变形或增强某些对于后续自动处理
重要的光谱特征因此, 预处理在很多情况下是非常必要
的
本文研究了巡天光谱进行自动分类前的预处理 光谱
流量标准化问题由于天 气状况 月光 亮度 星等 积分 时
间等因素的影响, 连续谱会发生畸变, 导 致不同 观测的 光谱
流量数量级会有差异, 这增加了自动分类的难度 复杂 性和
准确性目前, 在巡天 光谱自 动分类研 究中, 常用 的标准 化
方法是流量归一化
12
( 在 12 节将做具体介绍) 但是本文研
究表明, 该标准化方法的效果较差
下一节, 我们通过分析光谱数据的特点提出了流量标准
化方法的基本思想, 并给出了五种不同的流量标准化方法
在第二节, 介绍了本文中使用的实验方法和实验数据, 并通
过实验研究了光谱流量标准化的必要性和不同标准化方法的
性能最后, 我们结合实验结果 从理论上 分析了 所给标 准化
方法的特点 抗噪能力方面的差异
1 基本思想与方法
11 天体光谱的特点分析
天体光谱是天体辐射的一种描述绝大多数天体都有辐
射, 其表现形式有连续辐射和谱线辐射之分连续辐射 指的