问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Astronomaly算法揭秘400万张星系图之谜

创作时间:
2025-01-22 05:34:02
作者:
@小白创作中心

Astronomaly算法揭秘400万张星系图之谜

在浩瀚的宇宙中,星系的异常现象隐藏着宇宙起源和演化的关键线索。然而,随着天文观测技术的飞速发展,每天产生的数据量已经远远超出了人类分析的能力范围。面对这一挑战,天文学家们开始将目光投向人工智能,而Astronomaly算法正是其中的佼佼者。

01

什么是Astronomaly算法?

Astronomaly算法是一种基于卷积神经网络(CNN)的无监督机器学习算法,专门用于识别星系图像中的异常现象。它能够从海量的天文数据中自动筛选出有价值的异常信息,帮助科学家们更高效地探索宇宙的奥秘。

02

技术原理:如何从400万张图像中找到异常?

Astronomaly算法的工作流程可以分为以下几个步骤:

1. 数据预处理

首先,算法会对原始的星系图像数据进行预处理,去除那些被伪迹和恒星遮盖的图像,同时排除与标准星系模型不符的图像。例如,在处理暗能量巡天相机(DECaLS)的第八批公开数据(DR8)时,研究人员从原始数据中筛选出了3,884,404张高质量的星系图像。

2. 特征提取

接下来,算法会使用预训练的卷积神经网络(CNN)对图像进行特征提取。CNN能够自动学习图像中的重要特征,生成一个可以代表图像特征的向量。在这个过程中,CNN的每一层都会对输入图像进行不同的变换,最终输出一个包含1,280个图像特征的向量。

为了提高计算效率,研究人员还会使用主成分分析(PCA)进一步降低数据维度。PCA是一种常用的统计方法,能够基于数据的方差将一组相关的变量转换为不相关的主成分。通过PCA,图像的维度可以进一步降低至26,从而提高算法的处理效率。

3. 异常监测

在特征提取完成后,Astronomaly算法会结合孤立森林(iForest)和局部离群因子(LOF)算法进行异常检测。iForest算法能够通过决策树迅速找到图像中的异常,而LOF算法则更适合小规模数据集的异常检测。在实际应用中,研究人员通常会选择iForest算法,因为它在大规模数据集上的表现更优。

4. 主动学习

为了进一步提高异常检测的准确性,Astronomaly算法还会通过主动学习不断优化异常评分。具体来说,算法会使用K-近邻(NS)和直接回归(DR)两种方法进行主动学习。NS算法可以基于少量人工标注的评分,通过随机森林回归算法预测用户对所有图像的评分。而DR算法则会直接尝试“模拟”用户对图像的评分。最终,两种算法的评分结果将与人工标注的数据进行对比评估。

03

实际应用:从400万张星系图像中发现的惊喜

2021年,西开普大学的研究人员首次将Astronomaly算法应用于大规模的星系图像分析。他们使用该算法对约400万张星系图像进行了分析,成功发现了之前被忽视的异常现象。

在实验过程中,研究人员发现iForest算法虽然能够快速检测异常,但很容易将技术性伪迹误判为异常。而通过主动学习,NS和DR算法能够帮助Astronomaly算法有效排除这些干扰,更准确地识别出真正的异常现象,如引力透镜和星系融合等。

04

未来展望:开启天文学研究的新篇章

随着薇拉·鲁宾天文台等新一代天文设备的投入使用,天文数据的产生速度将呈指数级增长。预计每晚将产生20TB的数据,十年间累计将达到60PB,涉及约200亿个星系的32万亿次观测。面对如此庞大的数据量,传统的数据分析方法已经显得力不从心。

Astronomaly算法的出现,为天文学家提供了一个强大的工具。它不仅能够帮助科学家们更高效地处理海量数据,还能发现那些可能被忽视的重要异常现象。未来,随着算法的不断优化和改进,我们有理由相信,Astronomaly将在揭示宇宙奥秘的道路上发挥越来越重要的作用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号