重大突破

紫金山天文台利用机器学习实现“大海捞针”:从5亿个疑似信号中找到81个快速射电暴候选体

  快速射电暴是近几年最受关注的天文现象之一。自Duncan Lorimer等人于2007年在帕克斯(Parkes)64米射电望远镜的数据库中发现第一个快速射电暴以来(Lorimer et al. 2007, Science),全球诸多射电望远镜纷纷开展对这类新现象的观测,如今快速射电暴的观测样本数量已达到数百例。 

  中国科学院紫金山天文台高能时域天文研究团组最近几年开展快速射电暴研究,已经完成的主要工作之一是利用帕克斯望远镜的观测数据构建了一个完整的单脉冲数据库(Zhang et al. 2020, ApJS)。该数据库内包含了快速射电暴标准搜寻方法所寻找出的5.6亿个信噪比大于7的单脉冲疑似信号。 

  常用的筛选方法无法对全部的疑似信号进行区分,只能进一步缩小信号的数目,再在较少的样本中通过人眼挑选可信的信号,费时费力。中澳天文联合研究中心ACAMAR博士后张松波及其所在的紫台高能时域天文团组博士研究生杨轩、孙天瑞等人引入机器学习算法,训练残差神经网络对所有信号进行图像识别,开发出了一套能对所有候选体信号进行统一、高效的筛选机制,并将之应用到了基于帕克斯望远镜数据构建的单脉冲数据库中。结合模拟信号的结果,利用这一方法最终成功找到81例新的快速射电暴候选体(Yang et al. 2021, MNRAS),其空间分布见图1。这些候选体的色散量都超出了银河系的贡献大小,且在帕克斯望远镜的多波束观测中只被其中一个波束探测到,表明它们来自地面射电干扰的可能性很小。进一步将此81个候选体和当前已发表的快速射电暴样本进行辐射能量、脉冲宽度的累积分布进行对比(见图2),统计结果显示两个样本在长尾端的幂律分布指数非常接近,说明着新发现的81个候选体和已有的快速射电暴样本在统计行为上是一致的。同时,辐射能量分布表明新候选体在低能端的事件数目高于已知快速射电暴,意味着以往的快速射电暴样本在低能端可能是不完备的。这一发现说明以往的搜寻方法还存在不足,可能有非常多信号稍暗弱的快速射电暴被遗漏。这对从观测角度严格判定射电信号是否为快速射电暴提出了挑战。此外,这些新发现的候选体也将为搜索更大样本的重复暴提供了比较有价值的预选目标。 

  射电观测采集数据量日益巨大,帕克斯望远镜的上一代多波束接收机4年的观测数据产生了上亿个单脉冲信号。如今正在建设更多、更大的新的射电望远镜,中国500米口径球面射电望远镜(FAST)、澳大利亚平方公里阵探路者望远镜(ASKAP),以及正在建设中的平方公里阵列望远镜(SKA)都正在或即将展现更高的灵敏度,同时也将带来更为惊人的数据量。例如,SKA未来正常运行一天的观测数据量甚至可以达到PB量级,将无法对原始的观测数据进行长时间的存储,这也将对信号的筛选方法提出极高的要求。本工作结合单脉冲数据库的大数据管理,以及机器学习的筛选机制,开发了一套对大量的观测数据进行统一高效处理的方法。该方法展示了数据库存储结合机器学习解决方案的可行性,将为未来射电观测领域在大数据时代提供新的思路。 

  以上工作近期在英国《皇家天文学会月刊》(MNRAS)上在线发表,这是紫金山天文台与中国科学技术大学、上海交通大学、贵州师范学院,以及澳大利亚联邦科学与工业研究组织、西悉尼大学、西澳大学等开展中澳合作项目的研究成果,第一作者为杨轩,通讯作者是张松波和吴雪峰。此项工作得到了中澳合作项目ACAMAR博士后计划,以及国家自然科学基金委杰出青年项目和FAST专项项目等基金资助。 

  论文链接:https://doi.org/10.1093/mnras/stab2275 

  

 

图1:银道坐标系下帕克斯望远镜观测天区的空间分布图。橙色星号展示了81个快速射电暴候选体的分布,灰色阴影区域展示了1997至2001年望远镜的观测区域。5个紫色星号则是帕克斯望远镜早先已经公开发表的在2001年探测到的快速射电暴(包括Lorimer等人发现的第一个快速射电暴)。 

  

 

图2:快速射电暴候选体(本工作)与中心频率在1.3 GHz附近探测到的快速射电暴现有样本在各向同性辐射能量和脉冲宽度累积分布方面的比较。分布长尾端用幂律分布的虚线进行了拟合。垂直虚线表示能量和宽度的幂律拐折处。 

版权所有 © 中国科学院南京分院 苏ICP备05004321号
网站标识码:bm48000014 京公网安备110402500047号
地  址:南京市北京东路39号 邮政编码:210008
联系电话:025-83367159 电子邮箱:office@njbas.ac.cn

南京分院
微信公众号