设为首页   加入收藏
技术交流

监测数据过滤存贮技术研究
(2016-07-22)
■ 编著 深圳市科立讯数据技术有限公司 项建鹏 朱晓统

0 前言

无线电监测站的日常监测工作产生了海量的监测数据。以2.5GHz/s@25kHz的扫描速度计算,当监测站工作时,产生数据的速度为200KBps,理论上每小时将产生720MB原始测量数据;在实际测量中,因设备性能、扫描参数的差异,每小时可产生约100MB~1GB的原始数据。考虑到每个无线电管理机构一般配备有包括固定站、移动站、小型站以及网格化监测结点在内的多套监测设备,当所有设备都执行监测任务并进行数据存贮时,对于一个管理机构而言,每天可以产生100GB数量级的监测数据。如果从全国无线电管理的角度看,这个数据量将更加惊人。

海量的监测数据为无线电管理科学决策提供了可靠依据,其作用是毋庸置疑的,但海量数据的产生也增加了无线电日常管理工作的复杂度。在存贮的数据中,除管理所需的业务信息外,还包含有很大比例的冗余数据,冗余的数据不仅挤占存贮空间,导致存贮成本的上升,而且因为冗余的存在,导致有效信息被掩藏,增大了数据进一步加工利用的难度,进而制约无线电管理工作的进一步发展。

本文从数据统计的角度对监测数据进行分析,设计动态提取监测数据特征算法,在不影响监测数据利用的前提下,通过监测数据特征对监测数据进行过滤,实现对监测数据的大幅度压缩。

 

1 频率监测数据特征分析

为分析监测数据特征,我们首先分析一段稳定的信号。从实际监测数据中,抽取一段的广播信号电平数据,数据波形显示如图1所示。

即使稳定的信号,监测结果也不可能是一条稳定的直线,具体到每一个数据点,都有一个独特的数据值,很难再做进一步的处理,我们从统计的角度对数据进行整体分析。

该数据包包含1495个监测数据样本,分布于9.80~31.20区间内,数据分布见图2所示。数据平均值μ=24.52,均方差σ=2.27,在[μ-σ,μ+σ]区间内的样本数为1057点,占70.70%,在[μ-2σ,μ+2σ],的样本数为1433点,占95.85%,在[μ-3σ,μ+3σ]区间内的样本数为1484点,占99.26%,上述分布情况符合标准正态分布特征,可以认为该数据总体符合正态分布规律。

一组监测数据符合正态分布,意味着我们只需要提取两个统计参数(均值μ、均方差σ),就可以描述这一组离散数据的总体统计特征。

对偶发信号,监测数据的分布又有什么样的规律呢?我们选取一段对讲机频率监测数据进行分析。数据波形如图3所示。

经数据分析,对于偶发信号的监测结果,可以分解为不同的数据段(如图4),当数据段内数据点足够多时,其数据的分布仍然符合正态分布规律。

通过上述统计分析,一段监测结果数据可以被分解为若干段,每一段内包括一组数据,该组数据符合正态分布规律。基于此前提,本文进行数据过滤算法的设计。

 

2 动态提取监测数据的特征

对于一组已知数据,通过数学定义可以很容易地计算出其统计特征:平均值、均方差等。而在监测过程中,需要动态计算数据的特征值,预测下一数据的合理范围,并根据下一组数据的实测结果对计算出的特征值进行动态修正。

监测数据的统计特征并不一成不变,引起统计特征变化的原因有多种:信号的工作状态发生变化、环境变化影响信号测量结果扰动,等等。

当信号的工作状态发生变化时,测量结果会发生跃变,数据变化量远远超出之前数据的分布区间,而数据跃变过程持续期间,数据的分布将不再遵循正态分布规律,这类数据点本文称为信号跃变点。当监测到信号跃变点时,对此类数据点独立记录,不按数据特征统计方式记录处理。

另一种情况是统计特征变化,如数据平均值或均方差发生了超出预期范围的变化,在此情况下,需要对特征进行修正。这类变化点本文称之为特征漂移点。

依据上述原理,在实时测量数据中通过动态加权计算,对信号跳跃点、特征漂移点进行识别,监测结果数据相应地动态划分为不同的数据段。图5是监测数据分段识别结果,其中红色表示信号跳跃点,黄色表示特征漂移点。

3 基于数据特征的数据存贮

动态划分数据段后,每一数据段都有其相应的数据统计特征。在统计精度满足需求的条件下,我们可以通过记录一段数据的统计特征,来代替记录其中每一个数据点的具体值,从而实现对监测冗余数据的过滤。图6是监测数据特征信息图,其中蓝线表示数据均值,紫线表示数据波动范围。

数据的记录形式也相应发生变化,原始数据的逐点记录,将相应调整为分段记录,采用索引加值的方式对关键点信息进行记录,过滤冗余数据点,可大幅度降低数据的实际存贮量。如图7所示,原始数据经过滤后,只保留少量的特征值。

表1是对四类信号测量记录进行过滤处理的统计结果,结果表明,本算法在不同情况下可对监测冗余数据进行有效过滤,根据信号的具体不同情况,可以过滤一到两个数据量级的冗余数据。

在实际监测工作中,数据库中存贮更多的是频段扫描数据,扫描结果可以看作是多个频点的测量结果的集合,通过数据分析发现,针对每一频点的测量结果仍然符合单频点测量结果数据分布规律,因此我们可以依据上述过滤方法逐频点对数据结果进行过滤处理。原始扫描数据可以看作是频率为横坐标、帧为纵坐标的数据矩阵,过滤后的数据是稀疏矩阵,对稀疏矩阵的编码压缩处理过程是常规算法,本文不作赘述。

 

4 数据验证

数据回放时,依据数据特征值按正态分布概率产生随机数据,回放结果并不与原始数据完全一致,但在一定精度条件下,产生的结果在可以接受的范围内。图8是回放数据与原始数据的比较情况,其中绿线是原始数据,红线是回放数据。

信号类型 数据记录 数据统计 冗余数据过滤比例
广播信号97.1MHz(带宽0.3kHZ) 总测量点数:1495
信号跳跃点:4
特征漂移点:16
冗余数据点:1475
98.7%
广播信号104.3MHz(带宽120kHZ) 总测量点数:1101
信号跳跃点:2
特征漂移点:13
冗余数据点:1086
98.6%
对讲机频段146.0MHZ(信号) 总测量点数:2013
信号跳跃点:130
特征漂移点:102
冗余数据点:1781
88.5%
对讲机频段146.0MHZ(噪声) 总测量点数:965
信号跳跃点:2
特征漂移点:14
冗余数据点:949
98.3%

对原始数据和回放数据按不同的电平区间统计,从统计结果的对比效果看,回放数据与原始数据的分布情况匹配良好,再次验证本数据过滤方法可行。分布统计比较情况如图9所示。

对频率扫描数据的过滤存贮结果的回放分析,其波形、数据分布的比较情况与单频点数据比较结果一致。

 

5 结论

采用数据过滤技术通过提取监测数据特征,过滤冗余数据,可以有效降低监测数据库的存贮数据量,通过存贮的特征数据能够有效表现原始监测结果。

在本算法处理过程中,并不保存每一帧的实际数据,当前帧的数据需要通过上一帧数据进行计算才能得到,因此在进行数据回放时,很难实现对数据的快进、快退、定位等处理。在实际应用中,可以通过在一定的时间点插入完整数据帧的方式,改善数据回放效果。

本文所描述的数据过滤技术是从监测业务的角度对冗余数据进行过滤,并不涉及优化存贮,因此过滤后的数据仍然可采用通用压缩算法进行压缩处理,进一步减小数据的存贮容量。

(摘自 中国无线电)

 

版权所有:深圳市科立讯数据技术有限公司 电话:0755-88306255 传真:0755-88306253 邮箱:info@kirisun.net.cn
信息产业部备案号:粤ICP备14067915号