一种基于内容过滤的应用协议筛选及匹配方法

著录项
  • CN201911147423.5
  • 20191121
  • CN112825518A
  • 20210521
  • 湖北省电力勘测设计院有限公司;北京创铭科技有限公司
  • 李妮;李梦琳;沈巍;陈璞;康慨;马国柱;赵婷;孙勇;王欢
  • H04L29/06
  • H04L29/06 H04L29/12

  • 湖北省武汉市东西湖区新桥四路1号
  • 湖北(42)
  • 北京方安思达知识产权代理有限公司
  • 陈琳琳;武玥
摘要
本发明涉及一种基于内容过滤的应用协议筛选及匹配方法研究,属于电力数据交换传输类技术创新领域。传统电力交换网由于接口、系统处理能力的限制,引入IMS技术改变了B2B的交互模式,解决了电力交换网业务多媒体拓展的发展瓶颈。为了更好的满足电网在安全、高效、未来业务承载方面的特殊性需求,本发明提出了基于IMS能力开放业务接入架构,部署鉴权、防火墙等手段加强内外网业务的接入安全性,并通过业务协议类型的匹配、协议重组及核聚类协议过滤等流程,减少交换业务处理量。本发明从IMS电网业务开发架构、协议处理、接口转换等方面都提出了创新性的技术内容,并对电网建设提供具有技术实践价值的依据。
权利要求

1.一种基于内容过滤的应用协议筛选及匹配方法,其特征在于,协议匹配是在基于IMS业务能力开放的接入平台中去实施处理,此平台包括内外网业务系统、内外网业务接入安全平台、能力开放处理平台、IMS核心网及业务接入终端及SIP终端等核心设备,每个环节的设备都能担当起部分责任;电网业务根据安全级别把业务分为内网和外网,外网业务接入时应经过级别跟高的安全审核,本发明部署了外网安全网关,网关集成了防火墙、业务认证、合法性认证等业务门限设置,确保内网和外网业务接入平台的安全性和合法性;业务过滤/匹配、接口对接等处理过程统一安排在能力开放处理平台中实现,它是整个系统的核心点和创新点;每个业务系统都会基于各自协议规范编制数据串,多种类型的数据串混合处理则给处理系统增加了大量的重复工作量,这种模式和传统B2B处理模式类似,并未在效率上进行提升;因此,本发明提出了对业务进行IPv6地址初步识别,再利用协议匹配完成深度识别,可将同一类型业务按序归类,并将冗余及干扰的噪声数据直接删除,对业务数据大大瘦身:通过终端IP地址与应所属业务系统的IP主地址匹配实现逻辑位置的大致划分;通过协议特征值的排序重组,实现业务大类的划分;通过协议全报文内容聚类划分,将偷进组内的协议数据或伪造的数据进行甄别,并快速删除,形成新的数据序列,统一转换成IMS网络可识别的SIP数据协议;通过开放的API接口和灵活的SDK程控包对业务接口进行转换,实现下一步的业务数据处理和调用;开放的IMS电网业务接入平台,其中:

所述的能力开放平台,是在传统IMS基础网络上,增加了多业务处理的能力;基础IMS网络主要依靠SIP协议的开放能力,SIP协议没有对网络封装的能力,但由于与IMS核心网协议一致,因此能够进行细颗粒度的业务开发,这种不适合多业务并行接入的快速接入,因此本文提出采取SDK接口封装的模式,实现应用协议与服务数据的汇聚和融合处理;能力开放平台可以分为2个层面:业务能力层和业务控制层,业务能力层主要汇聚IMS核心网络能力,与IMS核心网络进行消息交互;业务控制层主要负责开发者、能力资源、能力签约等管理,网络协议适配,接入安全认证,消息鉴权认证等,并提供简单易用的北向接口API供第三方业务调用;业务控制层是能力开放平台的核心,主要包括能力开放模块和管理模块;能力开放模块是实现IMS核心网络能力封装的能力网关,提供开放API接口供能力调用接入,以更好地支撑业务能力开放;主要包括:业务接入模块、网络协议适配模块和企业服务总线模块;IMS核心网络能力通过协议适配模块进行协议转换后接入到服务总线进行消息的处理和流转;而对于IT能力和互联网能力通常采用SOAP/HTTP类接口,可以直接接入到服务总线中进行处理。

2.根据权利要求1所述基于IPv6地址协议匹配解决方案,IPv6地址数量可为所有终端分配独有地址,数据再交换及传输路径中可辨识度高,实现端到端的直控;通过协议包头压缩、分片包装等流程将数据格式符合IMS交换网络中通信协议的格式要求,在各层实现地址的适配,最终在网络层通过路由路径算法寻到对应的系统IPv6主地址,在地址逻辑层面实现了数据的归属化处理过程。

3.根据权利要求1所述的业务协议过滤方法,本发明提出了一种基于核聚类的协议过滤算法,此协议以软件形式集成在能力开放功能模块中;从内外网会并行收集大量不同应用系统中的业务服务,对这些业务数据应按照一定的服务顺序或类别进行排序,为IMS核心网提供业务调用的便捷;核聚类过滤方法是考虑到每类应用业务都是基于不同的应用协议格式进行数据编译,但在接入过程中会引入大量的噪声数据或伪数据,聚类过滤可将干扰数据检验出并删除;制定过滤规则,使系统可自动检查出不符合的数据协议。

4.根据权利要求1所述业务协议重组识别方法,本发明提出了一种基于内容核聚类的分类算法;通过起始提取业务协同协议的关键字作为内容匹配参考值,终端侧利用高斯核函数作为数据主特征提取的算法,迭代计算数据关键词;将两者进行对比,凡关键字内容相似度较高的数据归属为一类,这样在IMS交换区内就将终端侧和业务侧的数据进行了深度的逻辑上区分和匹配;IMS系统是一个业务融合系统,它在接入和核心主站之间的一个承载平台;因此采集的数据是无序混杂的,但主站分析数据时希望数据尽量的和业务需求对应起来,对IMS在数据融合传输的过程中能够将数据分类处理;业务数据一般都赋予了应用系统协议规范的束缚,数据可根据协议特点划分类型;将IMS所接入的业务系统协议提取核心关键字,抽象出核元素作为参考值,当从异构终端接入的数据进行预处理过程后,将数据集合关键字和业务协议的关键字进行配对,以“投框”的方式将数据依次按“内容”放入缓存器中,当业务需要提取时,可快速在对应的缓存器中到所需数据;本专利提出的算法,一方面保持了IMS网络的数据融合性;另一方面提升了数据处理的有序高效性,打破了IMS数据融合处理过程中产生的数据不准、数据调控时间较长等问题。

5.根据权利要求1所述SDK统一接口转换方法,本发明提出了一种基于SDK接口封装的模式支撑IMS开放能力的实现;业务接口是业务主站和IMS输出接口之间的对接接口,IMS中数据经过权利要求4中设计的协议适配后将数据协议转统一转换成SIP协议,但输出接口为了满足与业务协同数据协议的对接,应开发不同的接口引擎程序,这对接口系统扩容增加了负担;采用SDK接口控件方式可屏蔽IMS核心网底层的复杂SIP协议,把IMS中各种业务能力封装成程序包,从而满足开发者的基础开发要求;此种模式下,业务通过SDK控件直接与IMS核心网交互,由于其交互模式已经由SDK控件限制,所以网络的安全性和稳定性由网络维护方和控件开发方共同维护;SDK方式的接口基于web服务的HTTP标准操作方法,平台无关,语意可以自解释,方法简单,其“无状态”特性,使得业务系统不需要缓存和理解上下文,限制更少更简单;另外,每个请求传输的净荷大,数据传输高效,能同时满足大量请求的接入。

说明书
技术领域

本发明涉及一种基于内容过滤的应用协议筛选及匹配方法,属于电力数据交换传输类技术创新领域。

目前,电网IMS交换网络建设已经进入深化应用阶段,从理论技术选择到初步设计,再到规模建设,经过漫长的技术探讨和应用调研,电网IMS建设在具备运营商常规业务交换的需求下,还应结合了电网电力业务的特需求,满足数据安全和高效的问题。IMS网络仅仅的将电网业务系统和离散的数据终端系统紧密的结合了起来,并通过SIP协议屏蔽了融合数据协议的差异性,可利用统一的控制语言对异构数据进行管控,将交换和控制深度融合。数据及流程物理融合虽然给客户带来了便捷,但是也对数据逻辑关联处理过程提出了挑战,数据完全融合必然是会引入数间的串扰及无法计算出业务化的决策结论,通常是通过逻辑数据划分来实现物理层面的独立。加之在泛在电力物联网应用场景中会引入更多的传感类、监控类数据业务,这些业务都具备量大且窄带的特点,多通道离散数据同时汇聚到IMS平台上,对平台的数据识别能力也提出了更高的要求。IMS作为一个混合的数据承载平台,要从各方面将数据功能分开,应引入系列的数据分类处理技术支撑数据的隔离能力。因此在常规的技术基础上引入了虚拟化技术、数据快速处理技术、统一接口等先进技术,大力提升了IMS交换业务过程的特。本专利设计了一种针对协议过滤分类的快速业务数据逻辑分类的方式,并通过SDK接口程控包的开发来解决硬件接口异构性问题。在数据接入端按照数据抽取的关键字与业务系统协议内容进行快速匹配,形成逻辑上有序的传输和存储;在数据出口处,借助接口逻辑引擎到对应的业务系统,实现了从上至下的数据逻辑面的一次性,达到融汇贯通的水平。

本发明设计了一种基于内容过滤的应用协议筛选及匹配方法,利用业务协议架构及格式不一致特性寻数据分类点,一方面对干扰的坏数据进行了冗余去除,另一方面能加速数据匹配的速率和效率。应用协议的筛选与匹配过程提出了两个创新点,基于内容协议的匹配和基于SDK统一接口模型的设计。交换的数据依靠协议和接口来定制自我的格式和方向,因此依据以上两个方法基本可以解决数据分类及应用匹配问题。

目前在数据匹配方面已经开展了很多技术研究及实验验证,例如支持向量机的二分类算法,这类算法在线性数据分类方面性能较好,在高维度或者非线性数据集分类应用则较困难;随机梯度分类法,虽然算法简单,计算效率高,但面对大量并行计算场景时,对梯度参考系数的评估准确度会降低,从而会影响到整个系统的计算鲁棒性;矩阵分解法类似于分裂树算法,每层级算法可变换,增加了数据分类的复杂性和时效性。因此最好的分类方式依然为聚类算法,聚类算法面对线性和非线性,复杂程序及简单程序等场景都能适用,可根据不同的应用需求选择不同的子算法,例如基于密度聚类、基于距离聚类的等等,而本应用中是要分离协议,协议与业务内容有关,协议的包头一般包含了数据业务所描述的基本领域及内容,因此本文选择基于内容的聚类分析算法。本方法的基本架构部署如下所描述:

IMS协议的匹配过程具体包括4个子模块:①业务系统信息关键字及IP主地址设置模块;②基于IPv6地址数据初步适配模块;③基于内容的核聚类算法数据深度适配模块;④基于web服务+SDK接口统一转换对接模块。

电力行政交换网上承载了电力信息内网、办公外网、变电站IP电话等业务,在泛在电力物联网的建设推动下,将来会增加更多例如互联网、广电网络等外部业务集成到交换平台上,为了使得交换平台能够清楚识别出业务系统和数据的归属性,提前将允许接入系统的业务平台数据特征进行设定,例如视频会议可设定为video,外网可设定为Intenet,广电网络可设定为PSTN等,并将提取的关键字按照顺序排列,将关键字和编号发于IMS系统,系统根据此内容对业务系统设置IP主号,便于系统识别。当有新业务系统接入时,可通过增加关键字和配置IP号的方式随时加入平台,提升了平台的扩展性。

在IMS平台的另外一侧面对的是泛在的电力系统业务终端,终端主要以零散部署、单带宽较小、通道数多、并发量大等特征为主。IMS平台希望能实现端到端的设备和业务的管控模式,因此选择地址编码技术作为支撑。IPv4或者可靠链路的方式均可满足少量终端接入的需求,在面对终端剧增的情况下会束手无策,因此考虑利用下一代地址技术IPv6网络路由地址系统直接部署到网络末端的每个终端上,为每个终端分配独一的地址。但问题随之出现,业务终端一般采用无线或者载波的方式接入,但IPv6网络分片规格并不满足这类通信方式的数据包大小要求,并且多终端同时上传会存在碰撞问题,本发明设计的地址识别方法可解决IPv6地址融合过程产生的问题。IPv6地址规划在网络层实现,IPv6传输数据包字节数较大1280字节,这个字节数比无线专网和载波通信的数据包要大很多,采取报文规格分片形式实现数据链路通信块分包传输,为每个业务分配独立的路径快速安全,同时考虑通信信号强度和路由跳级数进行数据包分片,将数据在数据链路层结束后就实现划分使得数据格式符合IPv6数据包传输格式要求。在网络层和MAC层之间增加部署了IPv6适配层,按需对IPv6数据包分片,形成适应网路数据传输的格式要求。适配层中完成数据地址管理、分片包装、包头压缩、路由路径设置等过程。并通过基于信号强度和路由的最短跳数作为度量参数的路径选择算法,使得终端的IP地址可以快速在网络层到对应的业务系统IP主地址,实现地址层面的初步适配。

基于内容的核聚类算法数据深度适配模块是利用高斯核函数作为基础递归算法,在稀疏性较大的终端交换数据中可去除冗余数据,提取主特征数据,并与之前业务系统提取的特征参量进行内容比对。设定近似度阈值,凡比较结果小于阈值的数据都可自动存储在对应的业务系统缓存库中。IMS平台为了便于与上侧业务系统数据的快速对接,针对每个系统的关键字内容都设置了一个虚拟化业务系统缓存对象,可接收终端数据。通过本流程后,终端数据在IMS平台内部基本实现了与业务系统在逻辑功能上的深度匹配。

基于SDK控件接口统一转换对接模块主要功能是实现终端数据与业务系统在物理层面的匹配。IMS内部完全采用SIP协议来支撑数据统一融合,IMS核心网利用统一的控制语言让所有数据识别到,但在物理层面上,接口对外并非可识别的,因此要采用SDK控件的模式可与IMS核心网深度交互,SDK控件类似接口引擎,根据各类业务接口的传输内容需求快速自动编译,形成SDK程序包;为了给业务系统开放易用的物理接口,采用Restful格式的API方式,降低业务的开发难度和提高集成的效率,Restful方式的接口基于HTTP的标准操作方法,平台无关,语意可以自解释,方法简单,其“无状态”特性,使得业务系统不需要缓存和理解上下文,限制更少更简单。每个SDK控件可调用相应的API物理接口,通过业务内容封装组件实现接口的对接,这种方式无须担心接口的定义造成对IMS核心网的影响。

图1是电力IMS交换网络数据协议适配整体架构图;

图2是IPv6数据地址初步适配过程图;

图3是基于内容核聚类算法流程图;

图4是基于核聚类算法深度匹配效果分析图;

图5是基于web服务+SDK接口的数据外部衔接构件图。

下面结合附图,详细说明本发明的设计方案及研究原理。

本发明中涉及的电力IMS交换网络数据协议适配整体架构如图1所示,传统IMS网络仅能简单的将异构数据融合在同一平台上共享传输,对数据的调配效率及准确度没有太高要求,这种网络特性远无法达到电网对数据性能的要求,因此引入IMS技术的前提是要求网络在融合共享的功能时应满足数据逻辑上的尽量隔离,业务通道的快速识别,这样一方面增强了数据共享传输过程中的安全性,另一方面对于业务系统调用数据时能保证数据调取的准确性。因此本发明IMS在能力开放的前提下部署了一系列的数据处理及接口转换模块,增添IMS网络在电力系统中应用的适用性。大体可分为三部分:终端侧、IMS侧、业务系统侧;业务系统侧提取出体现业务特的关键字作为内容匹配的参考对象,并设置不同IPv6主地址,为路由寻址提供核心线索;终端侧为每个终端分配一个IPv6地址,实现端到端的终端管控和数据调用,并提取内容关键字,为后面的内容匹配过程提供数据源;IMS侧提供数据交换、共享、接口开放等功能,起到承上启下作用。一个终端隶属于一个业务系统,但会有多种类型数据的交换需求,例如配变终端隶属于配电自动化主站,但它可以交换配电运行监控数据及管控数据等,一个业务系统可以提供多个子应用接口,因此为了实现数据与业务的完美匹配,应经过两个步骤:第一步采用基于IPv6地址的数据协议匹配过程完成终端与业务系统的粗匹配;第二步通过基于内容的核聚类算法对每个终端发出的不同数据与每个应用子系统实现关键字上的细匹配。经过以上两步,基本可精准的将每个数据归属到具体业务系统关系梳理清楚,并将这层逻辑关系刻画到IMS分类缓存器中,供业务系统随时可快速调用。以上所有匹配都是基于逻辑关系上的映射,但到数据对接时还应有物理接口上的帮衬。因此在数据出口处,采用基于SDK程控包作为接口引擎,随时启动API共享接口的数据对接功能,屏蔽底层SIP协议的差异性,为顶层业务系统提供数据调用的快速通道。IMS整个系统架构充分体现了数据处理能力带来的系统效率的提升。

下面将数据处理及接口核心内容细化,详细描述每个步骤的实施过程。IPv6地址匹配过程如图2所示:电力终端数据的交换传输依托的载体一般选择载波或无线的方式,但为了赋予IPv6地址,前提应解决数据格式的一致性问题,才能实现最终地址的匹配。在MAC层过程执行结束时,将无线和载波数据包封装和解析成符合IPv6特征的数据格式,加载IPv6协议的扩展头和地址解析功能,实现地址的自动分发,传输层采用UDP同网络层对接,可及时发现网络路由地址检测能力,屏蔽了底层数据格式的异构性,便于数据路由统一管理。接下来将利用IPv6地址包头、信号强度和路由最短跳数作为度量参数来进行路径选择和地址归属地匹配。在创建路由的过程中,IPv6路由协议并没有明确规定计算节点间链路代价的特定参数,结合信道特点,计算最佳路径公式如下:

L=Hmin+Rmax (1)

Hmin为最优路径下的路由跳数;Rmax为载波节点最大信号强度,信号强度是评判通信通道某点质量好坏的重要标准,调数是评判传输时延的唯一标准,综合考虑两者的传输代价,来判定多节点同时接入时路径的最佳选择,防止了多点并发传输过程中引起的碰撞,依此建立一个完整的独立路由传输网络。独立路由的首末端则为终端侧和业务的IP地址,以上方式实现了初步的IPv6地址寻址过程,也为每个数据选择了一条最佳的路由路径,实现了数据与业务的粗匹配。

接下来按照数据关键字内容实现数据与业务的细匹配。具体流程如图3所示:

(1)设某个终端侧数据交换的集合为x{x1,x2,x3,...,xn},n为数据个数;

(2)定义稀疏基U{μ1,μ2,μ3,...,μn},每个维度的稀疏基为高斯核函数,定义如下:

其中p为稀疏基数,

(3)进行正交稀疏变换:y(k)=εu(k)x(k),其中ε为稀疏参考数,约束稀疏处理过程的重构容忍性,y{y1,y2,y3,...,yp}长度和系数基数一致,长度为p;

(4)进行协方差矩阵计算提取数据主特征:

(5)计算∑X的特征值及对应的特征向,组成对角性特征值矩阵λ{λ1,λ2,λ3,...,λp};

(6)设每个业务系统中不同子应用的关键字提取集合为δ{δ1,δ2,δ3,...,δm},设定阈值集合为Δλ{Δλ1,Δλ2,Δλ3,...,Δλm},基于内容逐一计算差值,当γ→δ≤Δγ时,数据才能到对应的归属系统,否则最为坏数据直接删除;再进行下一步的循环计算,直至所有数据匹配完毕,结束流程。

从理论上分析本文提出的数据处理模型及算法相比其他常用算法而言理应有较大性能提升,尤其面对数据量巨大的交换应用场景下,优势会更加凸显。接下来再以仿真实验手段进一步验证算法的计算性能。选择matlab仿真平台,用c语言编写软件程序,数据处理方法分别选择三种模式:模式1不采用任何数据处理方法、模式2采用支持向量机处理算法、模式3采用本发明提出的数据处理算法,分别计算每种步骤所用时长,设置带故障数据源长度3000个节点,采集周期为0.02s,仿真结果如图4所示,圆形表示本文算法,十字形表示向量机,方形表示无处理算法,分别选取了500,1000,1500,2000,2500,3000采样点分析不同算法时间开销法。无预处理算法随着节点数增多,时间开销逐步增大,时频算法和稀疏处理算法是随着节点数增多,时间开销逐步减小;其中本文算法处理时长最短,在3000点时耗时0.34s,而无预处理算法在3000点时耗时2.78s,效率提升了87.7%。

实现了数据逻辑关系的匹配后,在执行物理接口统一转换过程。本发明采用的基于SDK程控封装及标准API统一接口的模式来处理数据与业务系统间的灵活调配。IMS接口开放能力是指将IMS系统中集成的各种业务(短信、电话、视频和即时消息等)提供一致的、标准化的Restful格式的API接口,使得第三方的业务系统可以便利、高效地来使用通信服务的功能。接口能力开放平台是作为通信服务的一个接口服务,汇聚了各种通讯能力和手段。它对外提供了通信服务的一个访问点,主要以一致的、标准化的API来呈现融合通信服务的功能。为了降低IMS核心网的对接口要求的复杂度,在IMS与API之间通过SDK程控包来封装数据的业务能力,类似于接口引擎,每种数据可根据业务内容自适应封装成不同的程序包,当业务系统需要调用API接口时,可自动启动对应的SDK接口引擎,启动数据交互流程。统一软件开发技术,降低系统未来的维护成本采用Restful格式的API方式提供服务与业务系统进行数据交互技为了给业务系统开放易用的接口,采用Restful格式的API方式,降低业务的开发难度和提高集成的效率。

本文发布于:2024-09-24 03:17:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/85583.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议