一种网络日志的记录方法及系统



1.本技术涉及计算机网络技术领域,具体而言,涉及一种网络日志的记录方法及系统。


背景技术:



2.随着计算机网络技术的快速发展,基于记录的网络日志还原用户的网络访问路径,能够使得网站更便利地为用户提供更加人性化的服务,针对一些涉及网络安全或者网络审查的需要,准确高效的还原用户网络访问路径,能够实现更加快捷准确地网络安全维护。
3.在现有技术中,可以采用如下方案实现对用户的网路访问路径的还原:
4.在用户访问网页的过程中,互联网中的日志服务器会保存并管理与该用户访问过的网页对应的带时间戳的临时会话cookie,该临时会话cookie包括:访问页面的url(uniform/universal resource locator,统一资源定位符),用户会话id和用户访问页面的时间戳,该临时会话cookie是记录在网络日志中。
5.在需要还原该用户访问过的网页路径时,收集包括统一用户会话id的各日志记录,对于记录的时间戳最小的日志,就是该用户本次访问网络时首次访问页面日志,而该首次访问页面日志中的url,就是该用户本次访问网络时首次访问的网页,也可以称作landing page(着陆页),然后按照时间戳从小到大的顺序,对该各日志记录中的url进行排序,从而还原出该用户本次访问网络时的网络访问路径。
6.虽然上述现有技术方案能在一定程度上实现对用户访问过的网页实现路径还原,但是,由于在记录网络日志的过程中,只是在用户在访问过程中,在服务器上记录访问页面的时间戳,从而使得在网络访问路径还原时,只能基于记录的时间戳来确定访问的先后顺序,所以,存在网络日志中所记录的网络访问信息不全面的技术问题,以及存在还原的结果在有些时候不能够正确反映用户访问网页的过程,导致各个访问页面间的逻辑结构关系不清楚的技术问题。例如:如图1所示,用户从网站的页面a出发,先后访问了页面b和页面c,假定页面b被先访问,页面c被后访问,按照上述现有技术方案,用户访问网站页面的路径,被确定为从页面a到页面b,再从页面b到页面c,从而导致所还原的网络访问路径,与实际用户从页面a触发,分别先后访问页面b和页面c的实际路径不符,进而造成所还原的网络访问路径不准确。


技术实现要素:



7.本技术的目的在于提供一种网络日志的记录方法,其能够准确的确定出用户在访问网络时,是从哪一个页面出发访问另一个页面,及相比现有技术中仅是基于时间戳确定的网络访问路径更准确。
8.本技术的另一目的在于提供一种网络日志的记录系统,其能够运行一种网络日志的记录方法。
9.本技术的实施例是这样实现的:
10.第一方面,本技术实施例提供一种网络日志的记录方法,其包括获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id;将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中。
11.在本技术的一些实施例中,上述获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储包括:对获取的原始网络日志数据报文的大小小于预设阈值的原始网络日志数据报文,合并成大文件后再进行分布式存储。
12.在本技术的一些实施例中,上述还包括:接收网络日志数据报文,并存储网络日志数据报文,提供已保存网络日志数据报文查询。
13.在本技术的一些实施例中,上述读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id包括:根据读取网络日志数据报文的原始网络日志数据报文,通过查询一定时间内的网络日志数据报文,计算网络日志数据发送速度。
14.在本技术的一些实施例中,上述还包括:获取表征原始网络日志数据报文来源的唯一id中的跳数值,并确定跳数值与设定增量的和值,生成包括唯一标识、表示原始网络日志数据报文的获取时刻的时间戳和以初始值作为跳数值的唯一id。
15.在本技术的一些实施例中,上述将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中包括:基于hdfs分布式文件系统的hbase开源数据库,用于存储结构化和半结构化的网络日志数据报文的统计分析结果。
16.在本技术的一些实施例中,上述还包括:在本次访问页面对应的网络日志数据报文中,记录本次访问页面对应的用户cookie,或者,记录本次访问页面对应的由网站分配的用户id。
17.第二方面,本技术实施例提供一种网络日志的记录系统,其包括获取模块,用于获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;
18.唯一id模块,用于读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id;
19.添加记录模块,用于将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中。
20.在本技术的一些实施例中,上述包括:用于存储计算机指令的至少一个存储器;与上述存储器通讯的至少一个处理器,其中当上述至少一个处理器执行上述计算机指令时,上述至少一个处理器使上述系统执行:获取模块、唯一id模块及添加记录模块。
21.第三方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如一种网络日志的记录方法中任一项的方法。
22.相对于现有技术,本技术的实施例至少具有如下优点或有益效果:
23.对获取到的日志记录文件进行分布式存储,同时基于大数据分析技术对存储的日志记录文件进行统计分析,相比传统的单机技术具有存储安全、分析快速的有益效果,定网络访问路径为从第一网络日志条目中的页面标识表征的网络页面到第二网络日志条目中
的页面标识表征的网络页面,从而能够准确的确定出用户在访问网络时,是从哪一个页面出发访问另一个页面,及相比现有技术中仅是基于时间戳确定的网络访问路径更准确。
附图说明
24.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
25.图1为本技术实施例提供的一种网络日志的记录方法步骤示意图;
26.图2为本技术实施例提供的一种网络日志的记录方法详细步骤示意图;
27.图3为本技术实施例提供的一种网络日志的记录系统模块示意图;
28.图4为本技术实施例提供的一种电子设备。
29.图标:10-获取模块;20-唯一id模块;30-添加记录模块;101-存储器;102-处理器;103-通信接口。
具体实施方式
30.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
31.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
33.需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
34.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
35.实施例1
36.请参阅图1,图1为本技术实施例提供的一种网络日志的记录方法步骤示意图,其如下所示:
37.步骤s100,获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;
38.在一些实施方式中,发送网络日志数据报文,并记录原始网络日志数据报文,优选
地,通过网络日志数据发送装置记录原始网络日志数据报文;
39.步骤s110,读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id;
40.在一些实施方式中,判断本次网络日志数据报文中是否携带表征本次网络日志数据报文的来源页面的唯一访问id。如果判断结果为是,生成表征本次网络日志数据报文的唯一访问id,并在本次网络日志数据报文对应的网络日志条目中,对应记录本次网络日志数据报文的页面标识、表征本次网络日志数据报文的唯一访问id和表征来源页面的唯一访问id。如果判断结果为否,生成表征本次网络日志数据报文的唯一访问id,并在本次网络日志数据报文对应的网络日志条目中,对应记录本次网络日志数据报文的页面标识、表征本次网络日志数据报文的唯一访问id和表征来源页面的唯一访问id为空。
41.步骤s120,将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中。
42.在一些实施方式中,本次网络日志数据报文的唯一访问id,作为本次网络日志数据报文的唯一标识,能够区分不同用户对同一页面的访问,并且能够区分同一用户对同一页面的不同访问,即同一用户在一次网络访问过程中两次访问同一页面时的唯一访问id不同。用于表征本次网络访问的唯一标识guid,以及表示网络日志数据报文的访问时刻的时间戳timestamp,较佳的,还可以包括本次网络日志数据报文在本次网络访问过程中所经历的跳数值hopnumber。
43.实施例2
44.请参阅图2,图2为本技术实施例提供的一种网络日志的记录方法详细步骤示意图,其如下所示:
45.步骤s200,对获取的原始网络日志数据报文的大小小于预设阈值的原始网络日志数据报文,合并成大文件后再进行分布式存储。
46.步骤s210,接收网络日志数据报文,并存储网络日志数据报文,提供已保存网络日志数据报文查询。
47.步骤s220,根据读取网络日志数据报文的原始网络日志数据报文,通过查询一定时间内的网络日志数据报文,计算网络日志数据发送速度。
48.步骤s230,获取表征原始网络日志数据报文来源的唯一id中的跳数值,并确定跳数值与设定增量的和值,生成包括唯一标识、表示原始网络日志数据报文的获取时刻的时间戳和以初始值作为跳数值的唯一id。
49.步骤s240,基于hdfs分布式文件系统的hbase开源数据库,用于存储结构化和半结构化的网络日志数据报文的统计分析结果。
50.步骤s250,在本次访问页面对应的网络日志数据报文中,记录本次访问页面对应的用户cookie,或者,记录本次访问页面对应的由网站分配的用户id。
51.在一些实施方式中,可以基于该页面访问请求中携带的请求访问的页面的url中是否携带唯一访问id进行确定,如果该url中携带了唯一访问id,则确定本次网络日志数据报文中携带了表征本次网络日志数据报文的来源页面的唯一访问id,即url中所携带的该唯一访问id,如果该url中未携带唯一访问id,则确定本次网络日志数据报文中未携带表征本次网络日志数据报文的来源页面的唯一访问id。
52.其它实施例中,也可以采用其它方式判断,例如,根据页面访问请求中是否携带了表征本次网络日志数据报文的来源页面的唯一访问id进行判断。
53.网站服务器生成表征本次网络日志数据报文的唯一访问id,具体可以采用如下两种方式:
54.第一种方式:为本次网络日志数据报文分配唯一标识guid,也相当于为本次网络访问分配guid,并确定本次网络日志数据报文的访问时刻,然后生成包括该guid和表示该访问时刻的时间戳timestamp的唯一访问id,作为表征本次网络日志数据报文的唯一访问id;
55.第二种方式:为本次网络日志数据报文分配唯一标识guid,也相当于为本次网络访问分配guid,并确定本次网络日志数据报文的访问时刻,以及确定跳数值hopnumber的初始值,如初始值确定为0,然后生成包括该guid、表示该访问时刻的时间戳timestamp和以该初始值作为hopnumber的唯一访问id,作为表征本次网络日志数据报文的唯一访问id。
56.实施例3
57.请参阅图3,图3为本技术实施例提供的一种网络日志的记录系统模块示意图,其如下所示:
58.获取模块10,用于获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;
59.唯一id模块20,用于读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id;
60.添加记录模块30,用于将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中。
61.如图4所示,本技术实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
62.还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
63.其中,存储器101可以是但不限于,随机存取存储器101(random access memory,ram),只读存储器101(read only memory,rom),可编程只读存储器101(programmable read-only memory,prom),可擦除只读存储器101(erasable programmable read-only memory,eprom),电可擦除只读存储器101(electric erasable programmable read-only memory,eeprom)等。
64.处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(central processing unit,cpu)、网络处理器102(network processor,np)等;还可以是数字信号处理器102(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶
体管逻辑器件、分立硬件组件。
65.在本技术所提供的实施例中,应该理解到,所揭露的方法及系统,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
66.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
67.另一方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器101(rom,read-only memory)、随机存取存储器101(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
68.综上所述,本技术实施例提供的一种网络日志的记录方法及系统,对获取到的日志记录文件进行分布式存储,同时基于大数据分析技术对存储的日志记录文件进行统计分析,相比传统的单机技术具有存储安全、分析快速的有益效果,定网络访问路径为从第一网络日志条目中的页面标识表征的网络页面到第二网络日志条目中的页面标识表征的网络页面,从而能够准确的确定出用户在访问网络时,是从哪一个页面出发访问另一个页面,及相比现有技术中仅是基于时间戳确定的网络访问路径更准确。
69.以上仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
70.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其它的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术特征:


1.一种网络日志的记录方法,其特征在于,包括:获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id;将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中。2.如权利要求1所述的一种网络日志的记录方法,其特征在于,所述获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储包括:对获取的原始网络日志数据报文的大小小于预设阈值的原始网络日志数据报文,合并成大文件后再进行分布式存储。3.如权利要求2所述的一种网络日志的记录方法,其特征在于,还包括:接收网络日志数据报文,并存储网络日志数据报文,提供已保存网络日志数据报文查询。4.如权利要求1所述的一种网络日志的记录方法,其特征在于,所述读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id包括:根据读取网络日志数据报文的原始网络日志数据报文,通过查询一定时间内的网络日志数据报文,计算网络日志数据发送速度。5.如权利要求4所述的一种网络日志的记录方法,其特征在于,还包括:获取表征原始网络日志数据报文来源的唯一id中的跳数值,并确定跳数值与设定增量的和值,生成包括唯一标识、表示原始网络日志数据报文的获取时刻的时间戳和以初始值作为跳数值的唯一id。6.如权利要求1所述的一种网络日志的记录方法,其特征在于,所述将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中包括:基于hdfs分布式文件系统的hbase开源数据库,用于存储结构化和半结构化的网络日志数据报文的统计分析结果。7.如权利要求6所述的一种网络日志的记录方法,其特征在于,还包括:在本次访问页面对应的网络日志数据报文中,记录本次访问页面对应的用户cookie,或者,记录本次访问页面对应的由网站分配的用户id。8.一种网络日志的记录系统,其特征在于,包括:获取模块,用于获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;唯一id模块,用于读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一id;添加记录模块,用于将表征原始网络日志数据报文来源的唯一id添加到网络日志数据报文的超链接中。9.如权利要求8所述的一种网络日志的记录系统,其特征在于,包括:用于存储计算机指令的至少一个存储器;与所述存储器通讯的至少一个处理器,其中当所述至少一个处理器执行所述计算机指
令时,所述至少一个处理器使所述系统执行:获取模块、唯一id模块及添加记录模块。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结


本申请提出了一种网络日志的记录方法及系统,涉及计算机网络技术领域。一种网络日志的记录方法包括:获取网络日志数据报文,并将网络日志数据报文中原始网络日志数据报文进行分布式存储;读取网络日志数据报文的原始网络日志数据报文和网络日志数据,并判断网络日志数据中是否携带表征原始网络日志数据报文来源的唯一ID;将表征原始网络日志数据报文来源的唯一ID添加到网络日志数据报文的超链接中。能够准确的确定出用户在访问网络时,是从哪一个页面出发访问另一个页面,及相比现有技术中仅是基于时间戳确定的网络访问路径更准确。此外本申请还提出了一种网络日志的记录系统。统。统。


技术研发人员:

聂文慧 孙斌

受保护的技术使用者:

湖北大学

技术研发日:

2022.09.30

技术公布日:

2022/12/22

本文发布于:2024-09-23 10:25:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/44234.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:报文   网络日志   数据   表征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议