一种流量存储的方法、装置及电子设备与流程

1.本技术涉及网络安全技术领域，尤其涉及一种流量存储的方法、装置及电子设备。

背景技术：

2.在端点检测与响应的技术中，需要对终端侧的流量进行检测。现有技术大多是收集终端侧的日志数据，并将收集的日志数据发送至管理侧进行保存。
3.一般来说，在发现终端恶意流量时，可以基于管理侧的日志数据进行分析溯源。然而，日志数据仅保留终端侧检测流量的一部分信息，即安全专家基于日志数据仅能得到攻击对象如何入侵的部分信息，而无法获取到更为详细的攻击路径，这为安全专家对终端恶意流量进行研判和复现带来挑战。
4.鉴于此，亟需一种流量存储的方法，以帮助安全专家研判和复现终端恶意流量。

技术实现要素：

5.本技术提供一种流量存储的方法、装置及电子设备，用以实现对终端侧的全流量存储。
6.第一方面，本技术提供了一种流量存储的方法，所述方法包括：
7.获取流量数据，将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识；
8.基于所述第一五元组信息，生成所述第一会话组对应的流量数据的第一日志；
9.关联所述第一日志与所述第一标识，将与所述第一标识关联的第一日志保存到第一存储空间中。
10.基于上述方法，通过第一标识关联第一会话组和第一日志，可以实现对终端侧的全流量存储。
11.在一种可能的设计中，所述获取流量数据，包括：通过代理终端采集终端网卡的流量；从所述终端网卡的流量中过滤满足预设条件的流量，获取流量数据；其中，所述预设条件包括：具有与指定主机相同的端口、具有与指定协议相同的协议。
12.基于上述方法，一方面可以减少在网络中传输的流量数据，另一方面可以减少管理端对上报的流量数据的分析的压力，进而有助于管理端更快更好的对端侧流量进行存储和分析。
13.在一种可能的设计中，所述将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识，包括：解析所述流量数据中每一条数据帧，得到所述每一条数据帧的五元组信息；按照数据帧头的时间戳，对指定时段内具有第一五元组信息的数据帧进行归并，得到第一会话组；将所述第一会话组中最早一帧数据帧的时间戳作为所述第一会话组的开始时间；基于所述第一会话组的第一五元组信息以及所述第一会话组的开始时间，确定所述第一会话组的第一标识；其中，所述第一标识用于唯一标识所述第一会话组。
14.基于上述方法，对获取到的流量数据进行流量还原，并且还原的数据进行会话分组处理，得到会话组，通过这种方式可以便于后续对流量数据进行标准和有效的分析，并实现高效的全流量存储。
15.在一种可能的设计中，在所述确定所述第一会话组的第一标识之后，还包括：将所述第一会话组保存到第二存储空间中，并将所述第一标识作为所述第一会话组的索引保存到所述第二存储空间中；其中，所述第一标识用于标识所述第一会话组在所述第二存储空间的存储位置。
16.基于上述方法，将第一会话组保存在第二存储空间，便于在后续的使用中查询和下载与第一日志关联的第一会话组。
17.在一种可能的设计中，所述与所述第一标识关联的第一日志，包括：所述第一标识、第一会话组的第一五元组信息以及所述第一会话组的开始时间；其中，所述五元组信息包括：源ip、源端口、目的ip、目的端口以及协议类型。
18.基于上述方法，第一日志与第一会话组建立索引关联，便于在后续的使用中查询和下载与第一日志关联的第一会话组。
19.在一种可能的设计中，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，还包括：响应于检索所述第一日志，从所述第一存储空间中获取所述第一日志；根据所述第一日志关联的所述第一标识，获取所述第一标识对应的所述第一会话组。
20.基于上述方法，通过第一存储空间进行检索，获取到第一日志，进一步的，根据第一日志与第一会话组之间的关联关系，还可以读取到第一会话组。
21.在一种可能的设计中，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，还包括：响应于检索包括所述第一日志的多个日志，从所述第一存储空间中获取包括所述第一日志的多个日志；根据所述多个日志各自关联的标识，获取所述多个日志各自关联的标识各自对应的会话组，得到所述多个日志对应的多个会话组；按照会话组的开始时间，对所述多个会话组进行排序组合，得到所述多个日志对应的一个会话组。
22.基于上述方法，通过对第一存储空间进行检索，获取到多个日志，进一步的通过日志与会话组之间的关联关系，基于会话组的开始对多个日志所关联到的所有会话组中的流量数据进行排序后组合成一个新的会话组，该新的会话组可以被检索和下载。
23.第二方面，本技术提供了一种流量存储的装置，所述装置包括：
24.还原模块，获取流量数据，并将在指定时段内具有相同五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识；
25.生成模块，基于所述第一会话组的五元组信息，生成所述第一会话组对应的流量数据的第一日志；
26.保存模块，关联所述第一日志与所述第一标识，将与所述第一标识关联的第一日志保存到第一存储空间中。
27.在一种可能的设计中，所述获取流量数据，所述还原模块，具体用于：通过代理终端采集终端网卡的流量；从所述终端网卡的流量中过滤满足预设条件的流量，获取流量数据；其中，所述预设条件包括：具有与指定主机相同的端口、具有与指定协议相同的协议。
28.在一种可能的设计中，所述将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识，所述还原模块，具体用于：解析所述流
量数据中每一条数据帧，得到所述每一条数据帧的五元组信息；按照数据帧头的时间戳，对指定时段内具有第一五元组信息的数据帧进行归并，得到第一会话组；将所述第一会话组中最早一帧数据帧的时间戳作为所述第一会话组的开始时间；基于所述第一会话组的第一五元组信息以及所述第一会话组的开始时间，确定所述第一会话组的第一标识；其中，所述第一标识用于唯一标识所述第一会话组。
29.在一种可能的设计中，在所述确定所述第一会话组的第一标识之后，所述还原模块，还用于：将所述第一会话组保存到第二存储空间中，并将所述第一标识作为所述第一会话组的索引保存到所述第二存储空间中；其中，所述第一标识用于标识所述第一会话组在所述第二存储空间的存储位置。
30.在一种可能的设计中，所述与所述第一标识关联的第一日志，包括：所述第一标识、第一会话组的第一五元组信息以及所述第一会话组的开始时间；其中，所述五元组信息包括：源i p、源端口、目的i p、目的端口以及协议类型。
31.在一种可能的设计中，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，所述保存模块，还用于：响应于检索所述第一日志，从所述第一存储空间中获取所述第一日志；根据所述第一日志关联的所述第一标识，获取所述第一标识对应的所述第一会话组。
32.在一种可能的设计中，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，所述保存模块，还用于：响应于检索包括所述第一日志的多个日志，从所述第一存储空间中获取包括所述第一日志的多个日志；根据所述多个日志各自关联的标识，获取所述多个日志各自关联的标识各自对应的会话组，得到所述多个日志对应的多个会话组；按照会话组的开始时间，对所述多个会话组进行排序组合，得到所述多个日志对应的一个会话组。
33.第三方面，本技术提供了一种电子设备，所述电子设备包括：
34.存储器，用于存放计算机程序；
35.处理器，用于执行所述存储器上所存放的计算机程序时，实现上述的一种流量存储的方法步骤。
36.第四方面，本技术提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种流量存储的方法步骤。
37.上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。
附图说明
38.图1为本技术提供的一种可能的应用场景的示意图；
39.图2为本技术提供的一种流量存储的方法的流程图；
40.图3为本技术提供的一种数据格式的示意图；
41.图4为本技术提供的一种流量存储的装置的示意图；
42.图5为本技术提供的一种电子设备的结构的示意图。
具体实施方式
43.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或装置实施例、以及计算机程序产品中。
44.在本技术的描述中“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。a与b连接，可以表示：a与b直接连接和a与b通过c连接这两种情况。另外，在本技术的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。
45.为了便于本领域技术人员更好理解本技术实施例所提供的技术方案，下面对涉及的专业术语作如下简要说明：
46.es(elasticsearch，搜索服务器)：一种基于lucene的搜索服务器，基于es提供了一个分布式多用户能力的全文搜索引擎，能够实现稳定、可靠的实时搜索。
47.fastdfs(分布式文件系统)：一种开源的轻量级分布式文件系统，fastdfs在存储大量的小文件时具有较好的性能。
48.本技术实施例涉及网络安全技术领域，具体的，本技术实施例应用于管理端，管理端获取终端侧的流量数据，将在指定时段内具有相同的第一五元组信息的流量数据还原为第一会话组，并确定第一会话组的第一标识，然后基于第一五元组信息，生成第一会话组对应的流量数据的第一日志，关联第一日志与第一标识，将与第一标识关联的第一日志保存到第一存储空间中。此外，响应于检索第一日志，从第一存储空间中获取第一日志，并根据第一日志关联的第一标志，获取第一标识对应的第一会话组。
49.下面对本技术实施例的设计思想进行简要介绍。
50.目前，一般通过检测终端侧的流量数据，然后对流量数据进行识别、解析和检测可以生成日志数据，再将生成的日志数据统一存储至管理端，以实现对终端侧流量的存储。具体的，这种流量存储的方案在实际应用中会将每个终端的检测行为能力分布到各个主机上，这将有助于减轻管理端的压力。但是，在发现恶意网络事件时，基于这种流量存储的方案，安全人员只能从管理端读取到相关的日志数据，并基于日志数据获取攻击对象入侵的部分信息。换而言之，日志数据不足以溯源恶意网络事件的详细攻击路径，而溯源恶意网络事件的详细攻击路径又对研判和复现终端恶意事件尤为重要，因此，上述流量存储的方案无法为安全专家提供有效全面的分析数据。
51.进一步的，发明人发现，在面对终端恶意流量、或发现终端恶意事件时，如果在保留日志数据的基础上，还能够保留有完整的pcap(文件格式)数据，那么便可以得到更为详细的攻击路径以帮助网络专家对终端恶意流量进行溯源或对终端恶意事件进行复现。
52.鉴于此，本技术实施例提供一种流量存储方法，在该方法中，首先获取流量数据，并将指定时段内具有相同五元组信息的流量数据还原为同一会话组，如将指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定第一会话组的第一标识。然后，基于第一五元组信息，生成第一日志，该第一日志与用于还原为第一会话组的流量数据具有对应关系。此外，还将建立第一日志和第一标识之间的关联关系，然后将与第一标识关联的第一日志保存到第一存储空间中。
53.也就是说，本技术实施例中通过建立第一日志与第一标识之间的关联关系，使得安全专家在溯源恶意网络事件过程可以基于该关联关系，确定第一日志对应的第一会话组，该第一会话组即为一个pcap文件包，进而通过溯源第一会话组得到更为详细的攻击路径以复现恶意网络事件，有助于网络安全的维护。
54.下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本技术实施例提供的技术方案。
55.本技术实施例提供的方案可以适用于流量存储的场景中，尤其适用于需要复现恶意网络事件或溯源恶意网络流量的流量存储场景。
56.如图1所示，为本技术实施例提供的一种应用场景示意图，在该场景中，可以包括终端侧和管理侧。
57.终端侧可以包括多台终端设备，终端设备可以包括主机以及其他智能设备。具体的，通过agent(代理)终端监听终端侧的主机网卡流量，并将监听到的主机网卡流量作为流量数据发送至管理侧。
58.管理侧通过kafka(开源流处理平台)集接收流量数据，再通过消费kafka，将指定时段内具有相同五元组信息的流量数据还原为一个会话组，该会话组可以由单个或多个会话构成，在此一个会话组即为一个标准的会话流量的pcap文件包。然后，基于每个会话组的五元组信息生成该会话组唯一的uuid(universally unique identifier，通用唯一识别码)作为该会话组的session id(会话标识符)，在这里，将session id简称为该会话组的标识。
59.另外，管理侧还会将生成的会话组以及会话组的标识存入分布式文件存储系统fastdfs中。此外，针对一个会话组来说，从用于还原为该会话组的流量数据中提取出关键信息，并将关键信息解析为日志，例如，解析为json格式的行为日志，然后建立同一会话组的日志与标识之间的索引关联，该索引关联可以表征同一会话组的日志与会话组存储文件地址之间的关联关系，再将日志以及关联关系存储至数据库es中。
60.进一步的，管理侧通过管理中心接收日志查询的指令，基于该指令，可以从分布式文件存储系统fastdfs中查询相应的行为日志，并基于同一会话组的日志与标识之间的索引关联，从数据库es中查询出该行为日志关联的会话组，即pcap文件包。在这里，管理侧可以通过管理中心为安全专家提供pcap文件包以及pcap文件包中的pcap文件的检索和下载功能，以辅助安全专家进行网络安全的分析工作。
61.需要说明的是，图1所示只是举例说明，实际上kafka集可以是其他的集，数据库es可以是其他的数据库，fastdfs可以是其他的分布式文件存储系统，在本技术实施例中不做具体限定。当然，本技术实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其他可能的应用场景，本技术实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。
62.下面结合上述描述的应用场景，参考附图来描述本技术示例性实施方式提供的方法，需要注意的是，上述应用场景仅是为了便于理解本技术的精神和原理而示出，本技术的实施方式在此方面不受任何限制。
63.参见图2所示，为本技术实施例提供的流量存储的方法的流程示意图，该方法的具
体实施流程如下：
64.步骤201：获取流量数据，将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识；
65.在本技术实施例中，可以通过代理终端采集终端网卡的流量，然后在终端网卡的流量中过滤满足预设条件的流量，获取流量数据。具体的，可以过滤掉具有与指定主机相同的端口的流量，还可以过滤掉具有与指定协议相同的协议的流量。
66.值得说明的是，针对终端网卡流量的采集为一种示例性的实施方式，本技术实施例所提供的方法还可以实现对终端的其他接口流量进行采集。
67.详细来说，通过在终端侧的终端设备上安装代理终端(agent终端)，基于该代理终端采集终端网卡的流量，并将采集流量的每一帧的数据以bytes格式发送至管理端的kafka集。当然，终端侧除了发送流量数据，还将周期性地向管理端上报心跳以及获取最新的策略。在这里，获取最新的策略可以包括清洗策略，清洗策略考虑到一些主机存在固定的且大流量或者比较私密的行为不想被探测的情况，例如，针对与某个主机之间的特定端口、特定协议的流量，采用清洗策略可以过滤大部分不需要的流量。
68.值得说明的是，一般来说，agent与管理节点的流量数据不会被捕获与发送，例如，发送流量信息到kafka的流量和上报心跳的流量等。
69.基于上述操作，通过对流量数据的过滤操作，得到流量数据，一方面可以减少在网络中传输的流量，另一方面可以减少管理端对上报的流量的分析的压力，更快更好的对终端侧的流量数据进行存储和分析。
70.在获取到终端侧发送的流量数据后，为后续对该流量数据进行更加标准和有效的分析，以实现高效的全包存储和流量文件的下载，还需要将流量数据还原为标准的流量文件(pcap文件)，并对流量文件进行会话分组的处理，得到会话组形式的流量文件包(pcap文件包)。
71.在本技术实施例中，首先解析流量数据中每一条数据帧，得到每一条数据帧的五元组信息，然后按照数据帧头的时间戳，对指定时段内具有第一五元组信息的数据帧进行归并，得到第一会话组，将第一会话组中最早一帧数据帧的时间戳作为第一会话组的开始时间，再基于第一会话组的第一五元组信息以及第一会话组的开始时间，确定第一会话组的第一标识，该第一标识用于唯一标识所述第一会话组。
72.举例来说，通过运行的flink stream job实时消费kafka集中的流量数据，具体的，解析每一条的数据帧并获取五元组信息，即源ip(internet protocol，网际互连协议)、源端口、目的ip、目的端口和协议类型。然后，将一定时间内五元组相同的流按照数据帧头的时间归并到同一个会话组里面，即生成一个会话组(会话流)。
73.进一步的，如图3所示，由于终端侧发送过来的流量数据是只包含每一帧流量中的数据包头(packet header)和数据包内容(packet data)中的信息，而一个完整标准的pcap文件包需要包括pcap的文件头信息用于标识这是一个标准的pcap文件，现有如wireshark等的流量分析软件均是通过识别pcap的文件头信息中的magic信息进行pcap文件的解析的。所以在上述分组好的会话流中，还需要在二进制信息的最前面添加上标准的pcap文件的文件头信息形成标准pcap文件。最后将该会话流中的所有的packet header中最早一帧的时间戳(timestamp)作为整个会话的开始时间，并基于五元组和会话的开始时间计算出
唯一的uuid作为该会话的session id。
74.综上所述，可以获取流量数据，将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，确定第一会话组的第一标识。
75.进一步的，还可以将第一会话组保存到第二存储空间中，并将第一标识作为第一会话组的索引保存到第二存储空间中，在这里，第一标识用于标识第一会话组在第二存储空间的存储位置，基于此，在检索会话组的过程中，通过第一标识作为索引有助于加快检索速度。
76.在一些实施方式中，第二存储空间可以是分布式文件系统，如分布式文件存储系统fastdfs。在本技术实施例中，会话组中的会话，即pcap文件包中的pcap文件，具有量大文件小的特性，而分布式文件存储系统fastdfs本身就是针对大量小文件的存储和索引而设计的，因此采用分布式文件存储系统fastdfs，能够更好存储会话组中的会话，即pcap文件包中的pcap文件。
77.步骤202：基于所述第一五元组信息，生成所述第一会话组对应的流量数据的第一日志；
78.在本技术实施例中，确定用于还原第一会话组的流量数据，即第一会话组对应的流量数据，从这些流量数据中解析出关键字段作为第一日志。
79.具体来说，关键字段包括第一会话组的第一标识、第一会话组的五元组信息、以及第一会话组的开始时间，其中，五元组信息可以包括：源ip、源端口、目的ip、目的端口以及协议类型。
80.步骤203：关联所述第一日志与所述第一标识，将与所述第一标识关联的第一日志保存到第一存储空间中。
81.在本技术实施例中，第一日志可以包含有第一会话组的第一标识，第一标识可以作为第一日志与第一会话组之间的关联标识，也可以作为检索第一会话组的检索标识。可选的，还可以关联第一日志与第一会话组的存储位置。然后，将与第一标识关联的第一日志保存到第一存储空间中，具体的，第一存储空间可以是数据库，如数据库es。
82.进一步的，在一些实施方式中，响应于检索所述第一日志，从第一存储空间中获取第一日志，并根据第一日志关联的第一标识，获取第一标识对应的第一会话组。
83.在一些实施方式中，响应于检索包括第一日志的多个日志，从第一存储空间中获取包括第一日志的多个日志，并根据多个日志各自关联的标识，获取多个日志各自关联的标识各自对应的会话组，得到多个日志对应的多个会话组，然后按照多个会话组各自的开始时间，对这多个会话组进行排序组合，得到这多个日志共同对应的一个会话组。
84.举例来说，将与会话组的标识关联的行为日志存储在第一存储空间，将会话组保存在第二存储空间，基于此，若接收到检索行为日志的指令，那么可以从第一存储空间获取到一个或多个行为日志，并获取到这些行为日志各自关联的会话组的标识。进一步的，基于获取的会话组的标识，从第二存储空间中读取到相应的会话组，并根据会话组各自的开始时间对会话组中的流量数据进行排序，通过排序组合为一个新的会话组，作为一个完整的pcap文件包提供给安全专家下载或使用。
85.综上所述，为了实现管理端对终端侧的全流量存储，本技术实施例提供一种采集终端接口流量数据、还原流量数据为会话组和日志以及存储会话组和日志的方法。
86.具体的，通过获取终端侧的流量数据，按照指定时段内相同五元组的方式进行划分得到会话组，并生成会话组对应流量数据的行为日志，然后关联会话组与行为日志，基于行为日志关联的会话组，可以实现日志与会话组的关联存储，进而实现管理端对于终端侧的全流量的存储。
87.通过上述方法，安全人员在分析恶意网络事件能够基于日志关联的会话组获取到更为详细的攻击路径，进而复现恶意网络事件。
88.基于同一发明构思，本技术还提供了一种流量存储的装置，用以实现对终端侧的全流量的存储，解决在发生恶意网络事件无法基于日志获取到更为详细的攻击路径的问题，参见图4，该装置包括：
89.还原模块401，获取流量数据，并将在指定时段内具有相同五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识；
90.生成模块402，基于所述第一会话组的五元组信息，生成所述第一会话组对应的流量数据的第一日志；
91.保存模块403，关联所述第一日志与所述第一标识，将与所述第一标识关联的第一日志保存到第一存储空间中。
92.在一种可能的设计中，所述获取流量数据，所述还原模块401，具体用于：通过代理终端采集终端网卡的流量；从所述终端网卡的流量中过滤满足预设条件的流量，获取流量数据；其中，所述预设条件包括：具有与指定主机相同的端口、具有与指定协议相同的协议。
93.在一种可能的设计中，所述将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识，所述还原模块401，具体用于：解析所述流量数据中每一条数据帧，得到所述每一条数据帧的五元组信息；按照数据帧头的时间戳，对指定时段内具有第一五元组信息的数据帧进行归并，得到第一会话组；将所述第一会话组中最早一帧数据帧的时间戳作为所述第一会话组的开始时间；基于所述第一会话组的第一五元组信息以及所述第一会话组的开始时间，确定所述第一会话组的第一标识；其中，所述第一标识用于唯一标识所述第一会话组。
94.在一种可能的设计中，在所述确定所述第一会话组的第一标识之后，所述还原模块401，还用于：将所述第一会话组保存到第二存储空间中，并将所述第一标识作为所述第一会话组的索引保存到所述第二存储空间中；其中，所述第一标识用于标识所述第一会话组在所述第二存储空间的存储位置。
95.在一种可能的设计中，所述与所述第一标识关联的第一日志，包括：所述第一标识、第一会话组的第一五元组信息以及所述第一会话组的开始时间；其中，所述五元组信息包括：源i p、源端口、目的i p、目的端口以及协议类型。
96.在一种可能的设计中，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，所述保存模块403，还用于：响应于检索所述第一日志，从所述第一存储空间中获取所述第一日志；根据所述第一日志关联的所述第一标识，获取所述第一标识对应的所述第一会话组。
97.在一种可能的设计中，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，所述保存模块403，还用于：响应于检索包括所述第一日志的多个日志，从所述第一存储空间中获取包括所述第一日志的多个日志；根据所述多个日志各自关联的标识，
获取所述多个日志各自关联的标识各自对应的会话组，得到所述多个日志对应的多个会话组；按照会话组的开始时间，对所述多个会话组进行排序组合，得到所述多个日志对应的一个会话组。
98.基于上述装置，过获取终端侧的流量数据，按照指定时段内相同五元组的方式进行划分得到会话组，并生成会话组对应流量数据的行为日志，然后关联会话组与行为日志，基于行为日志关联的会话组，可以实现会话组的关联存储，进而实现管理端对于终端侧的全流量的存储，有助于安全人员在分析恶意网络事件基于日志关联的会话组获取到更为详细的攻击路径，进而辅助安全人员复现恶意网络事件。
99.基于同一发明构思，本技术实施例中还提供了一种电子设备，所述电子设备可以实现前述一种流量存储的装置的功能，参考图5，所述电子设备包括：
100.至少一个处理器501，以及与至少一个处理器501连接的存储器502，本技术实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器501也可以称为控制器，对于名称不做限制。
101.在本技术实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前文论述的流量存储方法。处理器501可以实现图4所示的装置中各个模块的功能。
102.其中，处理器501是该装置的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。
103.在一种可能的设计中，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
104.处理器501可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的流量存储方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
105.存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据
结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
106.通过对处理器501进行设计编程，可以将前述实施例中介绍的流量存储方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图2所示的实施例的流量存储方法的步骤。如何对处理器501进行设计编程为本领域技术人员所公知的技术，这里不再赘述。
107.基于同一发明构思，本技术实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行前文论述流量存储方法。
108.在一些可能的实施方式中，本技术提供的流量存储方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在装置上运行时，程序代码用于使该控制设备执行本说明书上述描述的根据本技术各种示例性实施方式的流量存储方法中的步骤。
109.本领域内的技术人员应明白，本技术的实施例可提供为方法、装置、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
110.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
111.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
112.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
113.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

技术特征：

1.一种流量存储的方法，其特征在于，所述方法包括：获取流量数据，将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识；基于所述第一五元组信息，生成所述第一会话组对应的流量数据的第一日志；关联所述第一日志与所述第一标识，将与所述第一标识关联的第一日志保存到第一存储空间中。2.如权利要求1所述的方法，其特征在于，所述获取流量数据，包括：通过代理终端采集终端网卡的流量；从所述终端网卡的流量中过滤满足预设条件的流量，获取流量数据；其中，所述预设条件包括：具有与指定主机相同的端口、具有与指定协议相同的协议。3.如权利要求1所述的方法，其特征在于，所述将在指定时段内具有第一五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识，包括：解析所述流量数据中每一条数据帧，得到所述每一条数据帧的五元组信息；按照数据帧头的时间戳，对指定时段内具有第一五元组信息的数据帧进行归并，得到第一会话组；将所述第一会话组中最早一帧数据帧的时间戳作为所述第一会话组的开始时间；基于所述第一会话组的第一五元组信息以及所述第一会话组的开始时间，确定所述第一会话组的第一标识；其中，所述第一标识用于唯一标识所述第一会话组。4.如权利要求1所述的方法，其特征在于，在所述确定所述第一会话组的第一标识之后，还包括：将所述第一会话组保存到第二存储空间中，并将所述第一标识作为所述第一会话组的索引保存到所述第二存储空间中；其中，所述第一标识用于标识所述第一会话组在所述第二存储空间的存储位置。5.如权利要求1所述的方法，其特征在于，所述与所述第一标识关联的第一日志，包括：所述第一标识、第一会话组的第一五元组信息以及所述第一会话组的开始时间；其中，所述五元组信息包括：源ip、源端口、目的ip、目的端口以及协议类型。6.如权利要求1所述的方法，其特征在于，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，还包括：响应于检索所述第一日志，从所述第一存储空间中获取所述第一日志；根据所述第一日志关联的所述第一标识，获取所述第一标识对应的所述第一会话组。7.如权利要求1所述的方法，其特征在于，在所述将与所述第一标识关联的第一日志保存到第一存储空间中之后，还包括：响应于检索包括所述第一日志的多个日志，从所述第一存储空间中获取包括所述第一日志的多个日志；根据所述多个日志各自关联的标识，获取所述多个日志各自关联的标识各自对应的会话组，得到所述多个日志对应的多个会话组；按照会话组的开始时间，对所述多个会话组进行排序组合，得到所述多个日志对应的一个会话组。8.一种流量存储的装置，其特征在于，所述装置包括：
还原模块，获取流量数据，并将在指定时段内具有相同五元组信息的流量数据还原为第一会话组，并确定所述第一会话组的第一标识；生成模块，基于所述第一会话组的五元组信息，生成所述第一会话组对应的流量数据的第一日志；保存模块，关联所述第一日志与所述第一标识，将与所述第一标识关联的第一日志保存到第一存储空间中。9.一种电子设备，其特征在于，包括：存储器，用于存放计算机程序；处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-7中任一项所述的方法步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。

技术总结

本申请涉及一种流量存储的方法、装置及电子设备，用于解决现有技术在发生恶意网络事件时，无法基于日志获取到更为详细的攻击路径的问题。该方法包括获取终端侧的流量数据，将在指定时段内具有相同的第一五元组信息的流量数据还原为第一会话组，并确定第一会话组的第一标识，然后基于第一五元组信息，生成第一会话组对应的流量数据的第一日志，建立第一日志与第一标识的关联，并将与第一标识关联的第一日志保存到第一存储空间中。基于上述方法可以实现日志与会话组的关联存储，进而实现对终端侧的全流量的存储，另外在发现恶意网络事件时，能够基于日志关联的标识，获取到相应会话组，有助于安全专家基于相应会话组复现出恶意网络事件。网络事件。网络事件。