特征筛选方法、装置及系统与流程



1.本技术涉及互联网技术领域,尤其涉及一种特征筛选方法、装置及系统。


背景技术:



2.在推荐模型的训练中,基于各项机器学习、深度学习算法模型被越来越多的应用在各种推荐场景中,这就需要开发人员基于累积的大量数据构建训练样本和特征,从而实现推荐模型的建立。在开发人员对推荐模型进行模型训练的过程中,特征的生产和筛选是一个重要且繁琐的过程。通常开发人员会根据自己的经验确认一部分特征并用这部分特征对模型进行训练,得到一个基线推荐模型。之后,开发人员会继续尝试将不同的新特征加入模型中进行模型调优,以使得推荐模型的推荐结果更加准确。然而,发明人发现,开发人员在确认新的特征的过程中,需要经过离线调研过程、包含新的特征的训练样本数据的构建过程,模型的训练过程等,整个新的特征的确认过程,非常耗时耗力。


技术实现要素:



3.有鉴于此,现提供一种特征筛选方法、装置、系统、计算机设备及计算机可读存储介质,以解决现有技术中在确定新的有效特征时,非常耗时耗力的问题。
4.本技术提供了一种特征筛选方法,包括:
5.根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述第一训练样本数据为用于对第二推荐模型进行训练的样本数据,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数,所述第二训练样本数据中包含有所述待筛选特征;
6.将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;
7.对所述第三推荐模型与所述第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。
8.可选地,所述方法还包括:
9.通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至数据库中,以供在线服务端根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。
10.可选地,所述在线服务端通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征
11.可选地,每一个用户特征画像数据中携带有版本号,所述方法还包括:
12.所述在线服务端在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中,以供所述离线视图根据从所
述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。
13.本技术还提供了一种特征筛选装置,包括:
14.抽取模块,用于根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数,所述第二训练样本数据中包含有待筛选特征;
15.训练模型,用于将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;
16.确定模块,用于对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。
17.本技术还提供了一种特征筛选系统,包括:
18.数据中台,用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数;
19.离线视图,用于存储用于对第二推荐模型进行训练的第一样本数据;
20.特征筛选装置,用于根据所述离线视图中的第一训练样本数据从所述数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型,对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征,其中,所述第二训练样本数据中包含有待筛选特征。
21.可选地,所述特征筛选系统还包括在线服务端及数据库,其中:
22.所述特征筛选装置,还用于通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至所述数据库中;
23.所述在线服务端,用于根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。
24.可选地,所述在线服务端,还用于通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。
25.可选地,每一个用户特征画像数据中携带有版本号,所述特征筛选系统还包括后端日志库,其中:
26.所述在线服务端,还用于在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中;
27.所述离线视图,还用于根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。
28.本技术还提供了一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
29.本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
30.本实施例中基于数据中台实现特征筛选方法,可以实现数据、工程、模型联动,从而大幅减少确定新的有效特征所需要花费的时间和人力成本。
附图说明
31.图1为本技术实施例的特征筛选方法的一实施例的环境示意图;
32.图2为本技术所述的特征筛选方法的一种实施例的流程图;
33.图3为本技术一实施方式中用户特征画像数据的数据流向图;
34.图4为本技术一实施方式中第三训练样本数据的构建图;
35.图5为本技术一实施方式中的特征筛选装置的程序模块图;
36.图6为本技术一实施方式中特征筛选系统一实施例的架构图;
37.图7为本技术实施例提供的执行特征筛选方法的计算机设备的硬件结构示意图。
具体实施方式
38.以下结合附图与具体实施例进一步阐述本技术的优点。
39.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
40.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
41.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
42.在本技术的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本技术及区别每一步骤,因此不能理解为对本技术的限制。
43.图1示意性示出了根据本技术实施例的特征筛选方法的环境示意图,如图所示:
44.多个数据源100通过网络200与数据中台300连接,特征筛选设备400通过网络200与数据中台300连接。数据源100中存储有用户基础数据进及/或用户历史行为数据。数据中台300会实时或者定时从多个数据源100中获取存储的用户基础数据以及用户历史行为数据,然后对获取到的数据进行汇总处理,从而得到多个用户特征画像数据。特征筛选设备400会根据离线视图中的第一训练样本数据从数据中台300中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,特征筛选设备400在得到第二训练样本数据后,还会将所述第二训练样本数据输入至所述第一推荐模型中进行模型
训练,以得到第三推荐模型。在训练得到第三推荐模型后,特征筛选设备400还会对第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。
45.在示例性的实施例中,多个数据源100可以为服务端设备,也可以为客户端设备。。
46.网络200包括各种网络设备,例如路由器、交换机、多路复用器、集线器、调制解调器、网桥、中继器、防火墙、代理设备和/或类似。网络200可以包括物理链路,例如同轴电缆链路、双绞线电缆链路、光纤链路、它们的组合和/或类似物。网络200可以包括无线链路,例如蜂窝链路、卫星链路、wi-fi链路和/或类似物。
47.数据中台300可以为机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集)等。
48.特征筛选设备400包括但不限于pc、手机、ipad,平板电脑、服务器。
49.相关技术中在确定新的特征的离线调研过程中,会存在以下几个缺点:
50.a.数据获取困难,特征回填麻烦。具体而言,不清楚有什么数据可以使用,或者知道了却不清楚去哪个表获取数据,并联系哪位负责人获取数据。
51.b.数据构建、回刷时间耗时长。具体而言,数据从源头开始需要进行筛选过滤,多层逻辑处理,才能构建出数据,同时还需要回刷三个月,耗时长。
52.c.开发复杂。具体而言,在调研阶段就设计多处开发,进行数据侧视图构建,特征抽取,拼接基线视图等等,容易出现问题,难排查。
53.此外,相关技术中在确定新的特征的数据源构建与模型上线过程中,也会存在以下几个缺点:
54.a.数据构建稳定性和可靠性很难保证。具体而言,构建线上数据源较为麻烦,需要开发任务,定期写入,且由于是为线上提供服务,需要保证任务的稳定性,数据准确性,延迟等等,并且还需要完善监控,但是这些都需要算法开发人员自己保障,基本是各自为政来实现,容易造成数据写入故障,导致了特征读取异常,从而影响模型预估。
55.b.线上代码开发困难,具体而言,当前线上服务一般需要采用c++语言编写,开发成本较高。
56.最后,对于相关技术中在确定新的特征的模型训练过程,也会存在视图构建过程中需要额外拼接逻辑,每新增特征都要走一遍流程。
57.为此,本公开实施例提供了一种特征筛选方法,可以实现数据、工程、模型联动,从而大幅减少确定新的有效特征所需要花费的时间和人力成本。
58.参阅图2,其为本技术一实施例的特征筛选方法的流程示意图。本技术的特征筛选方法可以应用于特征筛选装置中,可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。从图中可以看出,本实施例中所提供的特征筛选方法包括:
59.步骤s21、根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述第一训练样本数据为用于对第二推荐模型进行训练的样本数据,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数,所述第二训练样本数据中包含有待筛选特征。
60.具体地,每一个推荐数据都是一个样本,对推荐时刻的推荐数据的维度信息、用户
数据拼接共同构建出推荐模型需要的训练样本,所有的训练样本构成了视图,可以提供给推荐模型进行训练。
61.需要说明的是,所述第一推荐模型为初始推荐模型,即为最初构建的未经过训练的推荐模型。离线视图指的是用于训练第二推荐模型的训练样本数据所构成的视图。所述第二推荐模型指的是当前已经上线的推荐模型。
62.其中,所述数据中心是一个数据仓库,其在从多个数据源中获取到用户基础数据及用户历史行为数据后进行数据建模,从而构建得到dwd层,之后,会对dwd层中数据进行轻度汇总从而构建dwb层。最后,会对dwb层中的基础数据整合汇总从而构建dws层。其中,dws层中的数据是用户画像宽表数据,包含有多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征。在本实施例中,用户画像特征数据的数据结构中包含有特征值字段(message feavalue)、特征id字段(message feainfo)以及用户画像宽表字段(message userprofile)。
63.其中,特征值字段用于确定每一个特征对应的特征值,不同的特征对应的特征值不同。特征id字段用于确定每一个特征对应的id,不同的特征具有不同的id。通过特征id字段可以区分不同的特征。用户画像宽表字段用于确定每一个用户具体包含有哪些特征。
64.在本实施例中,数据中台通过从多个数据源中获取数据,并对数据进行抽象分层,从而实现对数据进行资产化管理,避免了现有技术中在进行数据管理时职责不清,数据使用各异的乱象,同时通过使用数据中台对数据进行管理,还能够保证数据一致性,实现对各个子流程任务的监控。
65.第一训练样本数据是用于对第二推荐模型进行训练的数据,假设其包含有4个维度的特征,比如,这4个维度的特征分别为年龄、居住地、喜欢动漫、喜欢音乐。
66.每一个用户特征画像数据是把用户的所有特征聚聚起来形成的特征数据,即该用户特征画像数据中包含用户的所有维度的特征,比如,目标用户的用户特征画像数据包含有10个维度的特征,分别为年龄、居住地、喜欢动漫、喜欢音乐、性别、喜欢看书、喜欢跳舞、喜欢小动物、喜欢运动及喜欢美食。
67.作为示例,待筛选特征为性别,则在用户设定好待筛选特征后,特征筛选装置即会根据第一训练样本数据中包含的多个特征以及该待筛选特征从数据中台中出所有用户中具有第一训练样本数据中的多个特征以及该待筛选特征的用户特征画像数据,然后,从出的用户特征画像数据抽取出的第二训练样本数据,即从用户特征画像数据中抽取出第一训练样本中包含的特征以及待筛选特征组成第二训练样本数据。
68.第一训练样本数据以包含有年龄、居住地、喜欢动漫、喜欢音乐特征为例,则抽取到的第二训练样本数据包含有年龄、居住地、喜欢动漫、喜欢音乐及性别这五个特征。
69.在本实施例中,在抽取得到第二训练样本数据时,可以通过特征筛选装置中构建的特征通用算子进行抽取得到。
70.需要说明的是,所述用户基础数据可以包括用户的id数据,用户的性别数据,用户的年龄数据,用户的常住地等相对不会发生变动的特征数据。用户历史行为数据可以包括用户的历史视频播放行为数据,用户的历史购物行为数据等,比如,用户最近一个月播放的所有视频数据,用户最近一个月购买的所有商品数据。
71.步骤s21,将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以
得到第三推荐模型。
72.具体地,所述线上推荐模型为用于线上服务使用的推荐模型。
73.本实施例中,在构建好第二训练样本数据后,会采用第二训练样本数据对第一推荐模型进行训练直到模型收敛为止,即可以得到第三推荐模型,即所述第三推荐模型为对第一推荐模型进行不断训练直到所述第一推荐模型收敛为止后得到的模型。
74.步骤s22,对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。
75.具体地,可以根据所述第三推荐模型与第二推荐模型的auc指标对两个模型进行效果评估,在评估得到第三推荐模型的推荐效果强于第二推荐模型时,可以将待筛选特征作为有效特征。
76.需要说明的是,auc是指随机给定一个正样本和一个负样本,分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性。
77.在当前的待筛选特征被确定为有效特征后,用户可以配置其他特征作为待筛选特征,然后重新执行本实施例中的上述步骤,以确认新的特征是否为有效特征。
78.本实施例中基于数据中台实现特征筛选方法,可以实现数据、工程、模型联动,从而大幅减少确定新的有效特征所需要花费的时间和人力成本。
79.为了构建稳定及可靠的线上服务的数据源,以便线上服务中运行的推荐模型具有更加准确的推荐效果。
80.在一示例性的实施方式中,所述方法还包括:
81.通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至数据库中,以供在线服务端根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。
82.具体地,特征筛选装置可以通过预先配置的定时任务定时从数据中台中获取用户特征画像数据,然后,将用户画像特征数据同步至数据库中。其中,所述数据库可以为redis数据库,hbase数据库等。
83.本实施例中,通过将用户特征画像数据同步至数据库中,这样,当在线服务端为前端用户提供推荐服务时,在线服务端即可以根据前端用户的id信息从数据库中获取到该前端用户的精准的特征数据,进而可以根据该精准的特征数据为前端用户提供更加准确的推荐服务。
84.需要说明的是,前端用户可以通过浏览器、web客户端等方式向在线服务端请求推荐服务。其中,推荐服务可以为视频推荐服务,商品推荐服务,广告推荐服务等,在本实施例中不作限定。
85.在一示例性的实施方式中,由于在线服务端从数据库中获取到的用户特征画像数据中包含的用户特征的维度很多,为了减少输入至在线服务端中部署的推荐模型的数据量,在本实施例中,在线服务端通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。
86.其中,特征数据处理算子为特征筛选装置中预先部署的用于对特征进行筛选处理的算子,通过该算子可以实现特征的筛选处理,从而得到前端用户对应的特征数据。
87.为了后续可以方便对推荐数据及用户特征画像数据进行拼接处理,在本实施例中,在构建用户特征画像数据时,对于每一个用户都会设定一个版本号,每一个用户的用户特征画像数据都发生变化时,用户的版本号会进行更新,不同的用户对应的版本号不同。
88.在一示例性的实施例中,为了便于后续对前端用户请求时刻的特征快照进行还原,在本实施例中,所述在线服务端在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中,以供离线视图根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。
89.在本实施例中,在线服务端在为前端用户提提推荐服务后,为了减少数据的存储量,在线服务端并不会将该推荐服务所关联的所有数据都存入到后端日志库中以供分析,而是只会存储前端用户对应的版本号以及推荐数据存入至后端日志库中。其中,前端用户对应的版本号可以根据数据库中存储的各个用户的用户特征画像数据进行确认。
90.需要说明的是,本实施例中的推荐数据指的是仅仅给前端用户返回的数据,比如,给前端用户返回的数据为视频a,则该视频a关联的属性数据即为所述推荐数据。
91.为了便于理解本技术的技术方案,以下结合图3对本技术的技术方案进行详细描述。
92.数据中台在从多个数据源中获取到数据之后,会根据获取到的数据构建用户特征画像数据,这些构建的用户特征画像数据可以直接存储至hive表中,以供模型进行训练。同时,数据中台还会定时将构建的用户特征画像数据同步至redis数据库及视图模块中的离线视图单元中,以便在线服务端在为前端用户提供服务时,可以快速从redis数据库中获取到前端用户的详细的特征数据,并根据该获取到的特征数据进行推荐处理。同时,在线服务端在为前端用户提供推荐服务后,会将该推荐服务记录到后端日志库中,以便后续可以对推荐服务进行分析。在记录的过程中,为了减少记录的数据量,可以仅仅记记录前端用户对应的版本号以及推荐数据。
93.需要说明的是,若是后端日志库中仅仅记录了版本后以及推荐数据,这样,当需要实现请求时刻的特征快照还原将成为一个问题。为了解决上述问题,参照图4,在本技术中,数据中台在将用户特征画像数据同步至redis中时,可以为每一个用户特征画像数据配置一个版本号,这样,redis中的用户特征画像数据即由用户的版本号以及用户的特征画像数据组成。当在线服务端在为前端用户提供推荐服务后,即可以实现直将版本号以及推荐数据记录在后端日志库中的hive表里。离线视图为了实现特征快照的还原,则会从后端日志库中获取数据,同时,根据数据对应的版本号从数据中台中获取对应的用户特征画像数据,之后,将这两个数据实现数据拼接,从而得到第三训练样本数据,并存储在样本hive表中。
94.本实施例中的特征快照还原方法,模型的开发人员来说,依然只需要关心离线视图即可,屏蔽了整个流程的复杂度,把一致性、可靠性、稳定性交由数据中台解决,而模型开发人员只需要关注他们本身的事情。
95.参阅图5所示,是本技术特征筛选装置500一实施例的程序模块图。
96.本实施例中,所述特征筛选装置500包括一系列的存储于存储器上的计算机程序指令,当该计算机程序指令被处理器执行时,可以实现本技术各实施例的特征筛选功能。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,特征筛选装置500可以
被划分为一个或多个模块。例如,在图5中,所述特征筛选装置500可以被分割成抽取模块501、训练模块502及确定模块503。其中:
97.抽取模块501,用于根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数,所述第二训练样本数据中包含有待筛选特征;
98.训练模型502,用于将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;
99.确定模块503,用于对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征
100.参阅图6所示,是本技术特征筛选系统一实施例的架构图。
101.如图6所示,所述特征筛选系统数据中台600、离线视图601及特征筛选装置602。
102.数据中台600,用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数;
103.离线视图601,用于存储用于对第二推荐模型进行训练的第一样本数据;
104.特征筛选装置602,用于根据离线视图中的第一训练样本数据从所述数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型,对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征,其中,所述第二训练样本数据中包含有待筛选特征。
105.在一示例性的实施方式中,所述特征筛选系统还包括在线服务端及数据库,其中:
106.所述特征筛选装置,还用于通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至所述数据库中;
107.所述在线服务端,用于根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。
108.在一示例性的实施方式中,所述在线服务端,还用于通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。
109.在一示例性的实施方式中,每一个用户特征画像数据中携带有版本号,所述特征筛选系统还包括后端日志库,其中:
110.所述在线服务端,还用于在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中;
111.所述离线视图,还用于根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据
112.图7示意性示出了根据本技术实施例的适于实现特征筛选方法的计算机设备7的硬件架构示意图。本实施例中,计算机设备7是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是平板电脑、笔记本电脑、台式计算机、
机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集)等。如图7所示,计算机设备7至少包括但不限于:可通过系统总线相互通信链接存储器111、处理器121、网络接口122。其中:
113.存储器111至少包括一种类型的计算机可读存储介质,该可读存储介质可以是易失性的,也可以是非易失性的,具体而言,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器111可以是计算机设备7的内部存储模块,例如该计算机设备7的硬盘或内存。在另一些实施例中,存储器111也可以是计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(smart media card,简称为smc),安全数字(secure digital,简称为sd)卡,闪存卡(flash card)等。当然,存储器111还可以既包括计算机设备7的内部存储模块也包括其外部存储设备。本实施例中,存储器111通常用于存储安装于计算机设备7的操作系统和各类应用软件,例如特征筛选方法的程序代码等。此外,存储器111还可以用于暂时地存储已经输出或者将要输出的各类数据。
114.处理器121在一些实施例中可以是中央处理器(central processing unit,简称为cpu)、控制器、微控制器、微处理器、或其它特征筛选芯片。该处理器121通常用于控制计算机设备7的总体操作,例如执行与计算机设备7进行数据交互或者通信相关的控制和处理等。本实施例中,处理器121用于运行存储器111中存储的程序代码或者处理数据。
115.网络接口122可包括无线网络接口或有线网络接口,该网络接口122通常用于在计算机设备7与其它计算机设备之间建立通信链接。例如,网络接口122用于通过网络将计算机设备7与外部终端相连,在计算机设备7与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(global system of mobile communication,简称为gsm)、宽带码分多址(wideband code division multiple access,简称为wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。
116.需要指出的是,图7仅示出了具有部件111~122的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
117.在本实施例中,存储于存储器111中的特征筛选方法可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器121)所执行,以完成本技术。
118.本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的特征筛选方法的步骤。
119.本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,简称为smc),安全数字(secure digital,简称为sd)卡,闪存卡(flash card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例
中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的特征筛选方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
120.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到至少两个网络单元上。可以根据实际的需要筛选出其中的部分或者全部模块来实现本技术实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
121.通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。
122.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

技术特征:


1.一种特征筛选方法,其特征在于,包括:根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述第一训练样本数据为用于对第二推荐模型进行训练的样本数据,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数,所述第二训练样本数据中包含有所述待筛选特征;将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;对所述第三推荐模型与所述第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。2.根据权利要求1所述的特征筛选方法,其特征在于,所述方法还包括:通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至数据库中,以供在线服务端根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。3.根据权利要求2所述的特征筛选方法,其特征在于,所述在线服务端通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。4.根据权利要求2所述的特征筛选方法,其特征在于,每一个用户特征画像数据中携带有版本号,所述方法还包括:所述在线服务端在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中,以供所述离线视图根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。5.一种特征筛选装置,其特征在于,包括:抽取模块,用于根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数,所述第二训练样本数据中包含有待筛选特征;训练模型,用于将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;确定模块,用于对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。6.一种特征筛选系统,其特征在于,包括:数据中台,用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有n个特征,n为整数;离线视图,用于存储用于对第二推荐模型进行训练的第一样本数据;特征筛选装置,用于根据所述离线视图中的第一训练样本数据从所述数据中台中包含
的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型,对所述第三推荐模型与所述第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征,其中,所述第二训练样本数据中包含有待筛选特征。7.根据权利要6所述的特征筛选系统,其特征在于,所述特征筛选系统还包括在线服务端及数据库,其中:所述特征筛选装置,还用于通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至所述数据库中;所述在线服务端,用于根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。8.根据权利要7所述的特征筛选系统,其特征在于,所述在线服务端,还用于通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。9.根据权利要7所述的特征筛选系统,其特征在于,每一个用户特征画像数据中携带有版本号,所述特征筛选系统还包括后端日志库,其中:所述在线服务端,还用于在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中;所述离线视图,还用于根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。10.一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的方法的步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法的步骤。

技术总结


本申请公开了一种特征筛选方法,包括:根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,所述第二训练样本数据中包含有所述待筛选特征;将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。本申请可以减少确定新的有效特征所需要花费的时间和人力成本。要花费的时间和人力成本。要花费的时间和人力成本。


技术研发人员:

卢晓威 金冬冬 陈哲

受保护的技术使用者:

上海哔哩哔哩科技有限公司

技术研发日:

2022.09.26

技术公布日:

2022/12/16

本文发布于:2024-09-21 23:24:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/42080.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   所述   数据   用户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议