培训内容推荐方法及其装置、设备、介质与流程

1.本技术属于计算机技术领域，尤其涉及一种培训内容推荐方法及其装置、设备、介质。

背景技术：

2.企业培训是指企业开展的一种为提高员工能力而实施的有计划、有系统的培养和训练活动，目前企业在为员工进行培训时，通常采用统一的培训方式，例如为数据分析岗位的相关员工培训时，培训内容均为统一书籍或视频课程。
3.相关技术中，传统的培训方式针对所有员工的培训内容大致相同，存在员工与培训内容的适配性不高，员工不感兴趣的情况。如此，无法调动员工学习的积极性，导致培训质量不高。

技术实现要素：

4.本技术实施例提供一种培训内容推荐方法及其装置、设备、介质，能够解决如何更好地对企业的科技创新能力等级进行评价的问题。
5.第一方面，本技术实施例提供一种培训内容推荐该方法，该方法包括：获取m个第一用户的历史行为数据；按照时间序列对每个第一用户的历史行为数据进行排序，得到m个历史行为序列；基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合；向目标排序模型输入每个第一用户的输入特征，以及与第一用户关联的第二内容集合，得到每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输入特征包括业务特征、项目特征、技能特征中的至少一项；基于每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容。
6.在第一方面的一些可实现方式中，获取多个第一用户的历史行为数据，包括：基于目标数据埋点获取多个第一用户的历史行为数据；其中，目标数据埋点包括用户标识、历史行为类型、停留时长、培训内容、培训内容类别和事件时间，历史行为数据包括历史曝光行为数据和历史点击行为数据。
7.在第一方面的一些可实现方式中，目标召回算法包括词向量召回算法、协同过滤召回算法、标签召回算法中的至少一项，基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，包括以下至少一项：基于词向量召回算法和时间衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于协同过滤召回算法和用户活跃度衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于标签召回算法、时间衰减权重和频率衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容。
8.在第一方面的一些可实现方式中，方法还包括：获取多个第二用户的历史行为数据和输入特征；基于多个第二用户的历史行为数据和输入特征，构建训练样本数据；基于训
练样本数据对逻辑回归模型进行训练，得到目标排序模型。
9.在第一方面的一些可实现方式中，基于每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容，包括：按照点击概率由高到低的顺序，输出与每个第一用户匹配的待推荐内容；其中，待推荐内容包括与第一用户关联的第二内容集合中的所有培训内容，或者，待推荐内容包括与第一用户关联的第二内容集合中的目标培训内容，目标培训内容的点击概率大于预设概率阈值。
10.在第一方面的一些可实现方式中，方法还包括：获取第三用户的输入特征；确定与第三用户的输入特征相似度大于预设相似度阈值的第一用户为第四用户；为第三用户推荐与第四用户匹配的待推荐内容。
11.第二方面，本技术实施例提供了一种培训内容推荐装置，该装置包括：获取模块，用于获取m个第一用户的历史行为数据；排序模块，用于按照时间序列对每个第一用户的历史行为数据进行排序，得到m个第一用户对应的m个历史行为序列；获取模块，还用于基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合；输入模块，用于向目标排序模型输入每个第一用户的输入特征，以及与第一用户关联的第二内容集合，得到每个第一用户对关联的第二内容集合中每个培训内容的点击概率，其中，输入特征包括业务特征、项目特征、技能特征中的至少一项；输出模块，用于基于每个第一用户对第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容。
12.在第二方面的一些可实现方式中，获取模块具体用于包括：基于目标数据埋点获取多个第一用户的历史行为数据；其中，目标数据埋点包括用户标识、历史行为类型、停留时长、培训内容、培训内容类别和事件时间，历史行为数据包括历史曝光行为数据和历史点击行为数据。
13.在第二方面的一些可实现方式中，目标召回算法包括词向量召回算法、协同过滤召回算法、标签召回算法中的至少一项，获取模块具体用于以下至少一项：基于词向量召回算法和时间衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于协同过滤召回算法和用户活跃度衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于标签召回算法、时间衰减权重和频率衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容。
14.在第二方面的一些可实现方式中，装置还包括：获取模块，还用于获取多个第二用户的历史行为数据和输入特征；构建模块，用于基于多个第二用户的历史行为数据和输入特征，构建训练样本数据；模型训练模块，用于基于训练样本数据对逻辑回归模型进行训练，得到目标排序模型。
15.在第二方面的一些可实现方式中，输出模块具体用于：按照点击概率由高到低的顺序，输出与每个第一用户匹配的待推荐内容；其中，待推荐内容包括与第一用户关联的第二内容集合中的所有培训内容，或者，待推荐内容包括与第一用户关联的第二内容集合中的目标培训内容，目标培训内容的点击概率大于预设概率阈值。
16.在第二方面的一些可实现方式中，装置还包括：获取模块，还用于获取第三用户的输入特征；确定模块，还用于确定与第三用户的输入特征相似度大于预设相似度阈值的第一用户为第四用户；推荐模块，还用于为第三用户推荐与第四用户匹配的待推荐内容。
17.第三方面，本技术实施例提供了一种电子设备，该设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现如第一方面的任一项实施例中所示的培训内容推荐方法的步骤。
18.第四方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面的任一项实施例中所示的培训内容推荐方法的步骤。
19.第五方面，本技术实施例提供了一种计算机程序产品，程序产品被存储在非易失的存储介质中，程序产品被至少一个处理器执行以实现如第一方面的任一项实施例中所示的培训内容推荐方法的步骤。
20.本技术实施例的培训内容推荐方法、装置、设备、介质及产品，在获取m个第一用户的历史行为数据之后，按照时间序列对每个第一用户的历史行为数据进行排序，可以得到m个历史行为序列，每个历史行为序列可以反映对应用户的习惯偏好。在此基础上，基于目标召回算法，可以从初始的第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合。如此，可以从包含大量培训内容的初始内容集合中，为每个第一用户筛选出适配度较高的培训内容，构建每个第一用户对应的第二内容集合。基于此，通过向目标排序模型输入每个第一用户的业务特征、项目特征、技能特征中的至少一项，以及与第一用户关联的第二内容集合，可以准确预测每个第一用户对关联的第二内容集合中每个培训内容的点击概率，该点击概率能够表征第一用户对培训内容的适配程度和感兴趣程度，因此基于第二内容集合中每个培训内容的点击概率，为每个第一用户输出待推荐内容，做到千人千面，充分挖掘员工的潜力，调动员工学习的积极性，有效提升培训内容与员工的适配度，实现结合员工的相关兴趣的培训内容个性化推荐以及精准化推荐。
附图说明
21.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1是本技术一实施例提供的培训内容推荐方法的流程示意图；
23.图2是本技术另一实施例提供的培训内容推荐方法的流程示意图；
24.图3是本技术实施例提供的一种培训内容推荐装置的结构示意图；
25.图4是本技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
26.下面将详细描述本技术的各个方面的特征和示例性实施例，为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本技术进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本技术，而不是限定本技术。对于本领域技术人员来说，本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
27.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.企业培训是指企业开展的一种为提高员工能力而实施的有计划、有系统的培养和训练活动，目前企业在为员工进行培训时，通常采用统一的培训方式，例如为数据分析岗位的相关员工培训时，培训内容均为统一书籍或视频课程。相关技术中，传统的培训方式针对所有员工的培训内容大致相同，存在员工与培训内容的适配性不高，员工不感兴趣的情况。如此，无法调动员工学习的积极性，导致培训质量不高。
29.针对相关技术中出现的问题，本技术实施例提供了一种培训内容推荐方法，在获取m个第一用户的历史行为数据之后，按照时间序列对每个第一用户的历史行为数据进行排序，可以得到m个历史行为序列，每个历史行为序列可以反映对应用户的习惯偏好。在此基础上，基于目标召回算法，可以从初始的第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合。如此，可以从包含大量培训内容的初始内容集合中，为每个第一用户筛选出适配度较高的培训内容，构建每个第一用户对应的第二内容集合。基于此，通过向目标排序模型输入每个第一用户的业务特征、项目特征、技能特征中的至少一项，以及与第一用户关联的第二内容集合，可以准确预测每个第一用户对关联的第二内容集合中每个培训内容的点击概率，该点击概率能够表征第一用户对培训内容的适配程度和感兴趣程度，因此基于第二内容集合中每个培训内容的点击概率，为每个第一用户输出待推荐内容，做到千人千面，充分挖掘员工的潜力，调动员工学习的积极性，有效提升培训内容与员工的适配度，实现结合员工的相关兴趣的培训内容个性化推荐以及精准化推荐，提升培训质量。
30.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的培训内容推荐方法进行详细地说明。
31.需要说明的是，本技术实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
32.图1是本技术实施例提供的一种培训内容推荐方法的流程示意图，该培训内容推荐方法的执行主体可以为电子设备。需要说明的是，上述执行主体并不构成对本技术的限定。
33.在这里，电子设备可以包括手机、平板电脑、一体机等具有通讯功能的设备，也可以包括虚拟机或模拟器模拟的设备，当然，还可以包括云服务器或者服务器集等具有存储以及计算功能的设备。
34.如图1所示，本技术实施例提供的培训内容推荐方法可以包括步骤110-步骤150。
35.步骤110，获取m个第一用户的历史行为数据。
36.其中，第一用户可以为待推荐用户，历史行为数据可以包括但不限于：浏览记录、曝光记录、浏览时长。
37.步骤120，按照时间序列对每个第一用户的历史行为数据进行排序，得到m个历史
行为序列。
38.其中，每个历史行为序列均为按照时间先后顺序排列的一组数据序列。
39.例如，将用户a的历史行为数据按照时间顺序进行整理得到一个历史行为序列：用户a-[内容3，内容1，内容7
…
，内容9001]，其中，内容3的浏览时间在内容1之前。
[0040]
步骤130，基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合。
[0041]
具体地，第一内容集合可以包含有大量培训内容资源，针对每个第一用户的历史行为序列，电子设备可以从大量培训内容资源中，筛选与其匹配的培训内容，构建第二内容集合，得到与m个第一用户关联的m个第二内容集合。
[0042]
步骤140，向目标排序模型输入每个第一用户的输入特征，以及与第一用户关联的第二内容集合，得到每个第一用户对关联的第二内容集合中每个培训内容的点击概率。
[0043]
其中，输入特征可以包括业务特征、项目特征、技能特征中的至少一项；点击概率可以用于表征对应第一用户与培训内容的匹配度。
[0044]
业务特征可以为用于表征第一用户的业务岗位的特征，例如数据分析、数据挖掘、软件开发、软件测试等；项目特征可以为用于表征第一用户的项目经验的特征，例如开发了xxx项目；技能特征可以为用于表征第一用户的技能的特征，例如编程语言(oracle、java、c语言等)、办公应用标识等。
[0045]
步骤150，基于每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容。
[0046]
本技术实施例的培训内容推荐方法，在获取m个第一用户的历史行为数据之后，按照时间序列对每个第一用户的历史行为数据进行排序，可以得到m个历史行为序列，每个历史行为序列可以反映对应用户的习惯偏好。在此基础上，基于目标召回算法，可以从初始的第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合。如此，可以从包含大量培训内容的初始内容集合中，为每个第一用户筛选出适配度较高的培训内容，构建每个第一用户对应的第二内容集合。基于此，通过向目标排序模型输入每个第一用户的业务特征、项目特征、技能特征中的至少一项，以及与第一用户关联的第二内容集合，可以准确预测每个第一用户对关联的第二内容集合中每个培训内容的点击概率，该点击概率能够表征第一用户对培训内容的适配程度和感兴趣程度，因此基于第二内容集合中每个培训内容的点击概率，为每个第一用户输出待推荐内容，做到千人千面，充分挖掘员工的潜力，调动员工学习的积极性，有效提升培训内容与员工的适配度，实现结合员工的相关兴趣的培训内容个性化推荐以及精准化推荐。
[0047]
下面对上述步骤进行详细说明，具体如下所示：
[0048]
涉及步骤110，获取m个第一用户的历史行为数据。
[0049]
具体地，电子设备可以在接收到客户端发送的推荐请求的情况下，获取m个第一用户的历史行为数据。
[0050]
在本技术的一些实施例中，步骤110可以具体包括：基于目标数据埋点获取多个第一用户的历史行为数据。
[0051]
其中，目标数据埋点可以包括用户标识、历史行为类型、停留时长、培训内容、培训内容类别和事件时间，历史行为数据可以包括历史曝光行为数据和历史点击行为数据。
[0052]
具体地，上述目标数据埋点为预先设置在目标应用和/或目标网站的数据埋点，该目标应用和目标网站的界面可以显示培训相关内容，该目标数据埋点可以根据埋点事件收集用户的操作数据，以此获得埋点数据(即历史行为数据)。其中，埋点事件可以包括点击事件、输入事件、时间段事件和分享事件等。此处的点击事件是基于用户对目标应用和/或目标网站的界面的点击操作得到，如对界面上的按钮、菜单等控件的点击操作等；此处的输入事件是基于用户对目标应用和/或目标网站的界面的输入操作得到，如在界面的输入栏输入控制参数等输入操作；此处的时间段事件是基于用户对目标应用和/或目标网站的界面的浏览时长得到；此处的分享事件是基于用户对目标应用和/或目标网站的界面的分享操作得到。
[0053]
在一个实施例中，基于目标数据埋点获取多个第一用户的历史行为数据，可以具体包括：在接收到客户端发送的推荐请求的情况下，基于目标数据埋点获取多个第一用户的埋点日志；向超文本传输协议(hyper text transfer protocol，http)和反向代理web服务器nginx转发该推荐请求，并使用脚本语言lua将埋点日志转换为对象简谱json格式，得到用户行为数据；通过脚本语言lua配置生产者(producer)异步(async)，向分布式发布订阅消息系统(kafka集)发送用户行为数据。
[0054]
在一个实施例中，kafka集存储用户行为数据，分布式日志收集框架logstash将历史行为数据落地到分布式文件存储系统，分布式文件存储系统长期离线存储用户行为数据，该用户行为数据将用于用户长期画像生成，以及分析师根据埋点日志分析用户行为路径，生成的用户长期画像基于第一用户的用户标识存入key-value数据库redis中，供线上接口api调用。
[0055]
在另一个实施例中，通过框架和分布式处理引擎flink实时消费，即实时特征构建单元，生成用户短期画像，及时响应第一用户实时的线上行为，动态生成用户的短期画像、短期行为和活跃度，以及各个培训内容的曝光数量、点击数量等。
[0056]
涉及步骤130，基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合。
[0057]
在一个实施例中，电子设备可以基于离线数据周期调度脚本进行算法召回计算。
[0058]
在本技术的一些实施例中，目标召回算法包括词向量召回算法、协同过滤召回算法、标签召回算法中的至少一项，基于目标召回算法，步骤130可以包括以下至少一项：基于词向量召回算法和时间衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于协同过滤召回算法和用户活跃度衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于标签召回算法、时间衰减权重和频率衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容。
[0059]
在本技术实施例中，电子设备可以基于词向量召回算法、协同过滤召回算法、标签召回算法中的至少一项进行召回，从海量的培训内容当中优先召回每个第一用户可能感兴趣的培训内容构建每个第一用户的候选资源池，得到与第一用户关联的第二内容集合。在此基础上，电子设备仅计算每个第一用户对对应第二内容集合中培训内容的点击概率即可，无需从成千上万的培训内容(第一内容集合)中寻第一用户最感兴趣的内容，有效减少线上计算资源开销，有利于优化后续排序计算的实时计算速度。同时，培训内容召回过程中考虑到时间衰减、频率衰减和用户活跃度衰减，保证召回的培训内容为第一用户感兴趣
的内容，提升第二内容集合中的培训内容与第一用户的匹配度，实现精准召回和后续的精准推荐。
[0060]
在一个实施例中，基于词向量召回算法和时间衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容，可以具体包括下述步骤：基于每个历史行为数据构建历史行为矩阵；获取每个历史行为矩阵对应的多个培训内容的词向量；将每个培训内容的词向量，及其对应的时间衰减权重累加平均，得到每个第一用户的向量特征；基于每个第一用户的向量特征，从第一内容集合中召回培训内容。
[0061]
具体地，电子设备可以利用编程语言python的自然语言处理工具gensim获取每个历史行为矩阵对应的多个培训内容的词向量；电子设备可以基于python的数据收集工具(例如faiss包)，从第一内容集合中召回与第一用户的向量特征匹配的培训内容。
[0062]
其中，时间衰减权重的确定方式如公式(1)所示：
[0063][0064]
xr为培训内容r的时间衰减权重，nowday为当前时间，startday为培训内容r对应的事件时间，例如浏览培训内容r的事件。
[0065]
在本技术实施例中，由于用户的行为记录有时间周期，在粗排的过程当中，需要增加时间维度，因此需要为每个培训内容分配时间衰减权重，用以区分长期兴趣和短期兴趣。
[0066]
在一个实施例中，基于协同过滤召回算法和用户活跃度衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容，可以具体包括下述步骤：获取m个历史行为序列关联的n个培训内容；基于用户活跃度衰减权重，计算n个培训内容之间的相似度；基于n个培训内容之间的相似度，从第一内容集合中召回培训内容。
[0067]
其中，用户活跃度衰减权重的确定方式如公式(2)所示：
[0068][0069]
n(i)为浏览过培训内容i的第一用户的第一用户集合，n(j)为浏览过培训内容j的第一用户的第二用户集合，|n(i)|为第一用户集合中的用户数量，|n(j)|为第二用户集合中的用户数量，yij为培训i，j对应的用户活跃度权重。
[0070]
在一个实施例中，可以基于公式(3)计算任意两个培训内容之间的相似度。
[0071][0072]
其中，wij为培训内容i，j之间的相似度，u为n(i)与n(j)的交集，n(u)为交集中第一用户浏览过的培训内容数量。
[0073]
在本技术实施例中，考虑m个第一用户的历史行为序列，计算m个历史行为序列关联的n个培训内容之间的相似度，在计算的过程当中需要考虑用户活跃度衰减，例如用户b浏览了百分之八十以上的培训内容，则用户b由于浏览范围过广，其浏览记录重要性不高，因为该用户b可能是漫无目的地对网站的培训内容进行浏览，实际参考价值不大，因此我们需要剔除掉用户b的影响力，故增加了用户活跃度衰减权重。
[0074]
在一个实施例中，基于标签召回算法、时间衰减权重和频率衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容，可以具体包括下述步骤：获取预设时间
段内的目标历史行为数据；确定目标行为数据关联的p个培训内容的p个标签；基于p个培训内容对应的时间衰减权重、频率衰减权重和标签，确定第一用户对应的目标标签；基于每个第一用户对应的目标标签，从第一内容集合中召回培训内容。
[0075]
其中，频率衰减权重的确定方式如公式(4)所示：
[0076][0077]
zr为培训内容r的频率衰减权重，times为第一用户对培训内容的操作频率，例如浏览频率或曝光频率。
[0078]
在本技术实施例中，由于用户可能产生短期内的重复行为，为了避免计算的结果集中在某一范围内，使得个性化培训内容单一，因此需要为每个培训内容分配频率衰减权重。
[0079]
涉及步骤140，向目标排序模型输入每个第一用户的输入特征，以及与第一用户关联的第二内容集合，得到每个第一用户对关联的第二内容集合中每个培训内容的点击概率。
[0080]
在一个实施例中，输入特征还可以包括但不限于：培训内容的曝光量、点击量、培训内容类型、标题长度。
[0081]
在本技术的一些实施例中，为了获取目标排序模型，图2是本技术另一实施例提供的培训内容推荐方法的流程示意图，如图2所示，在步骤140之前，该方法还可以包括步骤210-步骤230。
[0082]
步骤210，获取多个第二用户的历史行为数据和输入特征。
[0083]
其中，多个第二用户中可以包括第一用户，第二用户可以为推荐平台的平台用户。
[0084]
步骤220，基于多个第二用户的历史行为数据和输入特征，构建训练样本数据。
[0085]
步骤230，基于训练样本数据对逻辑回归模型进行训练，得到目标排序模型。
[0086]
在本技术实施例中，第二用户的历史行为数据中涉及第二用户的历史曝光点击行为记录，即涉及第二用户较感兴趣的培训内容，输入特征能够反映第二用户过往的项目经验、掌握的相关技能以及相关的岗位职责等。基于此，通过历史行为数据和输入特征构建训练样本数据，并使用训练样本数据对逻辑回归模型进行训练，在后续使用目标排序模型时，能够使目标排序模型结合第一用户的偏好习惯和员工特征，挖掘第一用户的兴趣，结合用户兴趣和人岗适配的因素，预测第一用户对培训内容的点击概率，提升预测的准确度。
[0087]
涉及步骤150，基于每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容。
[0088]
可选地，电子设备可以按照点击概率由高到低的顺序，输出与每个第一用户匹配的待推荐内容；待推荐内容可以包括与第一用户关联的第二内容集合中的所有培训内容，或者，待推荐内容可以包括与第一用户关联的第二内容集合中的目标培训内容，目标培训内容的点击概率大于预设概率阈值。
[0089]
需要说明的是，预设概率阈值可以根据具体需求进行设置，例如可以设置为0.8，也可以设置为0.85，本技术对此不做具体限定。
[0090]
在本技术的一些实施例中，由于初入企业员工可能没有相应的历史记录，因此在冷启动阶段可以基于同岗位的热门培训内容，对其进行优先推荐，该方法还可以包括：获取
第三用户的输入特征；确定与第三用户的输入特征相似度大于预设相似度阈值的第一用户为第四用户；为第三用户推荐与第四用户匹配的待推荐内容。
[0091]
其中，第三用户为不存在历史行为数据，或者历史行为数据量较少的用户；预设相似度阈值可以根据具体需求进行设置，例如可以设置为0.7，也可以设置为其它值，本技术在此不做具体限定。
[0092]
在一个实施例中，输入特征可以包括业务特征、项目特征和技能特征中的至少一项，在输入特征包括业务特征、项目特征和技能特征的情况下，可以基于第三用户与第一用户的业务特征、项目特征和技能特征及其权重，确定相似度。
[0093]
示例性地，业务特征对应权重可以设置为0.6，项目特征和技能特征对应权重可以均设置为0.2。
[0094]
需要说明的是，本技术实施例提供的培训内容推荐方法，执行主体可以为培训内容推荐装置，或者该培训内容推荐装置中的用于执行培训内容推荐方法的控制模块。本技术实施例中以培训内容推荐装置执行培训内容推荐方法为例，说明本技术实施例提供的培训内容推荐装置。下面对培训内容推荐装置进行详细介绍。
[0095]
图3是本技术实施例提供的一种培训内容推荐装置的结构示意图。如图3所示，该培训内容推荐装置300可以包括：获取模块310、排序模块320、输入模块330和输出模块340。
[0096]
其中，获取模块310，用于获取m个第一用户的历史行为数据；排序模块320，用于按照时间序列对每个第一用户的历史行为数据进行排序，得到m个第一用户对应的m个历史行为序列；获取模块310，还用于基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合；输入模块330，用于向目标排序模型输入每个第一用户的输入特征，以及与第一用户关联的第二内容集合，得到每个第一用户对关联的第二内容集合中每个培训内容的点击概率，其中，输入特征包括业务特征、项目特征、技能特征中的至少一项；输出模块340，用于基于每个第一用户对第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容。
[0097]
本技术实施例的培训内容推荐装置，在获取m个第一用户的历史行为数据之后，按照时间序列对每个第一用户的历史行为数据进行排序，可以得到m个历史行为序列，每个历史行为序列可以反映对应用户的习惯偏好。在此基础上，基于目标召回算法，可以从初始的第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与m个第一用户关联的m个第二内容集合。如此，可以从包含大量培训内容的初始内容集合中，为每个第一用户筛选出适配度较高的培训内容，构建每个第一用户对应的第二内容集合。基于此，通过向目标排序模型输入每个第一用户的业务特征、项目特征、技能特征中的至少一项，以及与第一用户关联的第二内容集合，可以准确预测每个第一用户对关联的第二内容集合中每个培训内容的点击概率，该点击概率能够表征第一用户对培训内容的适配程度和感兴趣程度，因此基于第二内容集合中每个培训内容的点击概率，为每个第一用户输出待推荐内容，做到千人千面，充分挖掘员工的潜力，调动员工学习的积极性，有效提升培训内容与员工的适配度，实现结合员工的相关兴趣的培训内容个性化推荐以及精准化推荐。
[0098]
在本技术的一些实施例中，获取模块310具体用于包括：基于目标数据埋点获取多个第一用户的历史行为数据；其中，目标数据埋点包括用户标识、历史行为类型、停留时长、培训内容、培训内容类别和事件时间，历史行为数据包括历史曝光行为数据和历史点击行
为数据。
[0099]
在本技术的一些实施例中，目标召回算法包括词向量召回算法、协同过滤召回算法、标签召回算法中的至少一项，获取模块310具体用于以下至少一项：基于词向量召回算法和时间衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于协同过滤召回算法和用户活跃度衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于标签召回算法、时间衰减权重和频率衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容。
[0100]
在本技术的一些实施例中，装置还包括：获取模块310，还用于获取多个第二用户的历史行为数据和输入特征；构建模块，用于基于多个第二用户的历史行为数据和输入特征，构建训练样本数据；模型训练模块，用于基于训练样本数据对逻辑回归模型进行训练，得到目标排序模型。
[0101]
在本技术的一些实施例中，输出模块340具体用于：按照点击概率由高到低的顺序，输出与每个第一用户匹配的待推荐内容；其中，待推荐内容包括与第一用户关联的第二内容集合中的所有培训内容，或者，待推荐内容包括与第一用户关联的第二内容集合中的目标培训内容，目标培训内容的点击概率大于预设概率阈值。
[0102]
在本技术的一些实施例中，装置还包括：获取模块310，还用于获取第三用户的输入特征；确定模块，还用于确定与第三用户的输入特征相似度大于预设相似度阈值的第一用户为第四用户；推荐模块，还用于为第三用户推荐与第四用户匹配的待推荐内容。
[0103]
本技术实施例中的培训内容推荐装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0104]
本技术实施例中的培训内容推荐装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0105]
图4是本技术实施例提供的一种电子设备的硬件结构示意图。
[0106]
如图4所示，本实施例中的电子设备400可以包括处理器401以及存储有计算机程序指令的存储器402。
[0107]
具体地，上述处理器401可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0108]
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态
存储器。存储器可包括只读存储器(read-only memory，rom)，随机存取存储器(random access memory，ram)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本技术实施例的方法所描述的操作。
[0109]
处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种培训内容推荐方法。
[0110]
在一个示例中，电子设备400还可以包括通信接口403和总线410。其中，如图4所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
[0111]
通信接口403，主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
[0112]
总线410包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
[0113]
本技术实施例提供的电子设备，能够实现图1、图2的方法实施例中所实现的各个过程，并能实现相同的技术效果，为避免重复，在此不再赘述。
[0114]
结合上述实施例中的培训内容推荐方法，本技术实施例可提供一种培训内容推荐系统，该培训内容推荐系统包括上述实施例中的电子设备。电子设备的具体内容可参见上述实施例中的相关说明，在此不再赘述。
[0115]
另外，结合上述实施例中的培训内容推荐方法，本技术实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种培训内容推荐方法的步骤。
[0116]
结合上述实施例中的培训内容推荐方法，本技术实施例可提供一种计算机程序产品来实现。该(计算机)程序产品被存储在非易失的存储介质中，该程序产品被至少一个处理器执行时实现上述实施例中的任意一种培训内容推荐方法的步骤。
[0117]
需要明确的是，本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本技术的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本技术的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。
[0118]
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(application specific integrated circuit，asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术
的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0119]
还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
[0120]
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
[0121]
以上所述，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

技术特征：

1.一种培训内容推荐方法，其特征在于，所述方法包括：获取m个第一用户的历史行为数据；按照时间序列对每个第一用户的历史行为数据进行排序，得到m个第一用户对应的m个历史行为序列；基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与所述m个第一用户关联的m个第二内容集合；向目标排序模型输入每个第一用户的输入特征，以及与所述第一用户关联的第二内容集合，得到所述每个第一用户对关联的第二内容集合中每个培训内容的点击概率，其中，所述输入特征包括业务特征、项目特征、技能特征中的至少一项；基于所述每个第一用户对关联的所述第二内容集合中每个培训内容的点击概率，输出与所述每个第一用户匹配的待推荐内容。2.根据权利要求1所述的方法，其特征在于，所述获取多个第一用户的历史行为数据，包括：基于目标数据埋点获取所述多个第一用户的历史行为数据；其中，所述目标数据埋点包括用户标识、历史行为类型、停留时长、培训内容、培训内容类别和事件时间，所述历史行为数据包括历史曝光行为数据和历史点击行为数据。3.根据权利要求1所述的方法，其特征在于，所述目标召回算法包括词向量召回算法、协同过滤召回算法、标签召回算法中的至少一项，所述基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，包括以下至少一项：基于所述词向量召回算法和时间衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于所述协同过滤召回算法和用户活跃度衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容；基于所述标签召回算法、时间衰减权重和频率衰减权重，从第一内容集合中获取与每个历史行为序列匹配的培训内容。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取多个第二用户的历史行为数据和输入特征；基于多个第二用户的历史行为数据和输入特征，构建训练样本数据；基于所述训练样本数据对逻辑回归模型进行训练，得到所述目标排序模型。5.根据权利要求1所述的方法，其特征在于，所述基于所述每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输出与所述每个第一用户匹配的待推荐内容，包括：按照所述点击概率由高到低的顺序，输出与所述每个第一用户匹配的待推荐内容；其中，所述待推荐内容包括与所述第一用户关联的第二内容集合中的所有培训内容，或者，所述待推荐内容包括与所述第一用户关联的第二内容集合中的目标培训内容，所述目标培训内容的点击概率大于预设概率阈值。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取第三用户的输入特征；确定与所述第三用户的输入特征相似度大于预设相似度阈值的第一用户为第四用户；为所述第三用户推荐与所述第四用户匹配的待推荐内容。
7.一种培训内容推荐装置，其特征在于，所述装置包括：获取模块，用于获取m个第一用户的历史行为数据；排序模块，用于按照时间序列对每个第一用户的历史行为数据进行排序，得到m个第一用户对应的m个历史行为序列；所述获取模块，还用于基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与所述m个第一用户关联的m个第二内容集合；输入模块，用于向目标排序模型输入每个第一用户的输入特征，以及与所述第一用户关联的第二内容集合，得到所述每个第一用户对关联的第二内容集合中每个培训内容的点击概率，其中，所述输入特征包括业务特征、项目特征、技能特征中的至少一项；输出模块，用于基于所述每个第一用户对所述第二内容集合中每个培训内容的点击概率，输出与所述每个第一用户匹配的待推荐内容。8.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的培训内容推荐方法。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的培训内容推荐方法的步骤。10.一种计算机程序产品，其特征在于，所述程序产品被存储在非易失的存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1-6任一项所述的培训内容推荐方法的步骤。

技术总结

本申请公开了一种培训内容推荐方法及其装置、设备、介质。该方法包括：获取M个第一用户的历史行为数据；按照时间序列对每个第一用户的历史行为数据进行排序，得到M个历史行为序列；基于目标召回算法，从第一内容集合中获取与每个历史行为序列匹配的培训内容，得到与M个第一用户关联的M个第二内容集合；向目标排序模型输入每个第一用户的输入特征，以及与第一用户关联的第二内容集合，得到每个第一用户对关联的第二内容集合中每个培训内容的点击概率；基于每个第一用户对关联的第二内容集合中每个培训内容的点击概率，输出与每个第一用户匹配的待推荐内容。根据本申请实施例，能够更好地对企业的科技创新能力等级进行评价。更好地对企业的科技创新能力等级进行评价。更好地对企业的科技创新能力等级进行评价。