用户留存预测方法及装置与流程



1.本发明涉及人工智能技术领域,尤其涉及一种用户留存预测方法及装置。需要说明的是,本发明用户留存预测方法及装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本发明用户留存预测方法及装置的应用领域不做限定。


背景技术:



2.本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.留存率是一个互联网产品最核心的指标,是一个互联网产品留住用户的能力,利用留存率可以了解用户,分析用户流失,从而提升产品服务质量。众多实践证明,提升用户留存率,减少用户流失,对于任何一家企业来说都是非常重要的。随着互联网的高速发展,对于企业来说,用户留存也逐渐成为了反映企业及产品核心竞争力的关键要素。
4.现有技术中用户留存预测的方法主要有基于快照视图预测用户留存、基于同期视图预测用户留存以及基于随机森林分类原理预测用户留存等方法,这些方法基本是利用历史用户留存数据的变化规律、变化趋势进行预测分析,存在预测准确度较低的问题。


技术实现要素:



5.本发明实施例提供一种用户留存预测方法,用以提高用户留存预测准确度,该方法包括:
6.获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;
7.根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;
8.将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;
9.将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。
10.本发明实施例还提供一种用户留存预测装置,用以提高用户留存预测准确度,该装置包括:
11.数据获取模块,用于获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;
12.数据处理模块,用于根据用户数据生成用户登录行为序列、用户交易行为序列和
衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;
13.融合树模型处理模块,用于将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;
14.时间序列模型处理模块,用于将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。
15.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户留存预测方法。
16.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户留存预测方法。
17.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述用户留存预测方法。
18.本发明实施例中获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。本发明实施例中,首先利用融合树模型判断用户在未来预设天数内的每一天是否会登录,然后利用时间序列模型,结合融合树模型输出的判断结果,预测用户在未来预设天数内的每一天登录的概率值,实现了用融合树模输出的判断结果对时间序列模型输出的预测结果进行加强判断处理,输出了最终的用户留存预测结果,提高了用户留存预测的准确度;另外,融合树模型未使用单一树模型,而是融合了多种决策树树模型,避免了单一模型计算数据的片面性,并且充分考虑了用户交易数据、用户登录数据和用户个人数据对用户留存预测的影响,具有更多的有效数据特征,进一步提高了用户留存预测的准确度。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。在附图中:
20.图1为本发明实施例中用户留存预测方法的流程示意图;
21.图2为本发明实施例中用户留存预测方法的一具体实施例;
22.图3为本发明实施例中用户留存预测方法的一具体实施例;
23.图4为本发明实施例中用户留存预测方法的一具体实施例;
24.图5为本发明实施例中用户留存预测装置的示意图。
具体实施方式
25.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
26.首先对本发明中涉及的技术名词进行解释。
27.时间序列数据:按照时间的顺序记录的一列有序数据,任意一个时刻只能获得唯一的一个序列观察值。
28.卷积神经网络模型(convolutional neural networks,cnn):一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。卷积神经网络仿造生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求。
29.发明人发现,现有技术中用户留存预测的方法主要有基于快照视图预测用户留存、基于同期视图预测用户留存以及基于随机森林分类原理预测用户留存等方法,这些方法基本是利用历史用户留存数据的变化规律、变化趋势进行预测分析,存在预测准确度较低的问题。为此,发明人提出了一种用户留存预测方法。
30.图1为本发明实施例中用户留存预测方法的流程示意图,如图1所示,该方法包括:
31.步骤101、获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;
32.步骤102、根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;
33.步骤103、将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;
34.步骤104、将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。
35.从图1所示流程可以看出,本发明实施例中,首先利用融合树模型判断用户在未来
预设天数内的每一天是否会登录,然后利用时间序列模型,结合融合树模型输出的判断结果,预测用户在未来预设天数内的每一天登录的概率值,实现了用融合树模输出的判断结果对时间序列模型输出的预测结果进行加强判断处理,输出了最终的用户留存预测结果,提高了用户留存预测的准确度;另外,融合树模型未使用单一树模型,而是融合了多种决策树树模型,避免了单一模型计算数据的片面性,并且充分考虑了用户交易数据、用户登录数据和用户个人数据对用户留存预测的影响,具有更多的有效数据特征,进一步提高了用户留存预测的准确度。
36.需要说明的是,本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定.
37.下面对每个步骤进行详细解释。
38.步骤101中,获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据。
39.实施时,首先基于业务平台或大数据平台获取用户数据,用户数据可以包括用户的姓名、性别、账户等用户个人数据,用户从注册之日起的登录数据,如用户登录时间、用户登录次数、用户登录方式、用户登录时长等,用户购买产品、收藏产品等交易数据,可以将用户数据存入数据仓库工具hive中备用。本领域技术人员应当知晓,用户登录数据、用户交易数据不仅限于上述内容,在此仅做示例。
40.步骤102中,根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据。
41.实施时,对各类用户数据进行预处理,如数据清洗、剔除异常值、编码处理,生成用户登录行为序列、用户交易行为序列和衍生特征数据。具体的,用户登录行为序列可以根据用户登录数据生成,用户交易行为序列可以根据用户交易数据生成,衍生特征数据可以包括根据用户登录数据确定的用户特征数据,该衍生特征数据包括如下之一或任意组合:
42.用户历史登录总次数;
43.用户过去预设天数内的登录总次数;
44.用户过去最近一次登录和计算日期当天的时间差;
45.用户历史登录历史;
46.计算日期当天用户是否登录过。
47.步骤103、将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到。
48.实施时,可以将经过预处理过的用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果。例如,可以先将用户个人数据、衍生特征数据输入融合树模型,预测判断用户在未来30天内的每一天是否会登录。此步骤可以理解为对最终用户留存预测的预判断,是对时间序列模型预测用户留存的补充和加强判断。
49.其中,所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到。实施时,
需要提前获取大量的历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果作为基础数据集,构建训练集和测试集;可以基于lightgbm、catboost、xgboost三种决策树模型构建回归模型,并做模型融合处理,也可以针对更多的决策树模型进行融合处理,本发明在此仅作示例;之后,利用训练集对其训练,直至模型收敛,得到融合树模型;再利用测试集对其测试,得到融合树模型。融合树模型未使用单一决策树模型,而是融合了多种决策树模型,避免了单一模型计算数据的片面性,使得最终的用户留存预测更加准确。
50.在一个实施例中,在将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果之前,对用户个人数据中的多个数值进行平均处理。
51.步骤104、将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。
52.实施时,将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和前述融合数模型输出的用户在未来预设天数内的每一天是否会登录的判断结果,输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值。具体的,在预测用户在未来预设天数内的每一天登录的概率值的时候,融合前述融合数模型输出的用户在未来预设天数内的每一天是否会登录的判断结果,输出最终的用户在未来预设天数内的每一天登录的概率值。
53.例如,将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和前述融合数模型输出的用户在未来60天内的每一天是否会登录的判断结果,输入时间序列模型,输出用户在未来60天内的每一天登录的概率数值,从而可以依据此概率数值,进行针对性营销,例如显示“欢迎回来”,赠送礼物等。
54.图2为本发明实施例中用户留存预测方法的一具体实施例,如图2所示,图1中将用户登录行为序列、用户交易行为序列和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值,包括:
55.步骤201、将用户登录行为序列、用户交易行为序列在时间序列模型中经过两层卷积层、两层池化层计算后,输出第一结果;
56.步骤202、将第一结果和用户个人数据、衍生特征数据进行合并,输出第二结果;
57.步骤203、将第二结果和前述融合数模型输出的用户在未来预设天数内的每一天是否会登录的判断结果输入激活层,输出用户在未来预设天数内的每一天登录的概率值;其中,时间序列模型包括两层卷积层、两层池化层和激活层。
58.例如,时间序列模型包括输入层、两层卷积层、两层池化层、激活层和输出层,向输入层输入用户登录行为序列和用户交易行为序列,每条输入的用户登录行为序列和用户交易行为序列都会被展成8
×
8的矩阵,并经过两次卷积和两次最大池化处理,每次通过3
×
3卷积核的移动学习局部的特征和周期特征,得到16维的特征数据;将该16维的特征数据与用户个人数据、衍生特征数据进行合并,并与前述融合数模型输出的用户在未来预设天数
内的每一天是否会登录的判断结果一起经过dnn和sigmoid激活层、输出层,最终输出用户在未来预设天数内的每一天登录的概率值。
59.图3为本发明实施例中用户留存预测方法的一具体实施例,如图3所示,所述时间序列模型按如下方式训练得到:
60.步骤301、收集历史用户数据;
61.步骤302、从历史用户数据中抽样选取用户登录时间不一致的用户数据;
62.步骤303、根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集;
63.步骤304、搭建cnn模型,利用训练集对cnn模型进行训练,得到时间序列模型;利用测试集对时间序列模型进行测试。
64.具体实施时,获取大量的历史用户数据作为原始样本数据,通过统计抽样方法对不同登陆时间或不同登录次数的用户选取一部分数据,从而使得不同登陆时间或不同登录次数的用户人数均衡,学习到内在的特征;同时,考虑到用户未登录或用户未交易的用户数据,为了使用户预测留存结果有较大的提升,在构建训练集和测试集时,抽样选取较多的用户未登录或用户未交易的用户数据构建训练集,例如,抽样选取第一预设比例的用户未登录或用户未交易的用户数据构建训练集;抽样选取较少的用户未登录或用户未交易的用户数据构建测试集,例如,抽样选取第二预设比例的用户未登录或用户未交易的用户数据构建测试集;其中,第一预设比例大于第二预设比例,这样能使预测效果有更多的提升空间。例如,根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取70%的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集;根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取30%的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建测试集;搭建cnn模型,利用训练集对cnn模型进行训练,得到时间序列模型;利用测试集对时间序列模型进行测试。
65.在一个实施例中,若用户为新用户,只有注册信息或第一次的登录数据,此时可以利用新用户的个人数据,将新用户的个数数据、注册信息或第一次的登录数据预处理后,输入融合树模型,输出该新用户在未来预设天数内的每一天是否会登录的判断结果。
66.图4为本发明实施例中用户留存预测方法的一具体实施例,如图4所示,本例中首先获取数据,包括用户个人数据、用户登录数据、用户交易数据;然后进行数据预处理,得到用户登录行为序列、用户交易行为序列、衍生特征数据和用户个人平均数据;将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;将用户登录行为序列、用户交易行为序列、衍生特征数据和用户个人平均数据输入时间序列模型,输出用户在未来预设天数内的每一天登录的第一概率值;将融合树模型输出的用户在未来预设天数内的每一天是否会登录的判断结果和时间序列模型输出的用户在未来预设天数内的每一天登录的第一概率值进行融合再处理,输出最终用户留存预测结
果,即用户在未来预设天数内的每一天登录的概率值。
67.本发明实施例中还提供了一种用户留存预测装置,如下面的实施例所述。由于该装置解决问题的原理与用户留存预测方法相似,因此该装置的实施可以参见用户留存预测方法的实施,重复之处不再赘述。
68.图5为本发明实施例中用户留存预测装置的示意图,如图5所示,该装置包括:
69.数据获取模块501,用于获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;
70.数据处理模块502,用于根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;
71.融合树模型处理模块503,用于将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;
72.时间序列模型处理模块504,用于将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。
73.在一个实施例中,所述用户登录数据包括如下之一或任意组合:
74.用户登录时间;
75.用户登录次数;
76.用户登录方式。
77.在一个实施例中,所述衍生特征数据包括如下之一或任意组合:
78.用户历史登录总次数;
79.用户过去预设天数内的登录总次数;
80.用户过去最近一次登录和计算日期当天的时间差;
81.用户历史登录历史;
82.计算日期当天用户是否登录过。
83.在一个实施例中,时间序列模型处理模块504,具体用于:
84.将用户登录行为序列、用户交易行为序列在时间序列模型中经过两层卷积层、两层池化层计算后,输出第一结果;
85.将第一结果和用户个人数据、衍生特征数据进行合并,输出第二结果;
86.将第二结果和所述判断结果输入激活层,输出用户在未来预设天数内的每一天登录的概率值;
87.其中,时间序列模型包括两层卷积层、两层池化层和激活层。
88.在一个实施例中,所述时间序列模型按如下方式训练得到:
89.收集历史用户数据;
90.从历史用户数据中抽样选取用户登录时间不一致的用户数据;
91.根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为
序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集;
92.搭建cnn模型,利用训练集对cnn模型进行训练,得到时间序列模型;利用测试集对时间序列模型进行测试。
93.在一个实施例中,根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集,包括:
94.根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取第一预设比例的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集;
95.根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取第二预设比例的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建测试集;
96.其中,第一预设比例大于第二预设比例。
97.在一个实施例中,数据处理模块502,还用于:
98.在将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果之前,对用户个人数据中数值进行平均处理。
99.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户留存预测方法。
100.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户留存预测方法。
101.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述用户留存预测方法。
102.本发明实施例中获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。本发明实施例中,首先利用融合树模型判断用户在未来预设天数内的每一天是否会登录,然后利用时间序列模型,结合融合树模型输出的判断结果,预测用户在未来预设天数内的每
一天登录的概率值,实现了用融合树模输出的判断结果对时间序列模型输出的预测结果进行加强判断处理,输出了最终的用户留存预测结果,提高了用户留存预测的准确度;另外,融合树模型未使用单一树模型,而是融合了多种决策树模型,避免了单一模型计算数据的片面性,并且充分考虑了用户交易数据、用户登录数据和用户个人数据对用户留存预测的影响,具有更多的有效数据特征,进一步提高了用户留存预测的准确度。
103.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
104.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
105.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
106.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
107.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种用户留存预测方法,其特征在于,包括:获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。2.如权利要求1所述的方法,其特征在于,所述用户登录数据包括如下之一或任意组合:用户登录时间;用户登录次数;用户登录方式。3.如权利要求1所述的方法,其特征在于,所述衍生特征数据包括如下之一或任意组合:用户历史登录总次数;用户过去预设天数内的登录总次数;用户过去最近一次登录和计算日期当天的时间差;用户历史登录历史;计算日期当天用户是否登录过。4.如权利要求1所述的方法,其特征在于,将用户登录行为序列、用户交易行为序列和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值,包括:将用户登录行为序列、用户交易行为序列在时间序列模型中经过两层卷积层、两层池化层计算后,输出第一结果;将第一结果和用户个人数据、衍生特征数据进行合并,输出第二结果;将第二结果和所述判断结果输入激活层,输出用户在未来预设天数内的每一天登录的概率值;其中,时间序列模型包括两层卷积层、两层池化层和激活层。5.如权利要求2所述的方法,其特征在于,所述时间序列模型按如下方式训练得到:收集历史用户数据;从历史用户数据中抽样选取用户登录时间不一致的用户数据;根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结
果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集;搭建cnn模型,利用训练集对cnn模型进行训练,得到时间序列模型;利用测试集对时间序列模型进行测试。6.如权利要求5所述的方法,其特征在于,根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集,包括:根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取第一预设比例的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集;根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取第二预设比例的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建测试集;其中,第一预设比例大于第二预设比例。7.如权利要求1所述的方法,其特征在于,在将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果之前,还包括:对用户个人数据中数值进行平均处理。8.一种用户留存预测装置,其特征在于,包括:数据获取模块,用于获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;数据处理模块,用于根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;融合树模型处理模块,用于将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型根据历史用户个人数据、历史衍生特征数据和历史用户在历史预设天数内的每一天是否登录的实际结果对多种决策树模型融合训练得到;时间序列模型处理模块,用于将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值;所述时间序列模型根据历史用户登录行为序列、历史用户交易行为序列、历史用户在历史预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值对卷积神经网络cnn模型训练得到。9.如权利要求8所述的装置,其特征在于,所述用户登录数据包括如下之一或任意组合:用户登录时间;用户登录次数;用户登录方式。10.如权利要求8所述的装置,其特征在于,所述衍生特征数据包括如下之一或任意组
合:用户历史登录总次数;用户过去预设天数内的登录总次数;用户过去最近一次登录和计算日期当天的时间差;用户历史登录历史;计算日期当天用户是否登录过。11.如权利要求8所述的装置,其特征在于,时间序列模型处理模块,具体用于:将用户登录行为序列、用户交易行为序列在时间序列模型中经过两层卷积层、两层池化层计算后,输出第一结果;将第一结果和用户个人数据、衍生特征数据进行合并,输出第二结果;将第二结果和所述判断结果输入激活层,输出用户在未来预设天数内的每一天登录的概率值;其中,时间序列模型包括两层卷积层、两层池化层和激活层。12.如权利要求9所述的装置,其特征在于,所述时间序列模型按如下方式训练得到:收集历史用户数据;从历史用户数据中抽样选取用户登录时间不一致的用户数据;根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集;搭建cnn模型,利用训练集对cnn模型进行训练,得到时间序列模型;利用测试集对时间序列模型进行测试。13.如权利要求12所述的装置,其特征在于,根据抽样选取的用户登录时间不一致的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集和测试集,包括:根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取第一预设比例的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建训练集;根据抽样选取的用户登录时间不一致的用户数据,再次抽样选取第二预设比例的用户未登录或用户未交易的用户数据,获取对应的历史用户登录行为序列、历史用户交易行为序列、历史用户在历史未来预设天数内的每一天是否登录的实际结果和历史用户在历史预设天数内的每一天登录的概率值,构建测试集;其中,第一预设比例大于第二预设比例。14.如权利要求8所述的装置,其特征在于,数据处理模块,还用于:在将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果之前,对用户个人数据中数值进行平均处理。15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方
法。16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。

技术总结


本发明公开了一种用户留存预测方法及装置,涉及人工智能技术领域,其中该方法包括:获取用户数据;所述用户数据包括用户个人数据、用户登录数据、用户交易数据;根据用户数据生成用户登录行为序列、用户交易行为序列和衍生特征数据;所述衍生特征数据包括根据用户登录数据确定的用户特征数据;将用户个人数据、衍生特征数据输入融合树模型,输出用户在未来预设天数内的每一天是否会登录的判断结果;所述融合树模型对多种决策树模型融合训练得到;将用户个人数据、用户登录行为序列、用户交易行为序列、衍生特征数据和所述判断结果输入时间序列模型,输出用户在未来预设天数内的每一天登录的概率值。本发明可以提高用户留存预测的准确度。准确度。准确度。


技术研发人员:

童楚婕

受保护的技术使用者:

中国银行股份有限公司

技术研发日:

2022.10.18

技术公布日:

2022/12/23

本文发布于:2024-09-23 01:34:56,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/47043.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:用户   数据   序列   历史
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议