游戏用户付费级别预测方法、系统、设备和存储介质与流程

1.本技术涉及互联网技术领域，特别是涉及游戏用户付费级别预测方法、系统、电子设备和存储介质。

背景技术：

2.随着游戏规模的扩展，游戏玩家数量急剧增长，游戏开发者希望能够对庞大的用户体根据用户的潜在付费能力进行划分，从而针对每个用户体使用不同的运营策略。
3.由于游戏数据的宝贵价值，目前在游戏数据预测消费行为方面形成了行业壁垒。现有的文献大多只关注社交媒体或游戏设计观点，只有少数研究涉及到游戏内购买问题。目前常使用数据基础模型(包括方差分析、因子分析等)对游戏用户付费行为进行预测，但是预测结果的准确性较低。

技术实现要素：

4.本技术实施例提供了一种游戏用户付费级别预测方法、系统、电子设备和存储介质，以至少解决相关技术中预测结果准确度较低的问题。
5.第一方面，本技术实施例提供了一种游戏用户付费级别预测方法，所述方法包括：读取游戏服务端数据库中的用户游戏数据；预处理所述用户游戏数据，得到训练集的第一样本和测试集的第二样本；针对所述第一样本和所述第二样本，通过kmeans聚类算法计算得到付费级别分界值；根据所述付费级别分界值，得到各样本的付费级别，并将所述付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；利用所述带标签第一样本训练决策树模型，并利用所述带标签第二样本对所述决策树模型进行测试；通过训练好的决策树模型对游戏用户付费级别进行预测。
6.在其中一些实施例中，所述的预处理所述用户游戏数据包括：
7.对所述用户游戏数据的缺失值进行补入，其中，所述用户游戏数据分为日期类与数值类；将日期类数据加工为距离当前日期的天数。
8.在其中一些实施例中，所述通过kmeans聚类算法计算得到付费级别分界值包括：
9.通过kmeans聚类算法得到预设数量的类别；
10.计算每个类别的最大值和最小值，并将所述最大值和所述最小值从小到大排列；
11.根据排列后的各类别的最大值和最小值，计算付费级别分界值。
12.在其中一些实施例中，所述根据所述付费级别分界值，得到各样本的付费级别包括：
13.将各样本与所述付费级别分界值进行比较，判断出各样本对应的类别，得到各样本的付费级别。
14.在其中一些实施例中，在所述的预处理所述用户游戏数据，得到训练集的第一样本和测试集的第二样本之后，所述方法还包括：
15.对所述第一样本及所述第二样本分析所有维度之间的相关性；
16.将相关度高于第一预设值的维度合并，将与付费类维度相关度低于第二预设值的维度剔除。
17.在其中一些实施例中，所述的利用所述带标签第一样本训练决策树模型包括：
18.对游戏时长维度的值按照从小到大排序，取相邻两个值的平均值作为候选划分点，并按预设的分裂策略分裂叶子节点；
19.当达到节点纯度的阈值，或者达到最大层数，或者达到最小样本数阈值时，停止分裂叶子节点，得到训练好的决策树模型。
20.在其中一些实施例中，在所述的得到训练好的决策树模型之后，所述方法还包括：
21.对所述训练好的决策树模型进行剪枝，并提取从根节点到叶子节点的路径，将每条路径存为一条字符串，在每条字符串的最后加上类别，得到各付费级别的游戏用户体核心判别路径。
22.第二方面，本技术实施例提供了一种游戏用户付费级别预测系统，所述系统包括：
23.数据库操作模块，用于读取游戏服务端数据库中的用户游戏数据；
24.用户游戏数据预处理模块，用于预处理所述用户游戏数据，得到训练集的第一样本和测试集的第二样本；
25.付费级别分界值确定模块，用于针对所述第一样本和所述第二样本，通过kmeans聚类算法计算得到付费级别分界值；
26.标签增加模块，用于根据所述付费级别分界值，得到各样本的付费级别，并将所述付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；
27.决策树模型训练模块，用于利用所述带标签第一样本训练决策树模型；
28.决策树模型测试模块，用于利用所述带标签第二样本对所述决策树模型进行测试；
29.用户付费级别预测模块，用于通过训练好的决策树模型对游戏用户付费级别进行预测。
30.第三方面，本技术实施例提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项所述的方法。
31.第四方面，本技术实施例提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项所述的方法。
32.根据上述内容，本技术实施例提供的游戏用户付费级别预测方法，包括：读取游戏服务端数据库中的用户游戏数据；预处理用户游戏数据，得到训练集的第一样本和测试集的第二样本；针对第一样本和第二样本，通过kmeans聚类算法计算得到付费级别分界值；根据付费级别分界值，得到各样本的付费级别，并将付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；利用带标签第一样本训练决策树模型，并利用带标签第二样本对决策树模型进行测试；通过训练好的决策树模型对游戏用户付费级别进行预测。本技术实施例采用kmeans聚类算法分类准确，并将kmeans聚类算法和决策树模型进行结合，从而对游戏用户付费级别进行预测，极大的提高了预测结果的准确性。
附图说明
33.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
34.图1是根据本技术实施例的游戏用户付费级别预测方法的流程图；
35.图2是根据本技术实施例的游戏用户付费级别预测系统的结构框图；
36.图3是根据本技术实施例的电子设备的内部结构示意图。
具体实施方式
37.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。基于本技术提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本技术公开的内容相关的本领域的普通技术人员而言，在本技术揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本技术公开的内容不充分。
38.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本技术所描述的实施例在不冲突的情况下，可以与其它实施例相结合。
39.除非另作定义，本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本技术所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。
40.本技术实施例提供一种游戏用户付费级别预测方法，图1是根据本技术实施例的游戏用户付费级别预测方法的流程图，如图1所示，该方法包括以下步骤：
41.s101：读取游戏服务端数据库中的用户游戏数据；
42.s102：预处理用户游戏数据，得到训练集的第一样本和测试集的第二样本；
43.s103：针对第一样本和第二样本，通过kmeans聚类算法计算得到付费级别分界值；
44.s104：根据付费级别分界值，得到各样本的付费级别，并将付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；
45.s105：利用带标签第一样本训练决策树模型，并利用带标签第二样本对决策树模
型进行测试；
46.s106：通过训练好的决策树模型对游戏用户付费级别进行预测。
47.根据上述内容，本技术实施例采用kmeans聚类算法分类准确，并将kmeans聚类算法和决策树模型进行结合，从而对游戏用户付费级别进行预测，极大的提高了预测结果的准确性。
48.为了更清楚的对本技术进行说明，下文对各步骤进行详细的阐述。
49.步骤s101：读取游戏服务端数据库中的用户游戏数据。
50.作为一个示例，通过python的configparser包读取ini配置文件中的游戏服务端数据库中的用户游戏数据，将其按7:3比例划分，并通过下文的预处理步骤(即s102)得到训练集(7)和测试集(3)。
51.作为一个示例，用户游戏数据包括但不限于：玩家等级，近3月登陆次数，近3月充值金额，近3月充值次数，近3月游戏时长(秒)，累计游戏时长(秒)，近3月登录天数，首次登录时间，最后登录时间，首次充值时间，最后充值时间，首次充值金额，累计充值金额，近3月竞技次数，近3月竞技胜利次数，近3月竞技时长(秒)，近3月关卡次数，近3月关卡胜利次数，近3月关卡时长(秒)，近3月竞技天数，近3月关卡天数，是否vip用户，vip等级，其中可根据游戏的不同增加或删除一些维度。
52.步骤s102：预处理用户游戏数据，得到训练集的第一样本和测试集的第二样本。
53.作为一个示例，对用户游戏数据的缺失值进行补入，其中，用户游戏数据分为日期类与数值类。对于日期类数据，如将“none”改为“1970-01-01 00:00:00”。对于数值类数据，如累计付费金额(user_money)，将“none”改为“int64”类型值0。
54.作为一个示例，将日期类数据加工为距离当前日期的天数。
55.作为一个示例，对第一样本及第二样本分析所有维度之间的相关性；将相关度高于第一预设值(例如为0.9)的维度合并，将与付费类维度相关度低于第二预设值(例如为0.1)的维度剔除。就相关度非常高的维度特征对而言，在决策树模型分类时的作用重叠，因此为了减小计算消耗，应尽可能地缩小训练数据的规模，因此只保留其中一个维度特征。可选的，在分析所有维度之间的相关性时，可以计算所有两两维度的皮尔逊相关系数。
56.步骤s103：针对第一样本和第二样本，通过kmeans聚类算法计算得到付费级别分界值。
57.作为一个示例，通过kmeans聚类算法得到预设数量的类别；计算每个类别的最大值和最小值，并将最大值和最小值从小到大排列；根据排列后的各类别的最大值和最小值，计算付费级别分界值(seperate)。
58.例如，首先对于游戏付费用户根据实际场景决定要分类的数量，假设分为n类，则对用户的累计付费金额通过kmeans聚类算法将其分为n类，得到n-1个临界值，将n类用户累计付费金额的最大值与最小值从小到大排序，1_min，1_max，2_min，2_max，...，n_min，n_max，并进一步根据排序结果得到第i付费级别到第i+1付费级别的分界值为：
59.seperate_i＝{i_max+(i+1)_min}/2，i＝1，2，...，n-1。
60.步骤s104：根据付费级别分界值，得到各样本的付费级别，并将付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本。
61.作为一个示例，将各样本与付费级别分界值进行比较，判断出各样本对应的类别，
得到各样本的付费级别。
62.如一个用户的累计付费金额，seperate_i-1《user_money《＝seperate_i，则此用户的付费级别为i，i＝1，2，...，n。
63.步骤s105：利用带标签第一样本训练决策树模型，并利用带标签第二样本对决策树模型进行测试。
64.对决策树选择最优划分维度的评价指标为基尼指数(gini index)，gini(d)反映了数据集d中随机抽取两个样本，其类别标记不一致的概率。因此，gini(d)越小，则数据集d的纯度越高。数据集d的基尼指数的表达公式如下：
[0065][0066]
其中，n表示有n个付费级别，k表示第k付费级别，pk表示样本属于第k付费级别的概率。
[0067]
例如，维度a的基尼指数的表达公式如下：
[0068][0069]
其中，v表示维度a的v个取值，dv表示样本集d中维度a取值为v的样本数，gini(dv)为样本集dv的基尼指数，最优划分维度a
*
表达为：
[0070][0071]
其中，a表示样本集d中样本的维度集合，如果维度a是离散型维度，则对应v种类型值，如性别维度：“男”、“女”，如省份维度：“广东”、“浙江”、“北京”等；如果维度a是连续性维度，如游戏时长(用分钟表示)，此时可取的值有无穷多个。假设连续维度a在数据集d上总共出现了n_a个不同的值，将这n_a个值从小到大排序：v_1,v_2,...,v_{n_a}，则对相邻的维度值v_i和v_{i+1}，可在区间[v_i,v_{i+1})上取任意实数值作为候选划分点。优选的，取(v_i+v_{i+1})/2作为候选划分点，则得到n_a-1个候选划分点(v_i+v_{i+1})/2，i＝1,2,...,n_a-1，记为：
[0072][0073]
所以能够得到以下表达式：
[0074][0075]
其中，表示样本集d中维度a取值≥t的样本集，表示样本集d中维度a取值《t的样本集，按照上述分裂策略进行节点分裂，而停止分裂条件包括：(1)达到节点纯度的阈值，如预先设置为gini(d)≥0.9；(2)达到最大层数，如8层；(3)达到最小样本数阈值。若满足上述任一条件则停止分裂叶子节点。
[0076]
作为一个示例，本技术在训练完决策树模型后，对训练好的决策树模型进行剪枝。例如，以自底向上的方式，即从叶子节点到根节点，如果将当前子树替换为叶子节点，在验证集上的精度不下降，则替换，否则不替换。
[0077]
作为一个示例，根据决策树模型，生成从根节点到叶子节点的路径，提取所有路径，每条路径存为一条字符串，并在每条字符串的最后加上“类别：类别号”，例如格式为：累计充值金额》100
‑‑‑
》级别《25|类别:1，表示满足这个条件的用户被判别为付费类别1。因此，能够得到各付费级别的游戏用户体核心判别路径，该判别路径是指从根节点到叶子节点的路径，包含每个节点分枝维度与分枝条件，以便于产品运营或策划人员在了解关键路径后，能了解用户在往更高付费级别提升时，还有哪些维度的值不够高，如某用户打关卡次数为180，而关键路径上等级需到200，则能够有针对性的调整运营策略。
[0078]
步骤s106：通过训练好的决策树模型对游戏用户付费级别进行预测。
[0079]
本技术实施例还提供一种游戏用户付费级别预测系统，图2是根据本技术实施例的游戏用户付费级别预测系统的结构框图，如图2所示，该系统包括：数据库操作模块1、用户游戏数据预处理模块2、付费级别分界值确定模块3、标签增加模块4、决策树模型训练模块5、决策树模型测试模块6、用户付费级别预测模块7。
[0080]
数据库操作模块1用于读取游戏服务端数据库中的用户游戏数据；用户游戏数据预处理模块2用于预处理用户游戏数据，得到训练集的第一样本和测试集的第二样本；付费级别分界值确定模块3用于针对第一样本和第二样本，通过kmeans聚类算法计算得到付费级别分界值；标签增加模块4用于根据付费级别分界值，得到各样本的付费级别，并将付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；决策树模型训练模块5用于利用带标签第一样本训练决策树模型；决策树模型测试模块6用于利用带标签第二样本对决策树模型进行测试；用户付费级别预测模块7用于通过训练好的决策树模型对游戏用户付费级别进行预测。
[0081]
根据上述内容，本技术实施例将kmeans聚类算法和决策树模型进行结合，为游戏用户付费级别预测提供了一种准确的预测方法。
[0082]
为了更清楚的对本技术进行说明，下文对模块进行详细的阐述。
[0083]
游戏服务端数据库中包含2张表，游戏用户累计游戏数据记录表和游戏用户付费级别预测表，游戏用户累计游戏数据记录表中的用户游戏数据包括但不限于：玩家等级，近3月登陆次数，近3月充值金额，近3月充值次数，近3月游戏时长：秒，累计游戏时长；秒，近3月登录天数，首次登录时间，最后登录时间，首次充值时间，最后充值时间，首次充值金额，累计充值金额，近3月竞技次数，近3月竞技胜利次数，近3月竞技时长：秒，近3月关卡次数，近3月关卡胜利次数，近3月关卡时长：秒，近3月竞技天数，近3月关卡天数，是否vip用户，vip等级，其中可根据游戏的不同增加或删除一些维度。
[0084]
数据库操作模块1读取上述的用户游戏数据。例如，通过python的configparser包读取ini配置文件中的游戏服务端数据库中的用户游戏数据，将其按7:3比例划分为训练集与测试集。
[0085]
用户游戏数据预处理模块2预处理用户游戏数据，得到训练集的第一样本和测试集的第二样本。预处理步骤包括：对用户游戏数据的缺失值进行补入，其中，用户游戏数据分为日期类与数值类。对于日期类数据，如要将最近一次登陆日期last_login_time的默认缺失值“none”修改为“1970-01-01 00:00:00”则执行dataset_pd.loc[dataset_df[“last_login_time”].values＝“none”，“last_login_time”]＝“1970-01-01 00:00:00”。对于数值类数据，如累计付费金额(user_money)，将“none”改为“int64”类型值0。预处理步骤还包
括：日期类数据加工，如将日期类数据，“yy-mm-dd hh:mm:ss”或“yy-mm-dd”加工为距离当前日期的天数，其中“yy-mm-dd hh:mm:ss”表示“年-月-日时：分：秒”，“yy-mm-dd”表示“年-月-日”。
[0086]
付费级别分界值确定模块3针对第一样本和第二样本，通过kmeans聚类算法计算得到付费级别分界值。例如，首先对游戏付费用户根据实际场景决定要分类的数量，假设分为n类，则对用户的累计付费金额将其分为n类，得到n-1个临界值。从python的sklearn.cluster包中导入kmeans聚类算法，创建kmeans聚类算法模型并定义要聚类的数量km＝kmeans(n_clusters＝类别数n)，根据用户的累计付费金额cluster_feature_value＝[[用户1的累计付费金额]，[用户2的累计付费金额]，...，[用户n的累计付费金额]]，得到每个用户的付费级别标签label＝km.fit_predict(cluster_feature_value)＝[用户1的付费级别标签，用户2的付费级别标签，...，用户n的付费级别标签]。求划分类别＝i，i＝1，2，...，n的最大值i_max，最小值i_min，再将1_max，1_min，2_max，2_min，...，n_max，n_min从小到大排序，得到按从小到大排序的每类的最大值与最小值1_min，1_max，2_min，2_max，...，n_min，n_max。并进一步根据排序结果得到第i付费级别到第i+1付费级别的分界值seperate_i＝{i_max+(i+1)_min)}/2，i＝1，2，...，n-1。
[0087]
标签增加模块4根据付费级别分界值，得到各样本的付费级别，并将付费级别作为标签设置到对应的样本，得到训练集的带标签第一样本和测试集的带标签第二样本。作为一个示例，根据付费级别分界值确定模块3得出的用户付费级别分界值，确定用户付费级别。
[0088]
例如，设seperate_0＝0，seperate_n＝+infinite，如一个用户的累计付费金额，seperate_i-1《user_money《＝seperate_i，则此用户的付费级别为i，i＝1，2，...，n。然后，将付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本。
[0089]
决策树模型训练模块5基于带标签第一样本，调用决策树算法，生成决策树模型clf，调用方法如下：
[0090]
from sklearn.tree import decisiontreeclassifier
[0091]
clf＝decisiontreeclassifier(criterion＝'gini',min_samples_split＝min(50,(int)(0.001*总记录条数))，min_samples_leaf＝15，max_depth＝11，class_weight＝{“1”:权重1，...“n”：权重n})。
[0092]
其中min_sample_split表示要分叉的父节点需包含的最少记录数，max_depth为树的最大层数，class_weight为样本权重，格式如上例。所有参数都需根据实际场景调整。
[0093]
clf＝clf.fit(training_dataset,target_of_training_dataset),其中training_dataset为训练集除去标签所有的数据，target_of_training_dataset为训练集training_dataset对应的用户标签，即用户的付费级别标签。
[0094]
决策树模型测试模块6中测试集格式和训练集格式相同，使用函数target_predict＝decisiontreeclassifier.predict(测试集)，得到相应的测试集中每个用户的付费级别预测结果。
[0095]
用户付费级别预测模块7通过训练好的决策树模型对游戏用户付费级别进行预测。
[0096]
进一步的，将预测结果输出到游戏服务端数据库中的用户付费级别预测表中。
[0097]
可选的，上述系统还包括维度剔除模块，用于对第一样本及第二样本分析所有维度之间的相关性；将相关度高于第一预设值的维度合并，将与付费类维度相关度低于第二预设值的维度剔除。
[0098]
可选的，上述系统还包括剪枝模块，用于对训练好的决策树模型进行剪枝。例如，以自底向上的方式，即从叶子节点到根节点，如果将当前子树替换为叶子节点，在验证集上的精度不下降，则替换，否则不替换。
[0099]
可选的，上述系统还包括判别路径提取模块，用于提取从根节点到叶子节点的路径，将每条路径存为一条字符串，在每条字符串的最后加上类别，得到各付费级别的游戏用户体核心判别路径。进一步的，可通过判别路径输出模块将判别路径字符串存到游戏服务端数据库的各付费级别的游戏用户体核心判别路径表中。
[0100]
需要说明的是，本技术实施例各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0101]
另外，结合上述实施例中的游戏用户付费级别预测方法，本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种游戏用户付费级别预测方法。
[0102]
本技术的一个实施例中还提供了一种电子设备，该电子设备可以是终端。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种游戏用户付费级别预测方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0103]
在一个实施例中，图3是根据本技术实施例的电子设备的内部结构示意图，如图3所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种游戏用户付费级别预测方法，数据库用于存储数据。
[0104]
本领域技术人员可以理解，图3中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0105]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申
请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0106]
本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0107]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：

1.一种游戏用户付费级别预测方法，其特征在于，所述方法包括：读取游戏服务端数据库中的用户游戏数据；预处理所述用户游戏数据，得到训练集的第一样本和测试集的第二样本；针对所述第一样本和所述第二样本，通过kmeans聚类算法计算得到付费级别分界值；根据所述付费级别分界值，得到各样本的付费级别，并将所述付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；利用所述带标签第一样本训练决策树模型，并利用所述带标签第二样本对所述决策树模型进行测试；通过训练好的决策树模型对游戏用户付费级别进行预测。2.根据权利要求1所述的方法，其特征在于，所述的预处理所述用户游戏数据包括：对所述用户游戏数据的缺失值进行补入，其中，所述用户游戏数据分为日期类与数值类；将日期类数据加工为距离当前日期的天数。3.根据权利要求1所述的方法，其特征在于，所述通过kmeans聚类算法计算得到付费级别分界值包括：通过kmeans聚类算法得到预设数量的类别；计算每个类别的最大值和最小值，并将所述最大值和所述最小值从小到大排列；根据排列后的各类别的最大值和最小值，计算付费级别分界值。4.根据权利要求3所述的方法，其特征在于，所述根据所述付费级别分界值，得到各样本的付费级别包括：将各样本与所述付费级别分界值进行比较，判断出各样本对应的类别，得到各样本的付费级别。5.根据权利要求1所述的方法，其特征在于，在所述的预处理所述用户游戏数据，得到训练集的第一样本和测试集的第二样本之后，所述方法还包括：对所述第一样本及所述第二样本分析所有维度之间的相关性；将相关度高于第一预设值的维度合并，将与付费类维度相关度低于第二预设值的维度剔除。6.根据权利要求1所述的方法，其特征在于，所述的利用所述带标签第一样本训练决策树模型包括：对游戏时长维度的值按照从小到大排序，取相邻两个值的平均值作为候选划分点，并按预设的分裂策略分裂叶子节点；当达到节点纯度的阈值，或者达到最大层数，或者达到最小样本数阈值时，停止分裂叶子节点，得到训练好的决策树模型。7.根据权利要求6所述的方法，其特征在于，在所述的得到训练好的决策树模型之后，所述方法还包括：对所述训练好的决策树模型进行剪枝，并提取从根节点到叶子节点的路径，将每条路径存为一条字符串，在每条字符串的最后加上类别，得到各付费级别的游戏用户体核心判别路径。8.一种游戏用户付费级别预测系统，其特征在于，所述系统包括：
数据库操作模块，用于读取游戏服务端数据库中的用户游戏数据；用户游戏数据预处理模块，用于预处理所述用户游戏数据，得到训练集的第一样本和测试集的第二样本；付费级别分界值确定模块，用于针对所述第一样本和所述第二样本，通过kmeans聚类算法计算得到付费级别分界值；标签增加模块，用于根据所述付费级别分界值，得到各样本的付费级别，并将所述付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；决策树模型训练模块，用于利用所述带标签第一样本训练决策树模型；决策树模型测试模块，用于利用所述带标签第二样本对所述决策树模型进行测试；用户付费级别预测模块，用于通过训练好的决策树模型对游戏用户付费级别进行预测。9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的方法。10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的方法。

技术总结

本申请涉及互联网技术领域，特别是涉及游戏用户付费级别预测方法、系统、电子设备和存储介质。上述方法包括:读取游戏服务端数据库中的用户游戏数据；预处理用户游戏数据，得到训练集的第一样本和测试集的第二样本；针对第一样本和第二样本，通过Kmeans聚类算法计算得到付费级别分界值；根据付费级别分界值，得到各样本的付费级别，并将付费级别作为标签设置到对应的样本，得到带标签第一样本和带标签第二样本；利用带标签第一样本训练决策树模型，并利用带标签第二样本对决策树模型进行测试；通过训练好的决策树模型对游戏用户付费级别进行预测。根据本申请实施例，能够提高预测结果的准确度。果的准确度。果的准确度。