一种基于商品文本分类的电商类目属性挖掘方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910599049.6(22)申请日 2019.07.04
(71)申请人 刘凡
地址 211100 江苏省南京市江宁区佛城西
路8号(72)发明人 刘凡 张伟娟 刘森斌 (74)专利代理机构 南京品智知识产权代理事务
所(普通合伙) 32310
代理人 奚晓宁 杨陈庆(51)Int.Cl.
G06F  16/35(2019.01)G06F  16/31(2019.01)G06Q  30/06(2012.01)
(54)发明名称
一种基于商品文本分类的电商类目属性挖掘方法(57)摘要
本发明公开了一种基于商品文本分类的电商类目属性挖掘方法,属于电商类目属性挖掘技术领域。该方法使用文本分类模型,根据商品文本信息对商品进行分类;基于一级类目商品分类模型与对应目标端一级类目数据建立映射;基于叶子类目商品分类模型与对应目标端叶子类目数据建立映射;基于源端类目体系和目标类目体系的映射,预测源端类目属性和目标端类目属性的相似度,建立类目属性映射,挖掘源端类目下未建立映射的属性作为目标类目的推荐属性;挖掘源端类目属性下未建立映射的属性作为目标类目的推荐属性。本发明在大规模数据集上展现
出了优异的分类效果和良好的分类性能。
权利要求书4页  说明书9页  附图2页
CN 110287329 A 2019.09.27
C N  110287329
A
1.一种基于商品文本分类的电商类目属性挖掘方法,其特征在于,包括如下步骤:
创建源端商品标题文本数据集为,其中
表示源端第i个一级类目所包含的文本数据集合,其中
,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级
类目的第p个叶子类目所包含的文本数据集合,其中,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
创建目标端商品标题文本数据集,其中
表示目标端第j个一级类目所包含的文本数据集合,
其中,N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶
子类目所包含的文本数据集合,其中,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤2,对源端商品标题文本数据集和目标端
商品标题文本数据集进行文本预处理,所述文本预处理包括文本清洗,文本分词和文本表示等步骤;
将经过文本清洗和文本分词步骤处理过的商品标题用词袋模型进行文本表示,得到源
端数据集为,其中
表示源端数据经文本表示得到的数据集中第i 个一级类目所包含的数据集合,其中,M为源端一级类目的个数,M的取值范
围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,其
中,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
经过文本表示后目标端数据集为,其中
表示目标端数据经文本表示得到的数据集中
第j个一级类目所包含的数据集合,其中,N为目标端一级类目的个数
表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,其中
,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤3,使用数据集训练具有N个一级类目分类结果的fastText 线性文本分类器,得到目标端基于fastText的一级类目商品文本分类模型M-root;对于一
级类目j所有对应的数据集训练具有T个叶子
类目分类结果的fastText线性文本分类器,得到目标端一级类目j下的叶子类目商品文本分类模型M-leaf [j];
步骤4,使用步骤3训练好的模型M-root预测源端一级类目的文本数据集中的每一
条数据,得到每一条数据在目标端对应的一级类目,然后选取出现次数最多的一级类目j作为映射结果;
步骤5,基于步骤4的一级类目映射结果,即源端一级类目与目标端一级类目形成映
射,使用步骤3训练好的叶子类目分类模型M-leaf [j]预测源端类目i对应的文本数据
中的每一条文本数据,其中,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数,得到每条文本数据在目标端一级类目j下对应的叶子类目,然后选取出现次数最多的叶子类目q作为映射结果;
步骤6,基于步骤5的叶子类目映射结果,假设源端一级类目i下的叶子类目p映射到目标端一级类目j的叶子类目q上,则源端一级类目i下的叶子类目p的属性集合
与目标端一级类目j下的叶子类目q的属性集合
形成映射,其中为源端叶子类目
的第a个叶子类目属性,,K表示叶子类目p的属性总数,K的取值范围是正整数,为目标端叶子类目q的第b个叶子类目属性,,L表示叶子类目q的属性总数,L是正整数,设属性映射的文本相似度阈值为Ta;
使用基于LCS算法的属性文本相似度模型M-LCS,计算与中每个属性的文
本相似度,若文本相似度均低于阈值Ta,说明叶子类目q没有此属性,则将放入集合
Att-c,否则取中文本相似度最高的属性(若有多个,则随机取一个)建立映射;产生的集合Att-c即为从源端类目下挖掘的属性,集合Att-c中的属性即为目标端对应叶子类目下的推荐属性;
步骤7,基于步骤6的叶子类目属性映射结果,假设源端叶子类目属性
与目标端叶子类目属性
形成映射,其中为的第u个属性值,
其中,G表示叶子类目属性的属性值总数,G的取值范围是正整数,
为的第w个叶子类目属性属性值,,H表示叶子类目属性的属性值总数,H的取值范围是正整数,设属性值映射的文本相似度阈值为Tv;
使用基于LCS算法的属性文本相似度模型M-LCS,计算与中每个属性值的文本相似度,若文本相似度均低于阈值Tv,说明目标端类目属性没有此属性,则将放入集合Vul-c;产生的集合Vul-c即为从源端类目下挖掘的属性值,集合Vul-c中的属性即为目标端
对应叶子类目属性下的推荐属性值。
2.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法,其特征在于,步骤2所述文本预处理过程包括文本清洗、文本分词、文本表示三个步骤,具体过程如下:2-1)对商品标题字段进行清洗处理,将传入的源端商品标题数据集
和目标端商品标题数据集
中符合正则表达式“[^\\x{4e00}-\\x{9fa5}0-9a-zA-Z]”的部分全部替换为替换字符串,其中“^\\x{4e00}-\\x{9fa5}”表示中文字符,“0-9”表示数字字符,“a-z”表示小写英文字母字符,“A-Z”表示大写英文字母字符;
2-2)基于步骤(2-1)文本清洗的结果,再使用分词组件分别对源端商品标题数据集
和目标端商品标题数据集进行分词;根据分词结果统计源端和目标端商品标题数据集中每个词出现的频数,为目标端商品标题文本数据生成对应的词查表;
2-3)基于步骤(2-2)文本分词的结果,使用词袋模型进行文本表示,并且采用文本的n-grams作为额外特征来获取文本局部顺序的部分信息,用以弥补使用词袋模型的文本表示
带来的语义损失,得到源端数据集为,其中
表示源端数据经文本表示得到的数据集中第i
个一级类目所包含的数据集合,,M为源端一级类目的个数,M的取值范围是
正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,
,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
文本表示后目标端数据集为,其中
表示目标端数据经文本表示得到的数据集中第j个
一级类目所包含的数据集合,,N为目标端一级类目的个数表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数。
3.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法,其特征在于,步骤3所述使用fastText线性文本分类器对一级类目和所属叶子类目的商品标题文本进行分类,具体过程如下:
3-1)以文本的词查表作为权重矩阵A输入fastText文本分类器,隐藏层对权重矩阵A 做简单的叠加然后求平均向量,该平均向量作为词表示的文本表示送入输出层;
3-2)其中输出层使用基于哈夫曼编码树的分层softmax,在这个哈夫曼编码树中,每一个节点代表一个分类标签;以每个分类标签出现的次数为权重来构建该哈夫曼编码树,分类标签出现的次数越多,该分类标签在哈夫曼编码树中的路径就越短;
设该哈夫曼编码树的每个节点都有一个从根节点到该节点的路径概率,如果一个节点
的深度为+1,它的父节点为,...,,那么它的概率为:
其中表示该节点到根结点的路径长度,的取值范围是正整数;
3-3)fastText模型代价函数为:
其中N为输入文本的个数,是第n个文本的标准化向量,是第n个输入文本的对应标签,B和A是模型的权重矩阵。
4.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法,其特征在于,步骤6所述基于LCS算法的属性文本相似度,计算公式如下:
其中Ts为文本相似度,为源端属性文本的长度,为目标端属性文本的长度,为使用Needleman—Wunsch算法得到的LCS字符串的长度。

本文发布于:2024-09-25 00:31:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/415519.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   类目   属性   数据   表示
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议