用户画像标签数据开发之标签权重计算

⽤户画像标签数据开发之标签权重计算
⽬录
注:此博⽂为根据 赵宏⽥ ⽼师的 ⽤户画像·⽅法论与⼯程化解决⽅案 ⼀书读后笔记⽽来,仅供学习使⽤
生活垃圾处理器0. 相关⽂章
1. 什么是标签权重计算
⽤户在平台上的不同⾏为具体到⽤户标签层⾯有着不同的⾏为权 重。在本案例场景中,⽤户购买某商品的⾏为权重要⽐⽤户添加到购物车、收藏某商品、浏览某商品的⾏为权重依次要⾼。具体到某个产 品层⾯,需要⽤户画像建模⼈员与运营⼈员密切沟通,结合业务场景给不同的⾏为类型定权重(基本思想是复杂程度越⾼的⾏为价值越 ⼤),同时需要考虑标签本⾝在全体标签类型中的权重属性。下⾯介 绍主观权重打分结合算法的综合权重计算⽅法。
2. TF-IDF词空间向量
TF-IDF是⼀种统计⽅法,⽤以评估⼀个字或词相对于⼀个⽂件集 或⼀个语料库中的其他词语的重要程度。字词的重要性随着它在⽂件集中出现的次数的增加成正⽐增加,同时随着它在语料库中出现的频 率
成反⽐下降。在本章介绍的案例中,对于每个⽤户来说,其⾝上同⼀个标签出现的次数越多,该标签对于这个⽤户来说越重要,该标签 在全部⽤户的所有标签产⽣的标签集中出现的次数越多,该标签的重要性越低。
使⽤TF-IDF⽅法来表⽰标签(Tag,T)和⽤户(User,P)之间的 关系:其中w(P,T)表⽰⼀个标签T被⽤于标记某个⽤户P的次数, TF(P,T)表⽰这个标记次数在所有标记⽤户P的标签中所占的⽐例, TF计算公式如下:
在⼀定程度上,这个⽐例反映了⽤户P被认为与标签T有关联的度 量。这个度量越⼤说明在更多情况下⽤户P与标签T之间的关系越紧密。
IDF(P,T)表⽰标签T的稀缺程度,即这个标签在全体⽤户的所 有标签中出现的概率。对⼀个标签T来说,如果它本⾝出现的概率就⽐较⼩,却被⽤来标记⽤户P,这会使得⽤户P与标签T之间的关系更加紧密。IDF的计算公式如下:
这样,⽤户P和标签T之间的关系系数为TF(P,T)和IDF(P,T) 的乘积,计算公式为:
举⼀个简单的例⼦:如图4-28所⽰,A〜C代表⽤户,a〜e代表标 签,数字代表A〜C⽤户⾝上该标签的个数。以⽤户A为例,A⾝上有a、 b、d、e 4类标签共4+3+0+5+3=15个,a标签对A⽤户的TF值为4/15。全 体⽤户共有a4+5+0=9个,全体⽤户的全部标签为
4+5+3+6+5+5+6+3+4=41个,a标签的IDF值为41/9°A⽤户⾝上的a标签 TFXIDF值为4/15*41/9=1.21。
⾄此,通过TF-IDF算法求出了⽤户与标签之间的权重关系。但是 此时计算⽤户标签的权重还没有结束,当前的标签权重是未考虑业务场景,仅考虑⽤户与标签之间的关系求出来的,这显然是不够的。
3. 时间系数
当⽤户达到⾜够的密集程度后,⽤户⾝上打的标签对应的属 性会表现出较⾼的稳定性,这种稳定性与⽤户长期⾏为形成的个⼈真 实特征相匹配。但是也存在灵活变化的适应性较弱的问题。
光固化打印例如,某⽤户主要从事软件开发,因此其在某图书类电商⽹站上 的搜索、收藏、购买等⾏为主要集中在与编程相关的内容上。然⽽,如果该⽤户近期内转为运营类岗位,则其近期的浏览与搜索就会突变 为与运营相关的内容。但是,将⽤户画像的属性描述从编程转为运营并不会由此⽴刻实现,仍需要长时间的⽤户⾏为的积累,直⾄在运营 下积累了⽐编程更多的⼦分类标签。但是在转换期间,系统仍对⽤户推送编程相关书籍,这显然脱离了⽤户的真实关注内容。
为解决这个问题,我们引⼊了时间衰减这个参数,根据发⽣时间 的先后为⽤户⾏为数据分配权重。时间衰减是指随着时间的推移,⽤户的历史⾏为和当前⾏为的相关性不断减弱,在建⽴与时间衰减相关 的函数时,我们可套⽤⽜顿冷却定律数学模型。⽜顿冷却定律描述的场景是:⼀个较热的物体在⼀个温度⽐其温度低的环境下,这个较热 的物体的温度是要降低的,⽽周围物体的温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度 F(t)随着时间t的增长⽽呈现指数型衰减,其温度衰减公式为:
汪伊涵其中,x为衰减常数,可通过回归计算得出。例如:指定45分钟后 物体温度为初始温度的0.5倍,即0.5=1Xexp(-X45),求得
囊袋=0.1556。
在⽤户画像的应⽤中,⽤户的某些⾏为会随时间衰减,⽽某些⾏ 为不会随时间衰减。⼀般来说,⽤户操作的复杂程度越⾼,其⾏为随时间衰减的影响性越⼩,我们可视该类⾏为不随时间衰减(如下单、 购买⾏为)。对于随时间衰减的⾏为,在计算⾏为权重时需考虑时间 因素,衰减⽅式可套⽤⽜顿冷却定律;对于不随时间衰减的⾏为则不 必考虑时间的影响,如下表所⽰。
⾏为名称是否受时间影响⾏为权重值计算
⽤户搜索图书1⾏为标签权重X时间哀减函数
⽤户搜索图书对应作者1⾏为标签权重X时间衰减函数
⽤户搜索作者1⾏为标签权重X时间衰减函数
⽤户⽀付成功图书0⾏为标签权重
⽤户收藏图书0⾏为标签权重
⽤户⽀付成功图书对应作者1⾏为标签权重X时间衰减函数
⽤户收藏图书对应作者1⾏为标签权重X时间衰减函数
4. 标签权重配置
酷基
⽤户标签的权重最终还是需要进⼀步结合标签所处的业务场景、 距离当前时间、⽤户⾏为产⽣该标签的⾏为次数等因素,最终得到⽤户标签权重的综合打分公式:
⽤户标签权重 = ⾏为类型权重 X 时间衰减 X ⽤户⾏为次数 X TF-IDF计算标签权重
公式中各参数的释义如下:
⾏为类型权重:⽤户浏览、搜索、收藏、下单、购买等不同⾏ 为对⽤户⽽⾔有着不同的重要性。⼀般⽽⾔,操作复杂度越⾼的⾏为 权重越⼤。该权重值⼀般由运营⼈员或数据分析⼈员主观给出。纱窗角码
时间衰减:⽤户某些⾏为受时间影响不断减弱,⾏为时间距现 在越远,该⾏为对⽤户当前⾏为来说意义越⼩。
⾏为次数:⽤户标签权重按天统计,⽤户某天与该标签产⽣的 ⾏为次数越多,该标签对⽤户的影响越⼤。
TF-IDF计算标签权重:由每个标签对⽤户的重要性与该标签在 全体标签中的重要性的乘积得出每个标签的客观权重值。
结合标签权重的计算公式,可以对⽤户特征库(dw.cookie_feature_event_append)的⾏为数据计算标签权重,筛 选出与⽤户⾏为相关性最⼤的标签。
注:再次声明,此博⽂为根据 赵宏⽥ ⽼师的 ⽤户画像·⽅法论与⼯程化解决⽅案 ⼀书读后笔记⽽来,仅供学习使⽤
注:其他相关⽂章链接由此进 ->

本文发布于:2024-09-23 09:33:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/327826.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:标签   权重   时间   衰减   温度   计算   编程
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议