点击率预估(CTR)之传统输入方法描述和常用数据集

点击率预估(CTR)之传统输⼊⽅法描述和常⽤数据
⽬录
CTR问题定义:
点击率预测(Click-Through Rate Prediction)是根据给定⼴告、⽤户和上下⽂情况等信息,对每次⼴告(或者商品)的点击情况做出预测。其中,对于⽤户历史⾏为数据的挖掘尤为重要,从这些历史⾏为中我们可以获取更多的关于⽤户兴趣的信息,从⽽帮助作出更准确的CTR预估。预估准确性直接影响公司收⼊。CTR预估中⽤的最多的模型是LR(Logistic Regression)、DIN等;
传统输⼊描述(one_hot):
例如给定⼀个样本数据如:
是否点击国家⽇期⼴告商品类型
1⽇本19.1.12电影
0美国19.1.10游戏
1⽇本19.1.12游戏
上述的三个特征都是⾮线性的,因此如果将其特征表⽰为向量形式,只能采⽤独热编码的⽅式(one-hot):
标签美国⽇本19.1.1019.1.12电影游戏
1010110
5-氯-2-戊酮0101001
1010101
因此,上述特征的编码形式存在⼀定的问题,⼀是⼀般categories特征经过one-hot编码以后,样本数据会变得很稀疏,假设有10万个item,如果对item的这个维度进⾏one-hot编码,这个维度的数据稀疏性就是⼗万分之⼀,所以数据的稀疏性是,是实际应⽤中常见的挑战。其次one-hot编码的另⼀个问题是特征空间变⼤,上⾯的10万个item,编码后样本空间有⼀个categories会变成10万维,特征空间会暴增。因此需要进⼀步的优化,例如FM⽅法等。
常⽤数据集
结核菌抗体
1.Display Advertising Challenge挑战的criteo数据集
2. 淘宝数据集
3. 亚马逊数据集
以亚马逊数据集为例,我们给出数据集的描述:
meta_Electronics.json
黑科技事件asin    产品的ID
imUrl    产品图⽚地址
description    产品描述
categories    产品所属的类别列表
title    产品名称
Price 价格
salesRank 销售排名信息
related 相关产品(也已购买,也已查看,⼀起购买,已查看后购买)Brand 品牌
reviews_Electronics_5.json
统筹区域发展
reviews_Electronics数据
reviewerID    评论者id,例如[A2SUAM1J3GNN3B]
asin    产品的id,例如[0000013714]
reviewerName    评论者昵称
helpful    评论的有⽤性评级,例如2/3
reviewText    评论⽂本
overall    产品的评级
summary    评论摘要
手机报网站unixReviewTime    审核时间(unix时间)
安钢大厦
reviewTime    审核时间(原始)
meta_Electronics 数据

本文发布于:2024-09-22 17:21:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/147124.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   特征   产品   编码   购买   例如   信息   点击
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议