点击率预估(CTR)之传统输⼊⽅法描述和常⽤数据集 ⽬录
CTR问题定义:
点击率预测(Click-Through Rate Prediction)是根据给定⼴告、⽤户和上下⽂情况等信息,对每次⼴告(或者商品)的点击情况做出预测。其中,对于⽤户历史⾏为数据的挖掘尤为重要,从这些历史⾏为中我们可以获取更多的关于⽤户兴趣的信息,从⽽帮助作出更准确的CTR预估。预估准确性直接影响公司收⼊。CTR预估中⽤的最多的模型是LR(Logistic Regression)、DIN等;
传统输⼊描述(one_hot):
例如给定⼀个样本数据如:
是否点击国家⽇期⼴告商品类型
1⽇本19.1.12电影
0美国19.1.10游戏
1⽇本19.1.12游戏
上述的三个特征都是⾮线性的,因此如果将其特征表⽰为向量形式,只能采⽤独热编码的⽅式(one-hot): 标签美国⽇本19.1.1019.1.12电影游戏
1010110
5-氯-2-戊酮0101001
1010101
因此,上述特征的编码形式存在⼀定的问题,⼀是⼀般categories特征经过one-hot编码以后,样本数据会变得很稀疏,假设有10万个item,如果对item的这个维度进⾏one-hot编码,这个维度的数据稀疏性就是⼗万分之⼀,所以数据的稀疏性是,是实际应⽤中常见的挑战。其次one-hot编码的另⼀个问题是特征空间变⼤,上⾯的10万个item,编码后样本空间有⼀个categories会变成10万维,特征空间会暴增。因此需要进⼀步的优化,例如FM⽅法等。
常⽤数据集
结核菌抗体
1.Display Advertising Challenge挑战的criteo数据集
2. 淘宝数据集
3. 亚马逊数据集
以亚马逊数据集为例,我们给出数据集的描述:
meta_Electronics.json
imUrl 产品图⽚地址
description 产品描述
categories 产品所属的类别列表
title 产品名称
Price 价格
salesRank 销售排名信息
related 相关产品(也已购买,也已查看,⼀起购买,已查看后购买)Brand 品牌 reviews_Electronics_5.json
统筹区域发展
reviews_Electronics数据
reviewerID 评论者id,例如[A2SUAM1J3GNN3B]
asin 产品的id,例如[0000013714]
reviewerName 评论者昵称
helpful 评论的有⽤性评级,例如2/3
reviewText 评论⽂本
overall 产品的评级
summary 评论摘要
手机报网站unixReviewTime 审核时间(unix时间)
安钢大厦
reviewTime 审核时间(原始)
meta_Electronics 数据