注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

罗维的博客

{ 关注机器学习、计算广告、自然语言处理、大规模数据处理等 }

 
 
 
 
 

日志

 
 

阅读笔记《Click-Through Rate Estimation for Rare Events in Online Advertising》  

2014-09-09 23:50:53|  分类: 机器学习 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

对在线广告而言,CTR是计算广告领域的关键问题之一,也是投放效果评估以及广告预算规划的重要参考指标。对长尾广告,也就是点击数较少的广告,由于数据稀疏,直接观测到的CTR与真实的CTR之间的误差较大。这篇paper提出了利用广告的内在层次结构以及点击事件的时间平滑来对CTR预估进行优化。

(1)广告数据的层次结构

网页和广告均可能存在层次结构。在网页层面,Publisher发布的网页之间存在层次结构;在广告层面,每个广告主会有多个广告账号,每个广告账号下会有多个广告group,每个广告group下的广告会是相似的。假设在同一个Publisher的网页上,一个广告账号下的所有广告服从同样的先验分布Beta(alpha, beta),点击个数服从二项分布B(I, r),其中,alpha和beta是Beta的超参数,I是广告的展现量,r是点击率。那么可以使用MLE和梯度下降法,用一段时间内这些广告的点击数据训练出Beta分布的超参数alpha和beta。用学习到的超参数,计算点击率的后验估计为

CTR_i = (C_i + alpha) / (I_i + alpha + Beta)

其中C_i是第i个广告的点击量,I_i是第i个广告的展现量。

(2)广告点击数的时间平滑

广告投放通常会持续一段时间,因此广告的展现量和点击量存在一个时间序列。近期的数据和历史数据的重要程度是不同的,可以利用历史数据对数据进行指数平滑。很容易想到也可以直接用历史CTR对CTR做平滑,但这样的效果不好,在理论上也不容易说通。本文采用的是对展现量和点击量分别用历史数据进行指数平滑。

利用数据层次方法和数据时间上的技术平滑对CTR预估都有提高,并且这两种方法同时使用会有叠加的作用。实验评价的指标使用均方误差(Mean Squared Error)和KL差异(KL divergence)来进行评价。经过实验,这两种方法在MSE和KL上都有很大的提高。

  评论这张
 
阅读(1144)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017