互联网广告系统综述六模型

互联网广告系统综述六模型

声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。4)阅读本文需要互联网广告业的基础(如果没有也没关系了,没有就看看,当做跟同学们吹牛的本钱)。

5)此属于第一版本,若有错误,还需继续修正与增删。还望大家多多指点。请直接回帖,本人来想办法处理。

经过几个博文的啰啰嗦嗦,又是业务又是定向又是系统架构的,给各位的感觉都是在描述一些外围的东西,真正核心的东西还没说到。对于心急得如干柴烈火的热血青年来说,似乎一直在各种前戏,一直没感受到提抢上阵的快感。

就算这么急,这还是得说——在广告算法领域,如果说ctr预估是包子馅的话,前面那些东西就是包子皮,直接吃包子馅,不见得是很正确的吃法。

下面就说说大家喜闻乐见的模型吧。

1.1准确估计ctr的意义

得从前面的算分排序那一节说起了。

对于一些大型媒体行业平台,当时就说了ctr的估算要求比较准确,这ctr估高了,会把出价不高同时用户也不喜欢的广告的分算得比较高,这样的广告就排在了前面,这样广告平台既收不到钱,也讨不到用户喜欢;但ctr估低了,出价一般高但是用户比较喜欢的广告的分算得比较低,没机会投出去,用户就会总是看到不喜欢的广告,对媒体来说,这个最终也会导致用户的流失,照样赔了夫人又折兵。

对于广告生态圈中的DSP来说,同样DSP需要评估流量质量,如果发现一个流量的质量很高,就开高价去竟争这个流量;如果流量质量低,就开低价去竟争。如果评估得太高,出很高的价钱拿到了质量很低的流量,那就达不到广告主的要求,会亏钱;如果评估得太低,一直拿不到流量,没办法赚钱。评估流量质量,说到底了是预估一个流量的ctr。

说到这份上,总该明白一个问题了吧——估准ctr非常重要。这个就是广告算法工程师的工作的重中之重。

用另一个方式理解ctr,就是一个用户点击某一个广告的概率,点击的概率大,意味着越喜欢这个广告,用户越喜欢的广告,广告的质量自然可以认为是比较高的。

怎么算是估准了呢?举个例子,假如1万个人对同一个广告预估了1w个ctr的值,ctr的值当然有高有低了,如果这1w个人点击这个广告总共100次的话,同样也希望这1w个值的累加大致是100,这样才算估准了。但是,但是要注意的是,在这1w个值里面,那100个点击的人估算的值要明显比不点击的人要高,这就叫分开了,这才算是估得比较好的,如果人人都是大致0.01的话,也可以算是比较好的预估(因为跟真实的很接近),但是就没那么具备区分能力了,在有些业务下面,就不容易发挥更多的用处。

要估准ctr的意义说完了,就开始谈谈模型了。

1.2为啥要模型

预估一个人对一个广告的ctr,不可能是一个广告算法工程师在那里看着,来一个广告请求就估计一下,给个决定,这样人累死,估计得也乱七八糟,还效率不高,一天撑死了估计个几十万个请求,不得了了。

只能用机器来估,但是机器是很笨的,只能进行简单的规则运算,这些规则还必须提前指定。如果人工指定这些规则,如30岁用户点击匹克篮球的广告概率是多少,男性的用户点击匹克篮球的广告的概率是多少,年龄和性别在总的ctr预估里面占多少比重等等,需要大量的先验知识,而且还不能根据实际情况变化,往往有问题。而且规则往往是有组合的。这个方法比用人估计好很多了,但还是很原始。

这时候数学家们就来劲了,直接看和简单规则不行,复杂规则可以啊,而且复杂的规则可以用函数来拟合啊,而且上面的那些规则都可以用统计方法得到,用函数把他们组合起来也可以啊。

数学方法就这样引进来了。

有两个相关的方面,一个是统计方法;另一个就是拟合一个函数去组合规则,这个函数就是模型。

用数学的方式来表示对点击率的预估,做的工作可以用下面的图来描述。

统计方法怎么用呢?如可以统计过去投放过的记录中,30岁的用户点击匹克篮球的广告的点击率是多少,这个数据直接就能根据投放日志统计出来;再统计男性的用户点击匹克篮球的广告的点击率是多少,这样前面的两个东西就得到了。

但是知道这两个点击率,可以认为是两个规则;但这还不够,还需要知道这两个点击率在评估这个人点击匹克篮球的广告的概率中分别起什么作用,这就是规则的组合。这两个点击率加起来不行,相减也是不行的,加权累加可能是一种办法,但是这样行吗?还有怎么加权呢?用一个函数去组合这些规则就是很好的解决方案。为了描述的方便,我们用数学的方法来描述这两个规则,把这两个点击率(也就是规则)称为特征,用一个向量x=(x1,x2)来统一表示,其中x1表示30岁的用户对匹克篮球的广告的点击率,x2男性的用户对匹克篮球的广告的点击率。

问题就转变成了利用一个函数把向量x转变成用户对匹克广告的ctr了。这个函数就是模型,用数学的方法来描述就是完成上面的图中函数f的形式,这个函数f的形式确定了,就有了ctr=f(x)。

可以看到的是,利用模型是避免了人工规则扩展的困难,也使得每个ctr的计算变得可以用机器经过一些计算就可以完成,从而达到互联网在线服务的标准。

在传统领域也有些广告主利用先验知识做ctr预估的,就像是派传单,也要先看看哪个路人更容易接才派出去的;又比如化妆品促销活动,活动大使们肯定是找街上的一些女生来参加他们的活动,只有女生才更可能乐意参加他们的活动,这些都是一些ctr预估活动在起着作用,但是这个是人用了自己强大的大脑和先验知识来完成的,互联网在线服务要求并发高,务必要估得多而且快。想象一下行人密集得像地铁里面一样,而且都是百米冲刺的速度从派传单小哥或者活动大使面前经过,他们还怎么做生意?

所以模型加上人和广告对的向量表示,才能完成互联网的高并发与高速度的需要。

1.3用什么模型

上面说到了那个函数f就是模型,由于它的工作很复杂,那么形式应该是很复杂的,但是太复杂的模型不利于扩展,就用简单的形式来。经过工业界长期的工作,认为下面的形式是比较有效的。

明天的希望,让我们忘了今天的痛苦

互联网广告系统综述六模型

相关文章:

你感兴趣的文章:

标签云: