如何用机器学习做广告反作弊？

本文为AdBright知乎账号针对知乎问题“如何用机器学习做广告反作弊？”的原创回答，内容来自AdBright广告技术团队成员，后续也将持续不定期分享。

以下为回答全文，主要围绕作弊用户筛查方法、以及机器学习的应用。

首先要明确的是反作弊和机器学习是没有必然联系的，反作弊最终目的是高效地排除作弊流量，只要达到这个目的，用不用机器学习并不重要，机器学习只是反作弊的实现途径之一，至于选择哪一种途径实现反作弊还是要看具体的业务场景和实现成本。

反作弊最重要的是识别作弊用户，即确定作弊用户的行为规则或规律，也就是行为异常点，而找异常值的方法论很多：

1.统计学方法对异常值的检测（3σ探测方法、四分位数展布法等）

2.基于距离的异常值检测

3.基于分类模型的异常值检测，这即是通过机器学习的方法。（根据已有的数据，然后建立模型，得到异常行为的模型特征库

▲图片来自网络，一个简单的贝叶斯网络

然后对新来的数据点进行建模判断：贝叶斯模型、神经网络模型、决策树、SVM等分类模型

还必须要指出的是这样找出的异常行为点，并不一定就能够完全确定作弊用户，还需要对异常行为点做事后的验证。

首先，我们要先了解会有哪些作弊行为：

1.流氓软件后台展示。

2.不断变更设备信息，模拟用户行为。

3.设备伪装，主要通过篡改设备ID号，并伪造虚假的网络环境。

4.伪造点击日志

......

其次，看一下作弊行为可能有哪些表现：

1.广告CTR异常：主要指虚拟点击或恶意点击，即点击/曝光过高比例，或者起伏很大

2.广告访问IP分布异常：少量IP产生大量点击或者曝光，及用户IP对应物理地址变化异常

3.URL，访问者指纹信息(浏览器，操作系统等)异常：例如大量的点击或者曝光数，都来自于同一版本的浏览器或操作系统，或者占比过高

4.广告点击没有对应的曝光请求（不建议用机器学习，如果用户特征足够多的话，可做实时预测，但预测的准确率可能没有事后线下匹配的准确率高）

5.激活与点击时间差过短

6.广告访问时间分布异常

7.户机对应异常

8.请求量异常

.....

▲AdBright 智能反作弊系统

领取成功