人有多大胆，流量多高产：互联网世界中的花式数据造假秀

转载时间：2021.09.26（原文发布时间：2019.04.09）

119

转载作者：36氪企服点评小编

阅读次数：119次

编者按：本文来自微信公众号“德外5号”（ID：dewaiwuhao），来源：TheDrum，作者：Samuel Scott，编译：王金喜，36氪经授权发布。

数据造假问题充斥着整个互联网世界。从国内主流视频网站不堪刷数据之扰，而主动关闭视频播放量，到前阵子被央视曝光、闹得沸沸扬扬的流量明星微博数据造假问题，数字世界中的真实和虚假，越来越扑朔迷离。事实上，国外的互联网媒体巨头也无法幸免，同样深陷数据造假的泥潭。

Reddit前首席执行官Ellen Pao曾在Twitter上发文抨击互联网世界中的数据造假现象：一切都是假的（这却是个真的不能再真的事实）。比如手机用户人数。从在Reddit工作的经验来看，统计用户人数时，一般无法排除掉那些已注销手机号码的用户。

漏洞无处不在，比如，只要用户切换一下手机信号塔，后台的统计软件就会把他误认为是另一位新用户，然后就可以无节制地夸大自己的用户总人数。

在大洋彼岸的中国，互联网新贵们也在上演着轰轰烈烈的数据造假运动。

不论是各种视频播放量中动辄连起来能绕地球N圈的总数字，还是音乐榜单中火速蹿升但国民度知晓度几乎为零的最“热”单曲，亦或是给人感觉全中国的手机用户每时每刻都“在线”的APP日活、月活人数，这把数据造假的熊熊大火，在中文互联网世界中也在肆无忌惮地燃烧着。

曾几何时，人们对数字世界寄予厚望，认为数字世界里的一切事物都真实可信、可测量、可追踪。但实践证明，这可能只是人们一厢情愿的想法。事实上，我们现在在网络上看到的很多东西，都可能是彻头彻尾的谎言。

众言堂与一言堂：传统媒体VS互联网新贵

传统媒体时代，因为所有的数据都要接受独立的第三方机构审核，所以报纸、杂志、电台广播公布的读者/听众人数很难作假，电视则更进一步，在统计节目观众人数时，甚至会考虑那些在广告时间不上厕所而蹲在电视机面前认真看广告的观众人数占比。

虽然也会零星出现一些假数据丑闻，但总的来说，传统媒体时代绝大多数的受众统计数据都是真实准确、值得信赖的。

但当我们把目光转向互联网媒体，就会赫然发现，我们掉进了网络媒体公布的各种难辨真假的统计数据漩涡之中。

“一言堂”现象在互联网媒体中普遍存在，比如Facebook、谷歌这些互联网领域里的“老大哥们”，从不允许独立的第三方机构审计它们的数据。也就是说，它们说什么就是什么，说多少就是多少，至于这些统计数据中都包含了多少水分，我们无从得知。

差之毫厘，谬以千里：网络流量分析的局限性

当我们打开像“谷歌分析”这样的分析软件，去观察和分析网络流量的分布（访客人数、转化率、销售额以及其他信息）时，你有想过这些流量分析数据都是怎么统计出来的吗？

一般的方法是，这些流量分析软件，将一段代码植入到网站中，当用户通过浏览器加载某个网页时，代码会在浏览器中启用cookies来对用户在网页上做了什么进行记录。但当用户使用一些拦截器软件或者插件时，这些专门用来搜集用户行为数据的cookies就会纷纷哑火。

事实上，习惯于用各种拦截器阻断cookies工作的网民人数已经越来越多。一份调查显示，英国网民中，上网时开启拦截器的网民人数占比高达五分之一以上（22%）。

也就是说，每5个英国网民中，就有1个网民的上网行为无法被准确测量。现行的网站流量分析工具往往对这部分用户束手无策，在最终呈现的分析结果中也不展现这部分人的测量结果，可想而知这些网络流量分析结果的准确性和代表性了。

如果企业的营销决策是基于这些残缺、不充分、代表性不足的用户行文分析数据，那很可能在战略规划层面上就已经跑偏了。

更要命的是，越来越多的分析人士发现，看似客观、“浓眉大眼”的网络流量居然也会作假。分析人士认为，目前机器人水军贡献了大约50%的网络流量。只要钱花到位，任何网站的流量数据都可以刷出来。这么推算下来，这些流量分析软件最后呈现出来的分析结果中，至少有一半的数字都是不可信的。

人有多大胆，流量多高产：中外互联网媒体中的花式数据造假秀

1. YouTube

视频类网站，尤其是社交视频类网站，往往是这个问题的重灾区。因为播放量越高，该视频的排名就越靠前，博主的名气就越大，这是成为网络大V的先决条件，也是吸引广告主重金达成合作的前提和依据。而花钱刷播放量则是最轻松的捷径，于是大家都开始对这种作假行为趋之若鹜。《纽约时报》最近调查发现，只要15美元，就能在YouTube上购买5000个虚假视频播放量。而加拿大的一位网民，通过售卖1500万次YouTube虚假点击量，在2018年狂揽20万美元的收入。

但比起容易被网站识别出来、略显笨拙的机器人刷量行为，在刷播放量这条路上，国内反而另辟蹊径，摸索出了一条“人工刷量”的新路径，并形成了规模不小的产业链。就像在工厂做工一样，花钱雇来的真实的网民，会在整个工作日中按要求反复观看相同的视频、访问相同的网站和下载相同的APP。这种由“真人模拟真人”的新方法，甩那种简单的“机器人刷量”好几条街，让人大开眼界。所以下一次再看到让人惊掉下巴的点击量和播放量，一定要冷静地想一想，这其中究竟有多少是机器人贡献的？又有多少是“真人模拟”贡献的？

2. 亚马逊 VS马蜂窝

BuzzFeed News曾指出，在亚马逊上写一篇某款耳机的好评，可以获得36美元的酬劳。而这绝对不是孤例，在Facebook上，有数百个群组、上万名成员对电商评论这块肥肉虎视眈眈，密谋着如何买卖亚马逊上的商品评论。这些是否说明，一条出自陌生人之手的好评，到底有多大的参考价值？更大的实锤来自《华盛顿邮报》，该报调查发现，亚马逊上关于电子产品的在线评论中，有61%都是虚假评论。其他类似的用户评论网站（如Airbnb、Yelp等）中，也有不少类似情况发生。

反观国内，淘宝和京东上屡禁不止的有组织水军刷好评，已经让人们见怪不怪了。在2018年10月20日，知名旅游攻略网站马蜂窝“被捅”一事更是让人记忆犹新。有人通过爬取马蜂窝上的用户评论数据进行分析后，发现这家估值一百多亿的互联网独角兽的2100万条“真实评论”，竟然超过半数是马蜂窝官方通过机器人从大众点评、携程、艺龙等竞争对手那里直接拷贝过来的。甚至餐饮方面的评论内容还直接从国外知名评论网站Yelp中进行搬运，通过谷歌翻译进行偷梁换柱后，变成了自家平台的原创评论内容。

人有多大胆，流量多高产：互联网世界中的花式数据造假秀

（马蜂窝虚假用户发表评论的时间点与上班时间完美契合来源：公众号“小声比比”）

此锤一出，四下哗然，马蜂窝被各路网友犀利毒辣的调侃喷成了真马蜂窝。而这还只是冰山一角，“马蜂窝被捅”事件只不过是将人们先前早已有所耳闻的互联网公司数据造假现象，再一次赤裸裸地给曝光了出来。其实马蜂窝先前的口碑一直良好，可想而知其他口碑差的类似公司的数据造假有多厉害了。

3. Twitter VS 微博

如何快速涨粉？——买就对了！

《纽约时报》做了个小实验，它设立了一个虚假的Twitter账号，在花了225美元后，这个虚假账号涨了2.5万名粉丝。笔者此前在经纪公司工作时，也曾应客户要求，花钱为客户的Twitter账号涨粉。而美国两所大学的研究也发现，目前高达15%的Twitter账户都是机器人，笔者认为，实际的机器人占比可能比15%还要高。

所以，粉丝人数可以花钱买来，简直是社交媒体上公开的秘密。问题的症结在于，品牌主往往依只据粉丝数量来判定某个博主是否有商业价值，所以为了快速涨粉，营造自己人气很旺粉丝众多的假象，博主们往往在购买粉丝方面舍得下血本，羊毛出在羊身上，最后的冤大头还是那些为了更好看的粉丝数量而大手笔投入营销预算的品牌主们。

作为国内对标Twitter最成功的互联网产品，微博上的数据造假现象也普遍存在。以前阵子被央视曝光的流量明星为例，有人抓取2018年微博的数据进行分析后发现，2018年全年整个微博平台转发量最高的10条，全都出自蔡徐坤，总计转发量达到4.41亿次，相当于三分之一的中国人口。也就是每三个中国人，就有一位转发过蔡徐坤发表的微博。可事实果真是如此吗？

（蔡徐坤转发量最高的几条微博来源：公众号“小声比比”）

更直观的对比来自2018年10月。艺人冯绍峰和赵丽颖结婚，官宣当天微博服务器就又双叒叕开始宕机了，然而这条官宣微博的转发量也不过才500万而已。而一些流量明星的微博转发量动辄飙升至千万量级，可微博服务器却照常运作，足见转发量数据水份很大。借用网友的一句玩笑话就是，如果是真人在转发，就算他们转到双臂淤青，也刷不出这么高的转发量来。这背后必然是专业的机器人程序+专业化人工刷量在共同“努力”。

4. Instagram

Instagram上有的KOL在营销做假，蒙在鼓里的品牌主也会受损失。

Points North Group发现，与丽思卡尔顿酒店合作的网络大V中，79%的粉丝都是假的。而根据Captiv8的估计，品牌与拥有10万粉丝的网络大V合作，需支付2000美元成本；但《纽约时报》购买2.5万名粉丝只需要225美元。推算一下，购买10万粉丝，也就花费900美元。但品牌主却对网络大V付出了2000美元的代价，网络大V购买假粉丝，确实是个稳赚不赔的生意。

5. Netflix

这是个“一言堂”式公布用户数据、缺少独立第三方机构进行审核的典型例子。

首先，我们该怎么确认Netflix公布的用户人数没有水分呢？无法求证（摊手.JPG）。

其次，Netflix宣称，高达4500万“Netflix账号”“ 观看”了电影《Bird Box》。打住！“账号”是什么意思呢?4500万“账号”就代表4500万观众吗？因为现实生活中多个人共享一个Netflix账号也是常有的事，那这部分观众怎么计算呢？而Netflix宣称的“观看”，到底指代的是“看完整部电影”，还是“只看开头一秒”，抑或是“只看到电影中间的某个时间段”？同样无从得知。

6. Facebook

作为“人红是非多”的典型代表，最近一直丑闻缠身的Facebook的数据造假现象更是由来已久。早在2016年9月，Facebook就曾承认平台在两年内以虚增60%—80%的方式，夸大了Facebook中的视频平均浏览量。同月，知名市场调研公司数据显示，由于数据报道方式的修正，Facebook在澳大利亚的视频流量暴跌了94%。

同样是在2016年，Facebook掌门人扎克伯格公开表示“5年之内所有一切都将转向视频”。结果日前有诉讼称Facebook将视频广告的浏览量故意夸大了900%。对当初许多听信扎克伯格的言论，纷纷押宝互联网视频的媒体公司来说，并不是个好消息。

Facebook中还有所谓“每日活跃用户”指标，该指标主要用于“观看类”产品上。只要用户每天在Facebook上花费时间超过一分钟，那么他就是平台上的“活跃用户”，但有意思的是，这60s可以不是连续的60秒钟，也就是说——如果某个用户在60个视频中分别观看1秒钟，那他也算是一个活跃用户。严格意义上来讲，Facebook的这一指标本身就是一个虚假指标，因为在测量电视节目的“收视率”时，前提之一便是观众是否连续观看超过60s。

另外，Facebook上更严重的问题是虚假新闻和广告宣传。这一问题更加严峻，因为它已经开始危害公众利益了。以一直存在较大争议的脱欧公投为例，很有可能一些外国敌对政府和不法分子在最后时刻通过在Facebook上发布虚假新闻、虚假页面、虚假广告和成立虚假团体，来鼓动网民倒戈，最终实现他们的脱欧目的。

7. 用户参与

对于操纵“用户参与”这种行为，可以说防不胜防。“点赞”、“分享”，是时下判断用户参与情况的主要指标，品牌主往往也根据这几类指标来对某个线上营销活动的效果进行评估，可是，这些“用户参与”的判断指标，做起假来更变本加厉。互联网世界中存在着大量的第三方小机构在叫卖提升类似观测指标的服务。反欺诈公司Sway Ops分析了一天中Instagram上标记为“赞助”或“广告”的帖子，发现这些帖子中超过50%的用户的参与行为都是虚假的，只有18%的帖子评论是由真人发布的。

8. 广告展示次数

别再天真地认为，互联网上的“广告展示次数”的数字代表了有多少人观看了这一广告。事实上，“广告展示一次”，代表的仅仅是浏览器（机器人程序）请求网络广告服务器加载了一次广告而已，很可能并没有真人在看这些网络广告。如果有一半的网络流量是假的，那么据估计最终广告展示次数中也有一半是假的。

9. APP装机量：

2018年，研究人员发现有11%的APP装机量是假的，比2017年增加了30%。测量公司Adjust对17天内发生的4亿次APP安装流量样本进行了分析，最后发现，支付给虚假安装APP的“假用户”的营销费用预计高达170万美元。

对于以上的更种花式数据造假，《华盛顿邮报》广告技术总监Aram Zucker-Scharff的观点则更为激进：

“这些数字都是假的！各种指标也在胡扯！真正在认真做事的广告代理机构都知道，互联网上的骗子们在对数据进行造假并从中牟利，他们捣鼓出来的一众模型里没有一个能在大规模的用户人群上适用。问题的关键不在于充斥在互联网上的各种虚假、扯淡、乱七八糟的数字，各种失灵的观测指标和信口开河的骗子，最根本的问题在于，互联网上的所有虚假的东西都是叠加在其他虚假东西之上的，这只会让互联网这趟浑水更加复杂和浑浊。互联网上所有虚假的废话、虚假的号码、虚假的模型、虚假的信息以及虚假的用户，都不是偶然现象。”

一视同仁，重拳出击：营销行业应该怎么做？

1. 只认可经过独立第三方机构审计过的各类数据，拒绝接受Facebook、谷歌或其他互联网媒体主动披露给大众、带有自吹自擂嫌疑的数据。

2. 要对传统媒体和互联网媒体一视同仁，采用同一套度量标准和观测指标。核心原则就是对线上线下多个渠道的营销效果进行对比分析，然后选择效果最佳的那个。以直接反应营销（直复式营销）为例，直接反应营销的主要观测指标是ROI（投资回报率），那么就可以在直邮、电子邮件、Google AdWords和其他适合的渠道中做对比实验，分析每个渠道的支出成本和最终回报，选定表现最好的那一个。不可否认，在直接反应营销领域互联网媒体的优势很大，相比于传统媒体渠道，它非常高效，但我们始终要牢记的是，高效并不等于有效！

3. 黑猫白猫，抓到老鼠就是好猫，所以营销人员请别再纠结于如何区分所谓的“传统营销”和“数字营销”了，事实上，营销就是营销，无所谓线上线下之分。在管理营销部门时千万不要将线上线下划分成两个部分。应该根据营销策路进行有效划分。

在传统媒体时代从没人整天叫嚷着什么“电视营销”，所有的传统媒体都是通力合作，整体服务于整个营销策略的。所以今天互联网上大肆鼓吹的什么“社交媒体营销”、“视频营销”，都是片面的说法。

具体的做法，比如，成立专门负责直接反应营销团队、专门的广告团队和专注于公关事宜的团队，让他们认真思考如何更好地对线上线下这些渠道进行优化整合，完成相应的营销任务。重点放在营销策略上，而不是纠结在渠道上。营销人员更擅长的其实也是营销战术。切记“渠道中立”原则，而不要一味拥抱“唯数字化”或者“优先数字化”这样的愚蠢观点。

正如BuzzFeed新闻媒体编辑Craig Silverman所言:“是时候重拳出击，打击互联网上的一切作假行为了。”

该文观点仅代表作者本人，36氪系信息发布平台，36氪仅提供信息存储空间服务。

[免责声明]

资讯标题：人有多大胆，流量多高产：互联网世界中的花式数据造假秀

资讯来源： 36氪官网