一周辣评：为什么榜单的数据跟我看的不一样？

一周辣评：为什么榜单的数据跟我看的不一样？
2015/6/30 医学界智库

     来源：新媒体指数

     问题一：为什么软件做不到实时统计阅读数？

     数学是个很神奇的东西，一些看似不经意的小数字，却有着庞大的力量。

     医学界排行榜每周公布一次统计数据，我们使用的软件每日对超过30万的公众账号进行数据统计，我们先不谈实时的问题，假设一小时统计一次：看上是一件很容易的实情，但实际情况如何呢？

     我们来算一下。

     条件：对一个账号进行数据统计，一小时一次，统计周期一个月。每天都对周期内的文章进行抓取。

     计算：假设该账号每天发布5篇文章。且每日发文时间为固定。

     第一天：每小时抓取次数为5，首天抓取数据次数为5×24=120次

     第二天：抓取的次数为5×24×2+5×24=360

     第三天：5×24×3+5×24×2+5×24=720

     第四天：5×24×4+5×24×3+5×24×2+5×24=1200

     ……

     第n天：5×24×n+5×24×(n-1)+5×24×(n-2)+ …… 5×24

     大家都已经看出来了吧，这其实是一个等差数列(迷茫中的可以翻高一数学课本复习一下)。其求和计算公式为：

     其中 a1为首项，在该计算中为5×24，即120

     d 为公差，在该计算中为120

     所以…… 所以第31天需要抓取的次数为S30=120×31+31×30÷2×120=59520

     一个月总的抓取次数为 120×(1+(1+2)+(1+2+3)+ …… +(1+2+3+4+……+31)

     这其实是一个二阶等差数列。可以看到除了公差项120之外，其余的为天数累加，其之间存在的规律为an-a(n-1)=n。an=(n^2+n)/2。最后的求和公式为Sn=n(n+1)(2n+1)/6

     所以……所以……所以一个月的总抓取次数是 120×31×(31+1)×(31×2+1)÷6=120×31×32×63÷6=1249920

     Oh my god!

     问题二：为什么我后台看到的数据跟你们抓取的差别那么大？

     当然问的更多的是，为什么我在后台看到的数据跟你们抓取的差别那么大，你们的数据是错误的么？

     这个……这个同样算一下吧。

     模型：某单位账号每天发布5篇文章，每周发布7天。

     测算；设定的统计周期为上周日到本周六为一周。数据在周日下午开始抓取，一般抓取时间为15时至19时，后台数据会在20时左右更新。

     取中值，假设某账号数据在17时被抓取到，在后台数据于20点更新展示出来时，时间差为3小时。

     由于数据更新时间为晚间，且为周末。因而绝大多数发榜机构会选择在第二天即周一进行发榜。在内容发布时间方面，很多运营着都相信有一种“晚高峰理论”，即在下午下班前后发布的文章最易引发人们的阅读。于是不少账号都将每日一次的宝贵发布机会选择在16时到19时之间。

     所以假设我们的发榜机构也遵循这样的规律，其榜单在周一下午17时发出。此时，距离账号数据被抓取到已经过去了24小时。

     由于时已近晚，某单位于第二天上班后(9点)看到该榜单，并立即验证自己的账号数据，数据验证于10点完成。此刻举例机构发榜过去17小时，举例新媒体指数数据抓取时间过去41小时。

     如果每篇文章的阅读数每小时增加10次(这应该不高吧)。

     41小时过去了，数据会产生多大的变化呢？

     数据的变化量S=5×7×41×10=14350

     当然这是为了便于计算的数学模型，实际情况更复杂。

     好可怕的数据效应啊!

     可恶的广告时间:

     第五届《医学界》医院微信培训班现正在火热招生报名中，更多丰富课程等你来参加!

     会务联络人: 李鹏 13402129365 ，17749708509

     固定电话：021-50461038转808，809

     2015年8月20日 -8月22日

     培训对象：医院宣传科、信息科及党政办负责人及工作人员

     详情点击阅读原文报名



     医学界产业报道(微信号：HealthcareReport)

     关注医疗产业动态、行业资讯、医院管理及医改政策，为医疗行业管理、决策及研究者提供快速、有价值的医疗产业信息。

     (点击左下角"阅读原文"链接进入"医学界产业报道"微社区。)

    http://www.duyihua.cn
返回医学界智库返回首页返回百拇医药