一周辣评:为什么榜单的数据跟我看的不一样?
2015/6/30 医学界智库

     来源:新媒体指数

     问题一:为什么软件做不到实时统计阅读数?

     数学是个很神奇的东西,一些看似不经意的小数字,却有着庞大的力量。

     医学界排行榜每周公布一次统计数据,我们使用的软件每日对超过30万的公众账号进行数据统计,我们先不谈实时的问题,假设一小时统计一次:看上是一件很容易的实情,但实际情况如何呢?

     我们来算一下。

     条件:对一个账号进行数据统计,一小时一次,统计周期一个月。每天都对周期内的文章进行抓取。

     计算:假设该账号每天发布5篇文章。且每日发文时间为固定。

     第一天:每小时抓取次数为5,首天抓取数据次数为5×24=120次

     第二天:抓取的次数为5×24×2+5×24=360

     第三天:5×24×3+5×24×2+5×24=720

     第四天:5×24×4+5×24×3+5×24×2+5×24=1200

     ……

     第n天:5×24×n+5×24×(n-1)+5×24×(n-2)+ …… 5×24

     大家都已经看出来了吧,这其实是一个等差数列(迷茫中的可以翻高一数学课本复习一下)。其求和计算公式为:

     其中 a1为首项,在该计算中为5×24,即120

     d 为公差,在该计算中为120

     所以…… 所以第31天需要抓取的次数为S30=120×31+31×30÷2×120=59520

     一个月总的抓取次数为 120×(1+(1+2)+(1+2+3)+ …… +(1+2+3+4+……+31)

     这其实是一个二阶等差数列。可以看到除了公差项120之外,其余的为天数累加,其之间存在的规律为an-a(n-1)=n。an=(n^2+n)/2。最后的求和公式为Sn=n(n+1)(2n+1)/6

     所以……所以……所以一个月的总抓取次数是 120×31×(31+1)×(31×2+1)÷6=120×31×32×63÷6=1249920

     Oh my god!

     问题二:为什么我后台看到的数据跟你们抓取的差别那么大?

     当然问的更多的是,为什么我在后台看到的数据跟你们抓取的差别那么大,你们的数据是错误的么?

     这个……这个同样算一下吧。

     模型:某单位账号每天发布5篇文章,每周发布7天。

     测算;设定的统计周期为上周日到本周六为一周。数据在周日下午开始抓取,一般抓取时间为15时至19时,后台数据会在20时左右更新。

     取中值,假设某账号数据在17时被抓取到,在后台数据于20点更新展示出来时,时间差为3小时。

     由于数据更新时间为晚间,且为周末。因而绝大多数发榜机构会选择在第二天即周一进行发榜。在内容发布时间方面,很多运营着都相信有一种“晚高峰理论”,即在下午下班前后发布的文章最易引发人们的阅读。于是不少账号都将每日一次的宝贵发布机会选择在16时到19时之间。

     所以假设我们的发榜机构也遵循这样的规律,其榜单在周一下午17时发出。此时,距离账号数据被抓取到已经过去了24小时。

     由于时已近晚,某单位于第二天上班后(9点)看到该榜单,并立即验证自己的账号数据,数据验证于10点完成。此刻举例机构发榜过去17小时,举例新媒体指数数据抓取时间过去41小时。

     如果每篇文章的阅读数每小时增加10次(这应该不高吧)。

     41小时过去了,数据会产生多大的变化呢?

     数据的变化量S=5×7×41×10=14350

     当然这是为了便于计算的数学模型,实际情况更复杂。

     好可怕的数据效应啊!

     可恶的广告时间:

     第五届《医学界》医院微信培训班现正在火热招生报名中,更多丰富课程等你来参加!

     会务联络人: 李鹏 13402129365 ,17749708509

     固定电话:021-50461038转808,809

     2015年8月20日 -8月22日

     培训对象:医院宣传科、信息科及党政办负责人及工作人员

     详情点击阅读原文报名

    

     医学界产业报道
(微信号:HealthcareReport)

     关注医疗产业动态、行业资讯、医院管理及医改政策,为医疗行业管理、决策及研究者提供快速、有价值的医疗产业信息。

     (点击左下角"阅读原文"链接进入"医学界产业报道"微社区。)

    http://www.duyihua.cn
返回 医学界智库 返回首页 返回百拇医药