一周辣评:为什么榜单的数据跟我看的不一样?
2015/6/30 医学界智库
来源:新媒体指数
问题一:为什么软件做不到实时统计阅读数?
数学是个很神奇的东西,一些看似不经意的小数字,却有着庞大的力量。
医学界排行榜每周公布一次统计数据,我们使用的软件每日对超过30万的公众账号进行数据统计,我们先不谈实时的问题,假设一小时统计一次:看上是一件很容易的实情,但实际情况如何呢?
我们来算一下。
条件:对一个账号进行数据统计,一小时一次,统计周期一个月。每天都对周期内的文章进行抓取。
计算:假设该账号每天发布5篇文章。且每日发文时间为固定。
第一天:每小时抓取次数为5,首天抓取数据次数为5×24=120次
第二天:抓取的次数为5×24×2+5×24=360
第三天:5×24×3+5×24×2+5×24=720
第四天:5×24×4+5×24×3+5×24×2+5×24=1200
……
第n天:5×24×n+5×24×(n-1)+5×24×(n-2)+ …… 5×24
大家都已经看出来了吧,这其实是一个等差数列(迷茫中的可以翻高一数学课本复习一下)。其求和计算公式为:
其中 a1为首项,在该计算中为5×24,即120
d 为公差,在该计算中为120
所以…… 所以第31天需要抓取的次数为S30=120×31+31×30÷2×120=59520
一个月总的抓取次数为 120×(1+(1+2)+(1+2+3)+ …… +(1+2+3+4+……+31)
这其实是一个二阶等差数列。可以看到除了公差项120之外,其余的为天数累加,其之间存在的规律为an-a(n-1)=n。an=(n^2+n)/2。最后的求和公式为Sn=n(n+1)(2n+1)/6
所以……所以……所以一个月的总抓取次数是 120×31×(31+1)×(31×2+1)÷6=120×31×32×63÷6=1249920
Oh my god!
问题二:为什么我后台看到的数据跟你们抓取的差别那么大?
当然问的更多的是,为什么我在后台看到的数据跟你们抓取的差别那么大,你们的数据是错误的么?
这个……这个同样算一下吧。
模型:某单位账号每天发布5篇文章,每周发布7天。
测算;设定的统计周期为上周日到本周六为一周。数据在周日下午开始抓取,一般抓取时间为15时至19时,后台数据会在20时左右更新。
取中值,假设某账号数据在17时被抓取到,在后台数据于20点更新展示出来时,时间差为3小时。
由于数据更新时间为晚间,且为周末。因而绝大多数发榜机构会选择在第二天即周一进行发榜。在内容发布时间方面,很多运营着都相信有一种“晚高峰理论”,即在下午下班前后发布的文章最易引发人们的阅读。于是不少账号都将每日一次的宝贵发布机会选择在16时到19时之间。
所以假设我们的发榜机构也遵循这样的规律,其榜单在周一下午17时发出。此时,距离账号数据被抓取到已经过去了24小时。
由于时已近晚,某单位于第二天上班后(9点)看到该榜单,并立即验证自己的账号数据,数据验证于10点完成。此刻举例机构发榜过去17小时,举例新媒体指数数据抓取时间过去41小时。
如果每篇文章的阅读数每小时增加10次(这应该不高吧)。
41小时过去了,数据会产生多大的变化呢?
数据的变化量S=5×7×41×10=14350
当然这是为了便于计算的数学模型,实际情况更复杂。
好可怕的数据效应啊!
可恶的广告时间:
第五届《医学界》医院微信培训班现正在火热招生报名中,更多丰富课程等你来参加!
会务联络人: 李鹏 13402129365 ,17749708509
固定电话:021-50461038转808,809
2015年8月20日 -8月22日
培训对象:医院宣传科、信息科及党政办负责人及工作人员
详情点击阅读原文报名
医学界产业报道(微信号:HealthcareReport)
关注医疗产业动态、行业资讯、医院管理及医改政策,为医疗行业管理、决策及研究者提供快速、有价值的医疗产业信息。
(点击左下角"阅读原文"链接进入"医学界产业报道"微社区。)
http://www.duyihua.cn
返回 医学界智库 返回首页 返回百拇医药