从零搭建微信公众号数据分析体系:调研篇

05

2023-09

从零搭建微信公众号数据分析体系:调研篇

书接上回(上周二),前期准备ready,接下来是调(chao)研(xi)的时间,开始构建自己的指标。

LEARN MORE

图片由海艺AI绘制

先看看别人是怎么做

前期准备ready,接下来就是准备一下做个调研。不管是什么项目,其实都无外乎两个调研方向:看看别人是怎么做得+看看自己有什么资源,什么能做什么不能做。

抄别人是怎么做的,这个问题最好的答案不是“有没有做XX方向的大佬可以给我参考一下指标么”,而是去看看靠这个东西赚钱的人。这个思路是一个非常通用的思路,不止是这个项目中可以这么做,事实上,我们在生活中遇到的一切问题都可以用这个思路去解决。

上学学社会学的时候,老师曾经说过这样一个乍一听似乎匪夷所思,但仔细想想其实很有道理的观点任何你能想到的问题,这个世界上肯定已经有人想过了,如果没有的话,就反思一下,是不是这本身就是一个伪命题。这一套在数分狗的世界中可以说是非常适用的。如果套用到这里就是,如果没有人做过公众号的数据分析,是不是可以认为对这个数据做分析本身是没有太大价值的。反之,既然这个问题是有价值的,那么一定会有人在用这个赚钱。因此,我们查找资料的方向锁定在自媒体数据分析第三方平台/工具。

于是顺着这个思路去搜索一下,自媒体数据分析工具。随便划拉划拉,很容易就看到了这样一个页面:

没错,这就是我们要去找的第三方工具。这里顺便说一下为什么要去找第三方工具而不是去找大佬的经验帖,虽然大佬的经验是非常有用的,但是大佬的经验往往和他自身所在的环境有极大的关联。我和大佬的环境不一样,大佬的经验在我这里不一定管用。但是第三方工具因为要盈利,就会考虑各种各样的场景和需求,哪怕是从概率上来说,从第三方工具那里获得灵感的概率是要远大于找大佬的。

接下来其实没什么难度,一个一个去看看这些三方工具的案例。

首先是易撰。简单明确,这是一个自媒体素材的网站,爆款文章工具。

可能有人会认为这个网站完全没有体现任何和数据分析指标体系有关系的东西,应该是无关网站,直接跳过看下一个了。其实这就大错特错了,如果是真实的业务场景中,这个错误就叫做不了解业务真实的运作逻辑。

从这个网站提供的诸多信息中,我们可以总结出这样几点(我试着解释一下为什么能这么总结):

①热门话题非常重要(有专门的爆词排名页面)

②大V的影响里非常大(有专门的作者排名页面)

③标题的影响非常大(有专门的标题检测页面)

这些都是非常符合直觉和认知的:热门话题能得到更多的平台流量支持;和大V唱反调是蹭大V流量的重要手段;虽然我们都讨厌标题党,但是你不得不承认,标题成功地骗到了你的点击。

接下来看第二个网站:清博大数据

显而易见,这是一个舆情监测的工具。这一点和上一个网站带来的信息是完全一致的,对于自媒体出爆款来说,追热点是非常重要的,不然为什么追求爆款的人要这么在意热点在哪里呢?

从这里我们可以看到,指标体系是从公众号和文章两个维度展开的,几个关键的指标也一览无余了。数据人应该都很容易get到,不管是发文数还是点赞数,都是描述性统计指标,是比较简单的,而上面的截图中比较值得在意的指标其实只有一个:微信传播指数WCI。

点进去就能获得完整的公式:

如果统计学的知识稍微扎实一点的同学,应该不难看出来,实际这就是一个对数标准化,且二级指标是有权重的,但是表格中并没有很明确地展示出来二级指标的权重,只在公式中有所体现了。

这点对于纯粹的自媒体人来说可能有点难理解,但是我又不是一个纯粹的自媒体人,一眼就看明白了这其中的弯弯绕绕。其实这个指标体系和我周六发得《这B班值不值得上》类似,如果你是顺着看这个指标是怎么做出来的,可能会觉得这玩意真low,但是对于不熟悉套路的人来说,看到这密密麻麻的的公式可能会觉得这个指标非常高端大气上档次。

接下来如法炮制,去看看新榜。直接点到数据想过的工具中,稍微花费了三五分钟不到的时间,就找到了这样一份示例数据:

神策数据其实是最具参考价值的,但是我就不看了。比较这个之前了解得比较多了,自己搞项目是不可能购买别人的服务的,自己学着做埋点也不现实,直接放弃,非常干脆。微信指数也直接放弃,依然是一个追热点的工具,参考的价值并不大。

这个方向的外部调研就到此为止。另一个方向的数据调研稍微提一嘴,上周的文章中有提到微信公众号没有暴露接口,所以需要本地落库存储数据的问题。

其实BDP这个工具可以直接接入微信公众号的数据的,但是免费的个人版用不了,需要付费。其实BDP算是一个BI工具,对纯粹的自媒体人来说是更加友好的,然而对专业的数据人员来说,BDP的局限性就比较大了。

非要说的话,相比其他BI工具来说,BDP相当于有和微信公众号现成的接口,其他BI工具的话,是没有现成的接口的,需要自己想办法把后台的数据落库。这个系列本质上是技术系列并不是商业分析逻辑案例,所以这种偷懒的做法并不符合初衷。

然后是看看自己有什么

这个是不是直觉上觉得很简单?来,我们一步一步来进行操作。首先微信公众号的数据是分为以下几个模块的:

是不是看起来数据非常全面?该有的分析都有了?那我为什么还要把数据做本地化存储进行分析呢?其实之前讲数据可视化的文章中,我有提到,数据产品和商业分析做数据看板的思路本质上是不一样的。这里就顺手给大家解读一下到底是哪里不一样,以及为什么我要把平台现成的数据做本地化存储二次加工。或许做完这个解释之后,不少纯数据开发的小伙伴能有一些启发。

这个数据面板是一个数据产品面板,而不是一个数据分析面板,虽然有很多数据,但是这些数据无法支持我做任何的分析。这里要说明一点,这不是在拉踩说平台上现有的东西设计得是不好的,仅仅是在表达差异。

举个例子,我可能想知道的是:技术类文章比较容易吸粉还是方法论类文章比较容易吸粉。这个需求需要的数据平台都满足了么?看似有,其实是没有的。首先,技术类文章还是方法论文章,这是我自己对文章的定义,而这个定义,对于平台来说是不存在的。其次,是否容易吸粉,则要比对文章推送日期和从文章关注的用户数量,并且需要一定程度样本的积累才能得出结论。平台的数据设计,则将这两部分数据完全独立在了不同的模块中,如果我想知道这个结论,我需要两个模板来回点切换——切着切着我就失忆了。

要知道,当数据量达到一定的程度之后,描述性统计本身就不再是一件简单的事情了。对于微信公众平台这样一个大流量的业务来说,数据产品设计的面板,侧重点在于将数据统计&呈现给用户;而我作为数据分析,我则更倾向于展示数据之间的关联。

这也就是我不建议创业公司单独设立数据产品岗的原因,对于对于小型创业公司而言,尤其是数据体量没有那么大的公司,把数据呈现出来本身其实并不需要花费太多的代价和精力,不如把有限的预算用在更有价值的意义上,直接呈现分析型的看板。

回到自己制作分析这个话题上来,下一步就是把可能能下载的数据统统点一下下载,看看到底有哪些数据是可以获得的。具体的内容我就不截图了,总之就直接说结论,对我而言有用的数据其实只有内容分析和用户分析。

基于结合已有的数据是什么、外部数据都在关注什么、我自己想要分析什么三个点出发,整合已经有的信息,大致的数据思路模型就有了。

为什么说调研很重要,因为在做过调研之后,就会开拓分析问题的思路。再次分析手头已经有的数据,就会发现这个业务形态其实是这样的:

其中转载是比较特殊的,一些很关键的信息并不在平台现有的数据中,这也就意味着我需要设计手工数据入库的可能。

于是,一个逻辑上的模型就有了。因为是逻辑模型。这里就直接按照维度表和事实表区分为两类。

阅读相关信息落库三张表:

分别对应平台上的这些信息。

因为数据量有限,小时报其实没啥好看的,忽略。作为一个立志要做100%原创的博主,跳转阅读原文可以直接忽略。群发条数也可以忽略,日更一篇就已经是我的创作极限了,如果不是一篇,那就只有一种情况:这是某一个合集的汇总。

虽然很想把这里思考的逻辑也展现出来,但是想了很久也不知道怎么表述。只好偷个懒,把最终的结果放上来吧:

逻辑模型设计完毕,接下来就是对这个逻辑模型进行细化和设计数据库模型了。

关于系列

《从零搭建微信公众号数据分析体系》是一个周更的系列文章,属于边做边写的系列:我是一边在做这个项目,一边把做得过程中的思路和想法都share出来的,所以更新的进度有点没谱。

但是更新的时间是固定的,每周二更新