【得物技术】数据分析

发布时间:2025-09-29 08:35

进行数据分析培训并取得数据分析师认证,提升数据处理能力 #生活技巧# #工作学习技巧# #工作技能认证#

“社区当前内容主要分为鞋靴、时尚、生活三大类。”

背景:目前用户生产内容质量参差不齐且推荐流 pvctr 持续稳定,无较大涨幅。

目的:找出好的内容作为标杆,从而带动推荐流整体 pvctr 上涨。

手段:通过分析特定品类的核心内容,生成相应精品池规则。

基础模型搭建

本次分享主要是对生活品类精选池进行介绍,为了挑选出生活品类的优质内容,我们主要通过作者内容消费三个维度进行建模:

*图 1-1 生活精品池模型

01

为何考虑从作者、内容、消费三个维度进行建模?

主要基于以下几个方面考虑:

1. 作者维度: 作者的历史累计数据和近期表现会影响作者对待所发内容质量的重视程度;

2. 内容维度: 在未获得用户行为反馈的情况下,对内容本身的基础信息进行建模并获得一个内容基础分数;

3. 消费维度: 基于用户一段时间内对内容的消费情况,推算出用户对内容是否感兴趣,是否更容易促使用户做出什么交互行为,从而判断出内容质量的好坏。

结合以上三个维度,通过对各类目的不同特性进行后期校验,得到各内容的质量分,从而能够量化内容质量。

02

前置动作:生活类目拆

当前社区内容在鞋靴、时尚、生活大类的基础上,还会细分到近 40 个三级类目,涵盖了生活中的方方面面(尤其是生活品类,包含了自拍,健身,游戏,汽车等近 30 个三级类目,且各个三级类目间差异较大)。

为了让最后得到的结果更加准确,同时简化计算过程,我们对生活中所有三级类目进行聚合得到一个计算用类目汇总。

生活三级类目聚合结果如下:

*图 1-2 生活三级类目聚合

模型规则制定

由于当前推荐流中算法所推荐内容均为近 60 天发布的可分发内容(除少量运营配置时效性超过 60 天的内容),故本模型中只对近 60 天发布的内容进行测算。

01

作者指标规则

基于前文(图 1-1)提到的作者维度六个指标,通过近半年的数据进行测算,得到以下作者指标规则,其中我们发现:

·  达人的内容无论从内容本身(文字、图片、视频质量)还是发文频次等方面都高于非达人用户,故对达人用户单独加权

02

内容指标规则

基于前文(图 1-1)提到的内容维度六个指标,我们通过近半年的数据进行测算,得到以下内容指标规则,其中我们发现:

·  带圈子的话题能够被圈主及拥有共同兴趣的圈友所看到并引发讨论,故对带圈子内容进行加权

·  带商品标签的动态有几率进入穿搭精选并可能被搜索该商品的用户发现,故对带商品标签的内容进行加权

03

消费指标规则则

基于前文(图 1-1)提到的消费维度六个指标进行计算,我们按 ctr 为判断标准,将分类汇总后的生活类目内容按总量前 10(S 类)%,前 10%~20%(A 类),前 30%~50%(B 类),后 50%(C 类)为界进行拆分得到各部分的分类目数据作为判别标准;为避免曝光量过少导致统计偏差,我们仅统计发文后 60 天内曝光量大于 100 的动态

04

综合得分

基于以上作者、内容、消费维度规则,每条内容都获得了各个维度的当日得分。通过加权,我们得到了内容的当日综合得分。按照得分倒排后,我们人工校验了每日得分 top500 内容,发现由于健身、自拍类内容自身特性(性感程度普遍较高),导致该类内容的得分普遍偏高,从而导致 top500 的内容中有接近一半的内容为健身、自拍类内容。经过特定品类降权,我们将该部分内容量控制在 3 成左右,保证了每日高得分头部内容的品类丰富度。

模型效果复盘

01

与大盘对比

经过 5 月以来近两个月的时间,我们对模型的实际效果进行复盘;我们对每日得分 top500 的内容在次日热门流中的表现(以 ctr 为评判标准)与生活大盘进行对比,得到以下数据:

*取数口径:2020.5.1~2020.6.17 平均推荐流 pvctr

每日得分 top500 的内容在次日推荐流的 ctr 明显高于大盘。

同时,每条近 60 天发布且曝光量大于 100 的内容均有当日得分,通过得分将内容分为 5 级:

·    S:精选池内容,即得分 top500 内容;

·    A:在得分 top501~得分前 25%内容;

·    B:得分前 25%~得分前 50%间内容;

·    C:得分前 50%~得分前 75%间内容;

·    D:得分前 75%~得分前 100%间内容;

生活大盘 ctr 与 A 级内容 ctr 几乎一致,S 级(即精品池)内容一直保持在大盘 ctr 之上。

查看内容在推荐流的曝光发现:

每日头部得分的生活类目内容在推荐流的日均曝光占比接近全部生活内容曝光量的 90%。

分类目来看,精品池内容较为分散,较全面地覆盖了生活的所有品类,同时,日均得分方差较小,未出现得分过高/过低的类目。

从互动来看,通过该模型得到的生活精选池互动率(互动 pv/曝光数 pv)也略高于生活大盘。

02

与线上运营人工精华池数据对比

截止 6 月 17 日,模型精品池与当前线上运营人工挑选精华池进行对比,两个精华池间重叠内容共 391 条,重合率较低。

在 ctr 方面,对比模型精选池内容和当前运营精选池内容挑选后次日表现,该模型下精选内容的次日 ctr 要高于当前运营精选池。

分三级类目来看,仅有竞技运动、体育明星、潮流玩具三个类目的模型精选池内容 ctr 低于运营精选池 ctr,其他类目均优于运营精选池。

从互动来看,通过该模型得到的生活精选池互动率(互动 pv/曝光数 pv)也高于运营精选池。

*以上分析均基于已有真实数据,考虑到数据敏感性用*号代替。

总结

综上所述,生活类目精选池模型长期保持较好的效果,且未出现极端异常情况,适合作为推荐流的补充渠道在线上运行。

本模型也存在一定的局限性:由于是分类目进行测算,若后期出现新类目,或者该类目内容随着时间推移或者运营重心转移而出现风格上的重大改变,可能导致当前模型不准确。故后期需要定期(例如每个季度/每半年)维护并迭代模型。

文案 | 【数据智能】G.A.L.T. (greatest all the time) 

网址:【得物技术】数据分析 https://www.yuejiaxmz.com/news/view/1346303

相关内容

健康数据分析方法技术
AI技术在大数据分析中的应用.pptx
三维分析:如何利用三维技术进行数据分析?
智能数据分析技术在生活中的运用
数据分析案例:医疗数据分析与预测
数字技术和数据分析如何帮助产品迭代
智能数据分析,智能数据分析软件产品介绍
人人都是数据分析师:到底什么是数据分析?如何进行数据分析?
绿色数据中心节能技术发展现状分析
基于大数据技术的电力系统调度优化分析

随便看看