编辑导读:用户标签是精细化运营的基础,能有效提高流量的分发效率和转化效率。用户由标签组成,但是这些标签打那些纬度标签?由谁来打?怎么打标签?本文作者对此展开了分析探讨,一起来看看~
标签,主要的作用就是用于商品识别,用来标志产品目标、分类、内容等。标签按照存在形式分,可分实物标签、网络标签(tag)等。
(1)实物标签
主要用于标明物品的品名、重量、体积、用途等信息的简要标牌。有传统的印刷标签和现代条码打印标签。
适用范围:包装:唛头标签、邮政包裹;商品:价格标签、产品说明标签;
(2)网络标签(tag)
它是一种互联网内容组织方式,是相关性很强的关键字,帮助人们轻松的描述和分类内容,以便于检索和分享,Tag已经成为自web 2.0以来的重要元素。
今天我们就来聊聊网络标签,let’s go
背景
假设一个场景:老板把你叫到办公室,让你做一套标签体系,你会怎样推进?
常规思路:调研市场上同类型产品做法→通过各种渠道,拿到标签体系结构(或者利用爬虫爬取标签体系数据)→直接套用过来→人工达标、模型训练→形成自有标签体系
这是一种快速便捷的方案,但是埋了很多隐性的“坑”,稍不留神就会被坑。
怎样躲“坑”?那得学会灵活运用他人的体系
当拿到搭建标签体系的任务,首先想到有两个方案
方案一:调研同类型产品做法,直接套用其分类标签体系
优点:简单、高效
缺点:不完全适合自有内容生态
方案二:爬取同类产品内容数据,进行无监督训练,输出分类标签结果。
优点:可以更好的了解内容生态中内容分布情况,制定合理的分类标签体系。
缺点:时间周期长,成本高
不管方案一还是方案二,得到的都只是初版标签体系标准(比如一二级分类体系标准),只能用做建立底层分类标签,离标签体系建立还有一段露要走。
当有了底层分类标签,可以在此基础上进行多维度标签建构:
……
多维度标签有了,怎样让内容打上这些标签?
1. 充分调用用户生产力,让作者打标
我们都知道,豆瓣将打标的权利下放给用户,在上传文章、写电影评论都可选择或手填标签,对于内容平台来说,这是一笔巨型财富。但是由于用户能力水平有高有低,打出的标签需要进行清洗、消歧等操作后才能使用。
一些资讯平台、视频平台,作者发布文章时,也会让作者选择、填写内容标签,比如趣头条、B站等。
B站发文页面
问题点:用户手动填写的标签没有统一标准,标签名称不规范,无法直接使用。笔者拉出所在公司作者手填tag,利用率也就50%-60%左右,需要人工进行标签分类,比如筛选出实体标签、概念标签、风格标签等。
2. 人工打标
作者手动填写tag,只能作为tag体系补充的一环,且利用率有限。因此,专门的标注同学、真实用户打标,是必不可少的一环,更好的保证标签可用率与准确率。
调动用户生产力,让真实用户打标签,不知大家有没有用过。把打标伪装成用户活动,既是用户运营的手段,也是标签生产的手段,利用用户运营的思路来生产标签,好处多多。
我们来算笔账——
假设日活用户1000万,圈出100万用户做活动,预计每日参与活动用户20w,真正完成答题用户7w-8w,剔除无效数据,最终可用数据可以有10w左右,平均成本可灵活调控。
如果找专人一天标注10w数据,按照人效1500来算(上限值),那么就需要66个人,人力成本一天也得大几万。
对比来看,调动用户生产力,优势不言而喻。
第一步:洞察用户
- 人口学特征:性别、年龄、职业等
- 地理位置特征:所在城市,城市等级
- 活跃行为特征:最近60天、30天、14天、7天等活跃天数
- 阅读行为特征:最近60天、30天安、14天、7天等阅读视频、图文次数、时长。
通过这些不同维度的用户数据,让你对用户做个深度剖析,找到你需要的那部分用户。
第二步:吸引用户
将打标签的项目伪装成用户活动,比如要进行影视剧剧名打标,可以开展一个“看视频猜剧名”的活动。比如要进行相似图片标注 ,可以开展一个“看图片找不同”的活动。
怎样做好伪装,吸引用户参与?
第三步:服务用户
当把用户吸引进来之后,需要为它们做好服务,提升活跃留存。
再多说一句,当把这套流程机制中台化,可以满足不同业务场景需求,对于用户促活、标签打标等具有很强的实操价值。
3. 模型训练
常规的模型训练流程很简单,大致分为五个环节:
标准制定→样本标注→模型训练→数据评测→上线
随着业务需求增加,对于模型迭代效率要求越来越高,普通的模型训练流程太繁琐,需要跨部门沟通,费时费力,因此,搭建一套模型训练自动化平台显得尤为重要,对于简单的模型,可以由运营或者产品协调标注,快速训练、迭代模型,提升效率。
这里简单聊聊模型自动化训练平台的搭建,或有不足之处,大家一起交流学习。
平台工具可分四大模块:数据处理、模型训练、数据集打分、模型对比
模块一:数据处理(整合数据获取、数据处理两个小模块)
(1)数据获取
1)内部获取
2)外部获取
根据具体需求,制定内容爬取方案,瞭望爬取相应内容(图文、视频、小视频等全体裁),需要入库,支持输入标注平台、众包进行数据标注。
(2)数据处理
模块二:模型训练
模块三:数据集打分
模块四:模型对比
对于准召率达标不同版本模型进行留档记录,便于对比迭代前后模型效果
- 对比维度:模型版本号、训练完成时间、P\R\F1值、人工评测准召率等
通过作者打标、用户打标、模型训练等方式,输出了各个维度内容标签,存储于标签库中,为各业务场景提供底层数据支持。