内容简介作者简介编辑推荐精彩书摘目录
这是一本从技术、产品和运营3个角度讲解如何从0到1构建用户画像系统的著作,同时它还为如何利用用户画像系统驱动企业的营收增长给出了解决方案。作者有多年的大数据研发和数据化运营经验,曾参与和负责多个亿级规模的用户画像系统的搭建,在用户画像系统的设计、开发和落地解决方案等方面有丰富的经验。
全书一共9章:
第1~6章主要讲解了搭建用户画像系统需要掌握的概念、技术、流程、方法论等,包括用户画像的基础知识、数据指标体系、标签数据存储、标签数据开发、开发性能调优、作业流程调度等;
第7章讲解了如何对用户画像进行产品化,为工程实践提供解决方案;
第8章详细讲解了用户画像在经营分析、精准营销和个性化推荐3个经典领域的应用;
第9章通过8个常见的场景讲解了8个用户画像系统的落地案例,帮助读者掌握如何利用用户画像系统来驱动企业的营收增长。
赵宏田——资深大数据技术专家,先后在中国地质大学(武汉)和武汉大学获得工学和经济学双学士学位。在大数据、数据分析和数据化运营领域有多年的实践经验,擅长Hadoop、Spark等大数据技术,以及业务数据分析、数据仓库开发、爬虫、用户画像系统搭建等。开源项目的贡献者,知乎专栏作者,撰写了大量专业文章,广受好评。著有畅销书《数据化运营:系统方法与实践案例》。
(1) 作者是资深大数据技术专家,在大数据、数据分析、数据化运营方面积累了丰富的经验。
(2)作者有多个亿级规模的用户画像系统的构建经验。
(3)本书不仅从技术、产品、运营3个维度讲解了如何从0到1构建一个用户画像系统,而且给出了利用用户画像系统驱动企业营收增长的解决方案。
(4)本书对用户画像系统的多个使用场景进行了详细的介绍,同时给出了相关的实践案例。
前言
为什么写这本书
我曾在知乎“数据智能”专栏下面不定期连载关于用户画像的文章,也曾在知乎开设过几期live直播,还曾在天善智能等网课平台开设过系列网课“用户画像解决方案”。在和同行业中对画像感兴趣的朋友们交流时,我发现大家虽然来自地产、烟草、零售、互联网等不同行业,但所在公司对用户画像领域都有建设需求,而且大家对于指标体系、标签作业效率(ETL)、标签监控、实时计算、画像产品化、业务应用场景和应用方式等方面都有进一步了解的兴趣。所以我想对这些年做用户画像的经验、踩过的“坑”进行梳理总结,为数据开发、数据分析、运营、用户研究等岗位的工作人员提供一些参考。
在写这份解决方案的一个个夜晚,我有时会想,科技和时代都在飞速发展,如果有一天我不做这一行了,该拿什么来回忆那些年奋斗的时光呢?2019年,我第3次从0到1开始搭建用户画像系统,从离线标签开发、用户数据分析、ETL调度、流式计算开发,到打通数据服务层、应用画像数据服务业务方、获得业务增长的反馈,这一路走过来,过程是痛苦的,收获是丰富的。奋斗的日子固然多彩,回望一步步走过的路,谨以此书向那些不舍昼夜奔腾向前的日子致敬。
本书特色
开始做用户画像的时候我也不知道从何处下手,市面上介绍Hive、Spark、HBase、MySQL、数据仓库等大数据相关技术的书籍很多,但是介绍用户画像搭建开发的书籍很少,甚至没有。在没有相关项目经验的情况下,我不知道如何把这些大数据组件统筹起来搭建用户画像系统。直到这两年,我才一边开发画像系统,一边总结梳理,最终编纂成本书。
本书借助数据仓库实现一套用户画像系统的方案。从实际工程案例出发,结合多业务场景,内容涵盖开发离线批处理计算的标签及流式计算标签,为读者的分析、开发、搭建用户画像系统,并借助该用户画像系统为运营人员制定运营用户的策略提供端到端的解决方案。
一套好的解决方案需要包括以下几个层面。
1)架构层:在画像系统的架构层,本书首先介绍了画像数据仓库的架构,进一步介绍了数据存储的技术选型,在什么场景下使用Hive、MySQL、HBase、Elasticsearch等工具存储数据,用户标签开发、人群计算开发等相应数据开发层面的内容,以及整个项目的开发流程和各阶段的关键产出。
2)流量层:介绍整个方案是如何运作起来的。本书主要涉及画像系统的作业流程调度、数据仓库和各业务系统的打通。
3)业务层:包括系统的前后端交互以及如何把这套系统应用在业务服务层面。本书通过用户画像产品化介绍了产品端和画像系统的“代码”层面是如何进行交互操作的。
4)方案价值:包括系统上线后如何服务于各业务场景产生业务价值以及有待进一步完善的地方。
以上几个层面的内容构成了一套完整的用户画像解决方案,这也是本书各章节覆盖的全部模块。
数据的最终目的是走出数据仓库,应用到业务系统和营销系统中来驱动营收增长。
我在学习数据仓库的时候学过Kimball的《数据仓库工具箱》,其中关于数据仓库的34个子系统的介绍对我影响很大,其对于如何解决特定问题并形成结构化思维有着系统的方法论与解决方案。虽然面对具体问题的处理方式是灵活且丰富多样的,但是固定的结构化思维有利于快速找到突破口,形成良好的开端。
本书可以帮助读者在用户画像领域形成一种体系化思维,在面对一个具体项目时不会无从下手。如何建立标签指标体系?指标体系中包含哪些标签?如何设计存储画像标签的表结构?如何开发标签?画像系统中涉及哪些数据存储工具?如何打通标签数据到服务层?如何对画像系统进行监控?如何对整个画像系统进行调度?如何使画像系统服务于业务场景来驱动增长?这些都是画像系统的子模块。
主要章节及内容
本书共9章,各章具体内容如下:
第1章:主要讲用户画像的基础知识,包括搭建用户画像系统需要覆盖的模块,开发阶段流程,各阶段的关键产出,以及数据仓库架构、表结构的设计等内容。阅读本章可以帮助读者形成构建用户画像的一个整体化思想。
第2章:结合业务设定指标体系,本章针对案例背景,从常用的用户属性、行为、消费、风险控制这4个维度设定指标体系。本章提供的标签可涵盖大部分刻画用户画像的应用场景,对于具体应用点,读者可根据公司业务特性进行针对性的补充。
第3章:讲解了标签相关数据的存储,包括Hive存储、MySQL存储、HBase存储和Elasticsearch存储。不同的存储方式适用于不同的场景和业务需要。
第4章:也是本书的重点章节,书中介绍的标签数据及相关脚本的开发是用户画像构建工作的重点。本章讲解了对常见的统计类、规则类、挖掘类、流式计算类标签以及用户特征库等与用户相关的数据的开发,还进一步介绍了如何计算人群数据、打通数据到服务层通路的开发。通过GraphX图计算用户2度关系熟人的案例介绍了如何深度挖掘用户间的关联关系。本章对每一小节都进行了详细的讲解,并附有配套的代码计算过程。
第5章:讲解了开发过程中常见的数据倾斜调优、对小文件的读取、缓存中间数据、开发中间表等调优工作。
第6章:讲解了如何使用开源ETL工具Airflow实现画像系统相关任务的工程化上线调度,以及对数据的监控预警和调度异常的排查。
第7章:画像产品化是数据从数据仓库走向业务服务的重要环节,画像产品化可便于业务人员使用工具来分析用户,将业务上定义的用户群应用到各业务系统中提供服务。本章为数据产品人员、业务人员提供了解决方案的思路。
第8章:介绍了用户画像的应用场景,包括经营分析、精准营销、个性化推荐等应用方向,方便业务人员、产品经理、数据分析师更好地了解用户、触达用户。
第9章:通过场景化介绍用户画像实际应用的8个案例,清楚地展现了用户画像作为一种分析、触达用户的工具在实际业务上的应用方式和应用流程。
主要读者对象
·产品经理:由于岗位性质对技术不是特别熟悉,可重点关注第1、2、7、8、9章的内容。
·数据分析师:可以从多个维度对用户及用户群进行分析,可重点关注第1、2、3、7、8、9章的内容。
·运营人员:可重点关注第2、8、9章的内容,了解画像系统涉及的指标体系、应用场景及应用策略。
·数据开发人员:本书主要站在数据开发人员的角度对整个画像系统进行系统化介绍。数据开发人员可完整阅读本书各章的内容。
·市场人员:借助画像系统了解用户群体的特征以及运营用户群的策略方法,可重点关注第2、8、9章的内容。
勘误和支持
由于水平有限,书中难免会存在疏漏之处,恳请读者批评指正。为此,读者可通过邮箱(892798505@qq.com)或微信(administer00001)反馈有关问题,我将尽全力为读者进行解答。
致谢
感谢父母对我一路成长的支持。感谢机械工业出版社华章公司的杨福川老师和李艺老师,这是我第二次与两位老师合作,每次合作与沟通总是那么愉快;感谢为本书写推荐的朋友们,你们的专业建议让本书更加精彩。最后,感谢过去一年中自己的每一分投入,不断积累,将大数据在用户画像领域的工程化实现和应用方案编纂成书。
前言
第1章 用户画像基础1
1.1 用户画像是什么1
1.1.1 画像简介1
1.1.2 标签类型3
1.2 数据架构4
1.3 主要覆盖模块5
1.4 开发阶段流程7
1.4.1 开发上线流程7
1.4.2 各阶段关键产出9
1.5 画像应用的落地10
1.6 某用户画像案例11
1.6.1 案例背景介绍11
1.6.2 相关元数据12
1.6.3 画像表结构设计16
1.7 定性类画像21
1.8 本章小结22
第2章 数据指标体系23
2.1 用户属性维度23
2.1.1 常见用户属性23
2.1.2 用户性别26
2.2 用户行为维度27
2.3 用户消费维度27
2.4 风险控制维度29
2.5 社交属性维度30
2.6 其他常见标签划分方式31
2.7 标签命名方式33
2.8 本章小结34
第3章 标签数据存储35
3.1 Hive存储35
3.1.1 Hive数据仓库35
3.1.2 分区存储37
3.1.3 标签汇聚39
3.1.4 ID-MAP41
3.2 MySQL存储45
3.2.1 元数据管理45
3.2.2 监控预警数据47
3.2.3 结果集存储47
3.3 HBase存储50
3.3.1 HBase简介50
3.3.2 应用场景52
3.3.3 工程化案例52
3.4 Elasticsearch存储59
3.4.1 Elasticsearch简介59
3.4.2 应用场景60
3.4.3 工程化案例64
3.5 本章小结67
第4章 标签数据开发69
4.1 统计类标签开发69
4.1.1 近30日购买行为标签案例70
4.1.2 最近来访标签案例73
4.2 规则类标签开发74
4.2.1 用户价值类标签案例75
4.2.2 用户活跃度标签案例79
4.3 挖掘类标签开发84
4.3.1 案例背景84
4.3.2 特征选取及开发85
4.3.3 文本分词处理86
4.3.4 数据结构处理89
4.3.5 文本TF-IDF权重90
4.3.6 朴素贝叶斯分类92
4.4 流式计算标签开发95
4.4.1 流式标签建模框架95
4.4.2 Kafka简介96
4.4.3 Spark Streaming集成Kafka97
4.4.4 标签开发及工程化99
4.5 用户特征库开发104
4.5.1 特征库规划105
4.5.2 数据开发107
4.5.3 其他特征库规划111
4.6 标签权重计算112
4.6.1 TF-IDF词空间向量112
4.6.2 时间衰减系数114
4.6.3 标签权重配置115
4.7 标签相似度计算116
4.7.1 案例场景116
4.7.2 数据开发118
4.8 组合标签计算122
4.8.1 应用场景122
4.8.2 数据计算123
4.9 数据服务层开发124
4.9.1 推送至营销系统125
4.9.2 接口调用服务127
4.10 GraphX图计算用户129
4.10.1 图计算理论及应用场景129
4.10.2 数据开发案例132
4.11 本章小结135
第5章 开发性能调优137
5.1 数据倾斜调优137
5.2 合并小文件141
5.3 缓存中间数据143
5.4 开发中间表144
5.5 本章小结145
第6章 作业流程调度146
6.1 crontab命令调度146
6.2 Airflow工作平台148
6.2.1 基础概念149
6.2.2 Airflow服务构成150
6.2.3 Airflow安装151
6.2.4 主要模块功能151
6.2.5 工作流调度155
6.2.6 脚本实例155
6.2.7 常用命令行158
6.2.8 工程化调度方案158
6.3 数据监控预警161
6.3.1 标签监控预警161
6.3.2 服务层预警162
6.4 ETL异常排查164
6.5 本章小结166
第7章 用户画像产品化167
7.1 即时查询167
7.2 标签视图与标签查询169
7.3 元数据管理171
7.4 用户分群功能173
7.5 人群分析功能175
7.6 本章小结177
第8章 用户画像应用178
8.1 经营分析178
8.1.1 商品分析178
8.1.2 用户分析179
8.1.3 渠道分析180
8.1.4 漏斗分析185
8.1.5 客服话术186
8.1.6 人群特征分析186
8.2 精准营销187
8.2.1 短信/邮件营销187
8.2.2 效果分析188
8.3 个性化推荐与服务189
8.4 本章小结190
第9章 实践案例详解191
9.1 风控反欺诈预警191
9.1.1 应用背景191
9.1.2 用户画像切入点192
9.2 A/B人群效果测试193
9.2.1 案例背景194
9.2.2 用户画像切入点194
9.2.3 效果分析195
9.3 用户生命周期划分与营销195
9.3.1 生命周期划分196
9.3.2 不同阶段的用户触达策略201
9.3.3 画像在生命周期中的应用204
9.3.4 应用案例206
9.4 高价值用户实时营销209
9.4.1 项目应用背景209
9.4.2 用户画像切入点209
9.4.3 HBase应用场景小结209
9.5 短信营销用户211
9.5.1 案例背景211
9.5.2 画像切入及其应用效果211
9.6 Session行为分析应用213
9.6.1 关于用户行为分析213
9.6.2 案例背景218
9.6.3 特征构建219
9.6.4 分析方法与结论221
9.7 人群效果监测报表搭建228
9.7.1 案例背景228
9.7.2 逻辑梳理228
9.7.3 自动报表邮件237
9.8 基于用户特征库筛选目标人群239
9.8.1 案例背景239
9.8.2 应用方式及效果240
9.9 本章小结241
附录 某产品用户画像项目规划文档242