抖音用户自画像(抖音基于用户画像的推广策略)

219页,继续往下看。

在新用户首购当次Session 和 复购当次Session 的行为分析特征构建的过程中,可基于4.5 节中构建的特征库进行二次开发。

按日期分区记录每天新访问用户的特征,从行为事件、商品类型、商品特征、浏览时长等维度构建特征模型。

和4.5 节中,介绍的用户特征库不同的是,4.5节构建的特征库是记录用户每一次行为的明细,而本节是对用户首访行为进行汇总,将其汇总成一条记录。表结构设计参考下面维度表所示。

抖音用户自画像(抖音基于用户画像的推广策略)

session 分析特征库

下面通过案例介绍如何抽取用户首次访问的session.

这里有一张记录用户点击行为日志的底层表‘ods.click_event_log’ 表,从该表中对当日访问的新用户按当日访问时间做正排序,取第一次访问时间对应的sessionid,即是用户首次访问的行为记录。示例代码如下:

抖音用户自画像(抖音基于用户画像的推广策略)

抖音用户自画像(抖音基于用户画像的推广策略)

这里用到了一个函数:

row_number() over (partition by cookieid order by eventtime asc) as rank

当前日期分区里面,判断是新用户,这个案例很好:

https://blog.csdn.net/qq_25221835/article/details/82762416

在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by、 order by 的执行。

抖音用户自画像(抖音基于用户画像的推广策略)

csdn 上案例,根据分组排序后取序号为1的数据

通过上面的建模,最后得到用户首次访问行为特征的Session表,如下图所示:

抖音用户自画像(抖音基于用户画像的推广策略)

Session 分析特征数据结构示例

后续进一步对用户访问特征的Session表进行透视分析,可以从多个维度挖掘用户首访特征。

分析方法与结论

通过对构建的首访用户行为特征进行透视分析,可以从用户访问路径,访问商品品类,浏览商品价格区间、对促销敏感程度等维度挖掘首访用户特征。

下面通过对用户访问路径进行分析的实践案例来介绍。

抖音用户自画像(抖音基于用户画像的推广策略)

SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession,创建的SparkSession类型的Spark 对象。

spark.sparkcontext.textFile().map(_.split(",")).map(row =>Row(row(0),row(1),row(2),row(3),row(4))

抖音用户自画像(抖音基于用户画像的推广策略)

sparkContext.textFile() :从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop 支持的文件系统 URI 读取文本文件,并将其作为字符串的 RDD 返回。文本文件必须编码为 UTF-8。

如果 use_unicode 为 False,字符串将保存为 str(编码为 utf-8),比 unicode 更快更小。 (在 Spark 1.2 中添加)

.map 含义:

Spark map() is a transformation operation that is used to apply the transformation on every element of RDD, DataFrame, and Dataset and finally returns a new RDD/Dataset respectively

Spark map() 是一个转换操作,用于将转换应用于 RDD、DataFrame 和 Dataset 的每个元素,最后分别返回一个新的 RDD/Dataset。

不解释了,感觉上面好多不懂。— 下一个阶段得研究下spark,上面的变换方式就是使用spark 对cookiesession.log(用户首访session原始数据)做一个整理,最后产生基于cookie维度的事件,包括是否支付,访问时间等等。

查看表结构如下图所示,

抖音用户自画像(抖音基于用户画像的推广策略)

用户首访session原始数据

  • cookie: 用户id。
  • event: 用户访问事件,如点击加购,访问某个页面板块等。
  • ispaid: 用户本次行为事件是否支付,支付为1,未支付为NULL.
  • data_date: 访问日期。
  • time:本次行为事件的时间。

通过用户首访session数据,可以挖掘用户集中在哪个时间段访问、集中访问事件是哪些、主要在哪些行为事件后跳出了访问、哪些行为事件促进了最后下单、访问时长与访问量的增加是否能促进下单等维度的内容。

看到223页,待续。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.vsaren.com/13344.html