一种行为模式分析
~ 论直觉的海量数据分析
背景
- 收集有一个对象集
- 每个对象仅关注一种行为
- 此行为只记录关注每天是否进行
数据
- 每个对象对应一行数据
- 每行数据只记录有某个日期是否有此行为
- 可压缩表述为:
ID 10001110001010101001001010000000
- 特征字串中, 1代表行为发生, 0相反
- 特征字串长度为对象行为记录时长
- 每个对象的行为记录时长不相同
思路
试从以上数据中分析出:
- 对象的行为模式有多少种
- 各有什么特征
- 边界条件/表现/描述应该是什么
以下是各种设想...
间隔
- 计算每行数据中,日期间隔
- 则每行行为记录转换为行为频次
- 统计每行的
ia:平均间隔
~ 即行为热度- 结合每行
maxi:最大间隔
- 以什么公式,最能相对客观的获得
模式标量
?
- 结合每行
- 以
模式标量
的分布得出模式分类
聚合
- 对每行日期间隔进行合理填充
- 最终形成一张图片:
- 以自然日期为横轴像素条(高1px)
- 是否有行为为标记(有为黑色,无为白色)
- 逐行拼接而成
- 可调整行次序
- 直觉的用图片形成模式的分辨
- 问题在如何排序能合理的体现出模式的聚类?
预测
- 以 Bayes 算法为基础
- 对每行数据进行预测分析
- 得出下一个日期区间,是否有行为的可能性数值
- 以此为
模式标量
, 进行分布聚合,得出模式分类
Hamming Distance
~ shell909090 曰了...
- 以每用户的行为标记行数据为特征序列
- 以目标行为极限数据行为边界
- 进行向量距离计算
- 将此
Hamming Distance
视为模式标量
, 进行分布聚合,得出模式分类
- 将此
其它
....
Author: /mail / gittip / github