无监督
1. 统计学习
Clustering
Centroid models: k-means clustering
Connectivity models: Hierarchical clustering
Density models: DBSCAN
Gaussian Mixture Models
EM是解KMS算法的方法,EM还可以解其他问题例如GMM
Latent semantic analysis
Hidden Markov Models (HMMs)
Markov processes
Transition probability and emission probability
Viterbi algorithm
Dimension reduction techniques
Principal Component Analysis (PCA)
Independent Component Analysis (ICA)
T-sne
2. 深度学习自监督
contrastive learning 对比学习
相似的实例在投影空间中比较接近,不相似的实例在投影空间中距离比较远
3. 应用场景
实际应用中,无监督更加注重强特征的提取。
3.1 异常检测
3.2 风控
信贷风控(join新数据)、电商风控(埋点 event tracking)、内容风控(正则规则)
可解释性、攻防对抗
风控中只有正样本和灰样本
Positive-unlabeled learning
各颗粒度的唯一id,频率间隔等
风控场景特征
支付金额为整数的占比(刻画支付金额是不是都是整数)
支付金额分布前10的占比(刻画支付金额是不是集中在几个数里)
支付商铺的id占比(刻画支付金额是不是集中在几个店铺里)
非运营时段夜间交易行为数量(高危支付行为数量)
实践
风控历史策略如何维护?
信贷风控建模时,正样本和负样本的区分可能比较模糊。可以结合业务识别是个体行为还是群体行为,如果是群体行为,做无监督聚类。先做常规的诈骗关键特征,通过聚集的关键特征与正常白样本有差异,做无监督。通过无监督制作标签转化为有监督分类。
通过业务逻辑链条进行确认,类似图的社区发现。比如通过诈骗电话归属地聚集,cluster形成团伙;找到和团伙的通话记录对应的用户,形成较强的特征等。关联的聚集key是境外电话,通过异常聚集就能得到负样本;而后通过短信或app,转化为有监督
reference
Last updated