异常检测与风控
异常类型:Point anomaly, Contextual anomaly, Collective anomaly
具体类型:根据取值范围、常数波动、固定斜率波动、滑动聚合加方差、一阶差分、局部异常
任务类型:有监督,无监督;连续异常检测,离散异常检测
模型类型:距离,分类
1. 模型
规则、经验
remove outlier: Random sample consensus (RANSAC) is an iterative method to estimate parameters of a mathematical model from a set of observed data that contains outliers, when outliers are to be accorded no influence on the values of the estimates
3sigma
Z-score标准化,数据满足正态分布
PCA
降维
Local Outlier Factor
孤立森林
Robust Random Cut Forest
One-Class SVM
DBSCAN
autoencoder
GAN
2 风控
信贷风控(join新数据)、电商风控(埋点 event tracking)、内容风控(正则规则)
可解释性、攻防对抗
风控中只有正样本和灰样本
Positive-unlabeled learning
各颗粒度的唯一id,频率间隔等
风控场景特征
支付金额为整数的占比(刻画支付金额是不是都是整数)
支付金额分布前10的占比(刻画支付金额是不是集中在几个数里)
支付商铺的id占比(刻画支付金额是不是集中在几个店铺里)
非运营时段夜间交易行为数量(高危支付行为数量)
实践
风控历史策略如何维护?
信贷风控建模时,正样本和负样本的区分可能比较模糊。可以结合业务识别是个体行为还是群体行为,如果是群体行为,做无监督聚类。先做常规的诈骗关键特征,通过聚集的关键特征与正常白样本有差异,做无监督。通过无监督制作标签转化为有监督分类。
通过业务逻辑链条进行确认,类似图的社区发现。比如通过诈骗电话归属地聚集,cluster形成团伙;找到和团伙的通话记录对应的用户,形成较强的特征等。关联的聚集key是境外电话,通过异常聚集就能得到负样本;而后通过短信或app,转化为有监督
模型校准Calibration
Isotonic Regression: 模型的原始输出和真实标签作为输入,使用 Isotonic Regression 拟合得到一个单调递增的函数
Temperature Scaling: 深度学习的softmax
from sklearn.calibration import calibration_curve, CalibratedClassifierCV
指标
psi、iv、ks、auc、lift
reference
Last updated