​机器学习数据不满足同分布,怎么整?-世界滚动 - 行业资讯 -

当前位置:首页  >  行业资讯  > 正文

​机器学习数据不满足同分布,怎么整?-世界滚动

​机器学习数据不满足同分布,怎么整?-世界滚动
2022-12-30 00:39:53

机器学习作为一门科学,不可避免的是,科学本身是基于归纳得到经验总结,必然存在历史经验不适用未来的情况(科学必可证伪)。这里很应景地讲一个小故事--By 哲学家罗素:

农场有一群火鸡,农夫每天来给它们喂食。经过长期观察后,一只火鸡(火鸡中的科学鸡)得出结论,“每天早上农夫来到鸡舍,我就有吃的”,之后每天的经历都在证实它的这个结论。但是有一天,农夫来到鸡舍,没有带来食物而是把它烤了,因为这天是圣诞节,做成了圣诞节火鸡。


(资料图)

通过有限的观察,得出自以为正确的规律性结论的,结局如是此。以这角度,我们去看AI/机器学习的应用,也能看到很多类似的例子。

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是基于一系列假设(基本的如,独立同分布假设)归纳得到经验,进行预测的过程。

也不可避免的,机器学习中也可能出现预测的数据与训练数据不满足同分布,历史数据经验不那么适用了!导致预测效果变差或失效的情况。这就类似我们考试的时候,发现这类型的题目我没有见过,歇菜了...

一、什么是数据不满足同分布

实际预测与训练数据不满足同分布的问题,也就是数据集偏移(Dataset shift),是机器学习一个很重要的问题。

从贝叶斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y),当输入空间的边缘概率分布P(x) , 输出空间的标签分布P(y) 以及表示该机器学习任务的条件概率分布 P(y|x) 之中,有任一项因素发生偏移导致训练数据与预测数据 P(y,x)造成差异,即为数据集偏移现象。

不同因素对应着如下三种情况得数据偏移:

Covariate shift:协变量偏移(统计学中的协变量即机器学习中的特征的概念), 指的是输入空间的边缘概率分布P(x),也就输入特征x分布变化导致的偏移。这个应该是最为常见的,比如图像识别任务中,训练时输入的人脸图像数据没戴口罩,而预测的时候出现了很多戴口罩人脸的图像。再如反欺诈识别中,实际预测欺诈用户的欺诈行为发生升级改变,与训练数据的行为特征有差异的情况。

Prior probability shift:先验偏移,指的是标签分布P(Y) 差异导致的。比如反欺诈识别中,线上某段时间欺诈用户的比例 对比 训练数据 突然变得很大的情况。

Concept shift:映射关系偏移,指P(y|x) 分布变化,也就是x-> y的映射关系发生变化。比如农场的火鸡,本来x是【 早上/农夫/来到/鸡舍】对应着 y是【火鸡被喂食】,但是圣诞节那天这层关系突然变了,x还是【 早上/农夫/来到/鸡舍】但对应着 y是【火鸡被烤了】..hah,留下心疼的口水..

二、为什么数据不满足同分布

可能导致数据不满足同分布的两个常见的原因是:

(1)样本选择偏差(Sample Selection Bias) :分布上的差异是由于训练数据是通过有偏见的方法获得的。

比如金融领域的信贷客群是通过某种渠道/规则获得的,后面我们新增加营销渠道获客 或者 放宽了客户准入规则。这样就会直接导致实际客群样本比历史训练时点的客群样本更加多样了(分布差异)。

(2)不平稳环境(Non-stationary Environments):由于时间上的或空间上的变化导致训练与测试环境不同。

比如金融领域,预测用户是否会偿还贷款的任务。有一小类用户在经济环境好的时候有能力偿还债务,但是由于疫情或其他的影响,宏观经济环境不太景气,如今就无法偿还了。

三、如何检测数据满足同分布

可能我们模型在训练、验证及测试集表现都不错,但一到OOT(时间外样本)或者线上预测的时候,效果就掉下来了。这时我们就不能简单说是模型复杂导致过拟合了,也有可能是预测数据的分布变化导致的效果变差。我们可以通过如下常用方式检测数据分布有没有变化:

3.1 统计指标的方法

通过统计指标去检测分布差异是很直接的,我们通常用群体稳定性指标(Population Stability Index,PSI), 衡量未来的样本(如测试集)及训练样本评分的分布比例是否保持一致,以评估数据/模型的稳定性(按照经验值,PSI<0.1分布差异是比较小的。)。同理,PSI也可以细化衡量特征值的分布差异,评估数据特征层面的稳定性。PSI指标计算公式为 SUM(各分数段的 (实际占比 - 预期占比)* ln(实际占比 / 预期占比) ),介绍可见:指标。其他的方法如 KS检验,KDE (核密度估计)分布图等方法可见参考链接[2]

3.2 异常(新颖)点检测的方法

可以通过训练数据集训练一个模型(如 oneclass-SVM),利用模型判定哪些数据样本的不同于训练集分布(异常概率)。异常检测方法可见:异常检测算法速览

3.3 分类的方法

混合训练数据与测试数据(测试数据可得情况),将训练数据与测试数据分别标注为’1‘和’0‘标签,进行分类,若一个模型,可以以一个较好的精度将训练实例与测试实例区分开,说明训练数据与测试数据的特征值分布有较大差异,存在协变量偏移。

相应的对这个分类模型贡献度比较高的特征,也就是分布偏差比较大的特征。分类较准确的样本(简单样本)也就是分布偏差比较大的样本。

四、如何解决数据不满足同分布4.1 增加数据

增加数据是王道,训练数据只要足够大,什么场面没见过,测试数据的效果自然也可以保证。

如上面的例子,作为一只农场中的科学鸡,如果观察到完整周期、全场景的数据,或者被灌输一些先验知识,就能更为准确预测火鸡的命运。

但是现实情况可能多少比较无奈,可能业务场景的原因限制,并不一定可以搞得到更多数据,诸如联邦学习、数据增强等方法也是同样的思路。

4.2 数据增强

在现实情况没法新增数据的时候,数据增强(Data Augmentation)是一个备选方案,在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。

其原理是通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,加强本体特征的学习,减少模型过拟合,提升泛化能力。具体可见:数据增强方法

4.3 选择数据

我们可以选择和待预测样本分布比较一致的数据做模型训练,使得在待预测样本的效果变得更好。

这个方法看起来有点投机,这在一些数据波动大的数据竞赛中很经常出现,直接用全量训练样本的结果不一定会好,而我们更改下数据集划分split的随机种子(如暴力for循环遍历一遍各个随机种子的效果),或者 人工选择与线上待预测样本业务类型、 时间相近的样本集用于训练模型(或者 提高这部分样本的学习权重),线上数据的预测效果就提升了。

4.4 半监督学习

半监督学习是介于传统监督学习和无监督学习之间,其思想是通过在模型训练中直接引入无标记样本,以充分捕捉数据整体潜在分布,以改善如传统无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。

通过半监督学习,训练时候可以充分捕捉数据整体潜在分布,同理也可以缓解预测数据分布有差异的问题。半监督分类常用的做法是,通过业务含义或者模型选择出一些虽然无标签的样本,并打上大概率的某个标签(伪标签)加入到训练数据中,验证待预测样本的效果有没有变好。

经典的如金融信贷领域的拒绝推断方法(参考链接[6]),我们可以从贷款被拒绝的用户中(这部分用户是贷款的时候直接被拒绝了,没有"是否违约"的标签),通过现有信贷违约模型(申请评分卡)预测这部分拒绝用户的违约概率,并把模型认为大概率违约的用户作为坏样本加入到训练样本中,以提升模型的泛化效果。

4.5 特征选择

对于常见的协变量偏移,用特征选择是一个不错的方法。我们可以分析各个特征在分布稳定性(如PSI值)的情况,筛选掉分布差异比较大的特征。需要注意的是,这里适用的是筛掉特征重要性一般且稳定性差的特征。如果重要特征的分布差距也很大,这就难搞了,还是回头搞搞数据或者整整其他的强特征。特征选择方法可见:python特征选择

4.6 均衡学习

均衡学习适用与标签分布差异(先验偏移)导致的数据集偏移。均衡学习的方法可以归结为:通过某种方法,使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的,以消除模型对不同类别的偏向性,学习到更为本质的决策。

比如原反欺诈训练样本中,好坏样本的比例是1000:1,但到了预测,有时实际的好坏样本的比例是10:1。这时如果没有通过均衡学习,直接从训练样本学习到模型,会先天认为欺诈坏样本的概率就是很低的,导致很多欺诈坏样本的漏判。

不均衡的任务中,一方面可以通过代价敏感、采样等方法做均衡学习;另一方面也可以通过合适指标(如AUC),减少非均衡样本的影响去判定模型的效果。具体可见:一文解决样本不均衡(全)

最后,机器学习是一门注重实践的科学,在实践中验证效果,不断探索原理。

仅以此文致敬我们的数据科学鸡啊。


参考链接:

1、理解数据集偏移 https://zhuanlan.zhihu.com/p/449101154

2、训练/测试集分布不一致解法总结

3、训练集和测试集的分布差距太大有好的处理方法吗 https://www.zhihu.com/question/265829982/answer/1770310534

4、训练集与测试集之间的数据偏移(dataset shift or drifting) https://zhuanlan.zhihu.com/p/304018288

5、数据集偏移&领域偏移 Dataset Shift&Domain Shift https://zhuanlan.zhihu.com/p/195704051

6、如何量化样本偏差对信贷风控模型的影响?https://zhuanlan.zhihu.com/p/350616539

-推荐阅读-

深度学习系列

1、一文概览神经网络模型2、一文搞定深度学习建模预测全流程(Python)3、一文弄懂CNN及图像识别(Python)机器学习系列1、一文解决样本不均衡(全)2、一文全览机器学习建模流程(Python代码)3、一文速览机器学习的类别(Python代码)...更多原创文章,请关注个人博客:https://github.com/aialgorithm/Blog关注【算法进阶】领福利回复【课程】:即可免费领取Python、机器学习、AI 等精品课程资料大全回复【加群】:可提问咨询、共享资源...与群内伙伴一起交流,共同进步或扫码,备注“加群”

标签: 机器学习 训练样本 监督学习

(责任编辑:news01)
群里转账怎么隐藏金额-快看点

群里转账怎么隐藏金额-快看点

群里转账隐藏金额的方法:1、打开微信零钱,点击转账按钮。2、输入转账金额后,点击“隐藏金额”按钮。3...
05-20 10:11:18
资讯:某大型汽车经销商涉嫌掏空公司现金和资产?

资讯:某大型汽车经销商涉嫌掏空公司现金和资产?

--关注、星标、回复“40429”--↓↓领取:《汽车驾驶自动化分级》(GB T40429-2021)↓↓5月19日,*ST庞大
05-20 09:16:28
当前快讯:跨越智慧养老数字鸿沟

当前快讯:跨越智慧养老数字鸿沟

跨越智慧养老数字鸿沟---第九届中国国际养老服务业博览会近期在北京举办,人工智能机器人、生命体征监测设
05-20 08:59:04
北京今天北风明显并伴沙尘来袭 预计今起三天气温将呈现缓慢回升趋势

北京今天北风明显并伴沙尘来袭 预计今起三天气温将呈现缓慢回升趋势

由于缺少阳光,昨天本市的升温进程“受阻”,午后南郊观象台的最高气温定格在了20 5℃,较前期出现了明...
05-20 07:37:56
全球动态:创业的魅力没有人告诉你,深圳这份补贴你需要了解

全球动态:创业的魅力没有人告诉你,深圳这份补贴你需要了解

根据Tech星球和凤凰网科技的报道,ofo小黄车的创始人戴威已经开始了他的新一轮创业之旅,并选择在美国创业
05-20 04:56:11
客如云收银系统一套多少钱_客如云收银系统好用-速读

客如云收银系统一套多少钱_客如云收银系统好用-速读

1、这两个都是做智慧餐饮管理系统的,也就是给餐饮、商超加上互联网的翅膀,收银系统只是整个管理系统中的
05-20 02:58:59
争渡争渡惊起一滩鸥鹭原文_争渡争渡惊起一滩鸥鹭原文列述|环球快播

争渡争渡惊起一滩鸥鹭原文_争渡争渡惊起一滩鸥鹭原文列述|环球快播

1、原文2、《如梦令常记溪亭日暮》3、作者:李清照4、常常记起亭子旁小溪边的亭子,直到夕阳西下,陶醉于美
05-20 00:06:00
炎热boss要反季节突进,今夏确定热哭你?超算:副高或进河南山东

炎热boss要反季节突进,今夏确定热哭你?超算:副高或进河南山东

这两天,我国天气舞台的一个重要角色,是西风带中不断南下的冷涡。5月19日这天,从西伯利亚远道而来的冷涡
05-19 22:17:52
中国电建(601669):全球清洁能源建设龙头 投建营一体化转型重构价值 焦点消息

中国电建(601669):全球清洁能源建设龙头 投建营一体化转型重构价值 焦点消息

中国电建(601669):全球清洁能源建设龙头投建营一体化转型重构价值
05-19 21:28:32
今日关注:王力宏出庭老态毕露:离婚竟没有赢家?他缘何走到这一步丨晚八点娱闻

今日关注:王力宏出庭老态毕露:离婚竟没有赢家?他缘何走到这一步丨晚八点娱闻

从2021年12月15日被台媒曝出,王力宏已经和妻子李靓蕾办妥离婚手续至今,已经过去两年多的时间了。时至今日
05-19 20:49:46
G7峰会召开前,250多名各界人士联名发出呼吁_全球观焦点

G7峰会召开前,250多名各界人士联名发出呼吁_全球观焦点

参考消息网5月18日报道据今日俄罗斯电视台网站5月17日报道,当天,250多名前国家元首、内阁部长、外交官和
05-19 19:53:13
we世界冠军s3 we世界冠军

we世界冠军s3 we世界冠军

今天来聊聊关于we世界冠军s3,we世界冠军的文章,现在就为大家来简单介绍下we世界冠军s3,we世界冠军,希望
05-19 18:58:29
全球热点评!鲁梅尼格:曼城大热对国米是优势 国米有能力击败曼城

全球热点评!鲁梅尼格:曼城大热对国米是优势 国米有能力击败曼城

“在我看来马洛塔就是一位天才经理人,他只花很少的钱就建立起了一支欧冠决赛球队,当我还在拜仁任职的...
05-19 18:37:27
北欧有哪些国家组成

北欧有哪些国家组成

1、北欧(NordicEurope)是政治地理名词,特指北欧理事会的五个主权国家:丹麦、瑞典、挪威、芬兰、冰岛。2、
05-19 18:05:53
大学需要的“安静”,从来不是与世隔绝

大学需要的“安静”,从来不是与世隔绝

近日,高校校园开放成为热门话题。大学教授吐槽“进自己学校都麻烦”,成为最新的案例。北京某高校教授...
05-19 17:20:27
中国旅游日|文旅行业复苏强劲 年轻游客塑造当代旅游新气象

中国旅游日|文旅行业复苏强劲 年轻游客塑造当代旅游新气象

5月19日是第13个“中国旅游日”,受近期多项利好因素影响,文化和旅游行业复苏势头强劲,流动的中国折射...
05-19 17:03:00
世界消息!百元蕉下与“平价蕉下”,谁在贩卖“防晒焦虑”?

世界消息!百元蕉下与“平价蕉下”,谁在贩卖“防晒焦虑”?

蜗居在家3年的女生们,总结出了一套防晒可以抗初老、一白遮百丑的理论,直接助长了防晒化妆品市场的增长。
05-19 16:04:33
全球热议:Citigroup Inc.增持中远海能(01138)约69万股 每股作价约7.50港元

全球热议:Citigroup Inc.增持中远海能(01138)约69万股 每股作价约7.50港元

5月12日,CitigroupInc 增持中远海能(01138)68 9999万股,每股作价7 5016港元,总金额约为517 61万港元。
05-19 15:44:33
美国海军陆战队接收首批增程型MQ-9无人机

美国海军陆战队接收首批增程型MQ-9无人机

中国航空新闻网讯:据简氏防务网站5月18日报道,美国海军陆战队已接收前两架增程型MQ-9无人机,并计划部署
05-19 15:16:22
隔夜拆息升穿4.9厘 创超过15年半高|环球消息

隔夜拆息升穿4.9厘 创超过15年半高|环球消息

5月19日,香港银行公会数据显示,港元拆息持续全线上升,隔夜拆息升穿4 9厘,升至4 96583厘,较上日升0 225
05-19 14:38:21
承德露露董秘回复:公司目前聚焦主业,专注于植物饮品领域,致力于为消费者提供可信赖的植物饮品-报资讯

承德露露董秘回复:公司目前聚焦主业,专注于植物饮品领域,致力于为消费者提供可信赖的植物饮品-报资讯

承德露露(000848)05月19日在投资者关系平台上答复了投资者关心的问题。
05-19 14:05:16
【环球快播报】2023长春马拉松比赛几点结束?

【环球快播报】2023长春马拉松比赛几点结束?

2023长春马拉松比赛几点结束?根据竞赛规程,13:15结束比赛。竞赛时间:2023年5月21日(星期日)7:00-13:15赛
05-19 13:03:14
环球最新:黔西南州口腔种植医疗机构名单及专项治理落地执行情况

环球最新:黔西南州口腔种植医疗机构名单及专项治理落地执行情况

为全面落实口腔种植医疗服务收费和耗材价格专项治理措施,保障广大患者及时享受改革成果,按照《省医保局关
05-19 12:26:51
侵权井柏然公司因未支付2100元维权费用成老赖-当前播报

侵权井柏然公司因未支付2100元维权费用成老赖-当前播报

搜狐娱乐讯近日,天眼查App显示,因有履行能力而拒不履行生效法律文书确定义务,合肥小小莉文化传播有限公
05-19 12:03:27
世界热头条丨产能扩张加速,出货目标高增

世界热头条丨产能扩张加速,出货目标高增

第一时间提供各大券商研究所报告,最大程度减少个人投资者与机构之间信息上的差异,使个人投资者更早的了解
05-19 11:32:04
压货爆仓,价盘卖穿,国产奶粉能过“自己玩死自己”这一关?-最新消息

压货爆仓,价盘卖穿,国产奶粉能过“自己玩死自己”这一关?-最新消息

2022年达能中国所在的中国、北亚和大洋洲地区营收为34 3亿欧元,同比增长6 7%,其中,达能奶粉业务2022年在
05-19 10:53:42
惊险!柯洁压线入选亚运中国围棋队

惊险!柯洁压线入选亚运中国围棋队

北京时间5月18日,2023亚运会选拔赛男子组第二阶段的赛事收官,作为八冠王的柯洁在今天最后一轮战胜范廷钰
05-19 10:25:19
2023年江苏中级会计师报名实行资格前审:7月10日截止-全球最资讯

2023年江苏中级会计师报名实行资格前审:7月10日截止-全球最资讯

根据江苏省财政厅发布的《关于2023年度全国会计专业技术中级资格考试(江苏考区)考务日程安排及有关事项的
05-19 09:59:18
支持提高义务教育质量中国财政部下拨2270多亿元

支持提高义务教育质量中国财政部下拨2270多亿元

支持提高义务教育质量中国财政部下拨2270多亿元支持提高义务教育质量中国财政部下拨2270多亿元2023-05-1909
05-19 09:26:19
冷空气携大风沙尘侵袭北方 周末多地遭遇“换季式”降温

冷空气携大风沙尘侵袭北方 周末多地遭遇“换季式”降温

今明天(5月19日至20日),冷空气将携大风、沙尘、降温天气侵袭北方,局地遭遇“换季式”降温,降幅超10...
05-19 08:55:27

为您推荐

精彩推送