金融风控之特征选择学习 写在前面今天看到谷爱玲说她没有一分钟是浪费的。反观自己初入职场不顺然后转行去了自己不熟悉也不喜欢的行业一直过着“临时”生活。这种生活快两年了两年间自己并没有得到太大提升闲着的时间都被浪费了。现在自己希望能重回之前的行业在这里记录下学习过程也是监督自己不要半途而废希望能在今年下半年顺利收获理想offer。一、去掉取值变化小的特征原理假设某特征的特征值只有0和1并且在所有输入样本中95%的实例的该特征值取值都是1那可以认为该特征作用不大。二、单变量特征选择原理对每一个特征进行测试衡量该特征和响应变量之间的关系根据得分扔掉不好的特征。对于回归和分类问题以卡方检验等方式对特征进行测试。2.1 person相关系数注意该方法衡量的是变量之间的线性相关性其有效前提是两个变量的变化关系是单调的。2.2互信息和最大信息系数MIC2.2.1 互信息互信息时信息论中的基础概念度量两个随机变量之间共享的信息量即一个变量能在多大程度上降低对另一个变量的不确定性。核心公式如下I(X;Y)∑x∈X∑y∈Yp(x,y)log⁡p(x,y)p(x)p(y) I(X;Y) \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}I(X;Y)x∈X∑​y∈Y∑​p(x,y)logp(x)p(y)p(x,y)​对于连续变量则为积分形式。2.2.2 最大信息系数旨在解决传统互信息在有限样本下难以公平比较不同关系强度的问题。2.3 距离相关系数距离相关系数可以克服person相关系数的弱点不仅关注线性相关性还关注非线性相关性。如果person相关系数为0只能说明无线性相关性但如果距离相关系数为0则可以说明这两个变量是独立的。2.4 基于学习模型的特征排序这里重点说明随机森林筛选特征的原理。首先明确随机森林的基础知识。随机森林的核心思想是1对特征进行无放回随机抽样得到特征子集对样本进行有放回抽样2bagging思想回归问题对各树取平均分类问题对各树结果进行投票。了解完随机森林的基础知识后接下来介绍用随机森林做特征值筛选的核心思想即计算每个特征在构建好的森林中对预测的“贡献”大小并以此作为其重要性的度量。贡献值越大的特征就被认为越重要。这一思想主要有两种经典方法分别是基于不纯度减少和基于精度降低。2.4.1 基于不纯度减少这是随机森林最常用的特征重要性评估方法。核心原理是在随机森林构建每颗决策树的过程中算法会不断选择特征对节点进行分裂以降低子节点的“不纯度”如分类问题中的基尼不纯度或信息增益。一个特征如果在越多的节点上用于被分裂并且能显著降低不纯度那么该特征对模型的贡献越大。计算步骤·对于森林里每一颗树计算每个特征在每次用于节点分裂时所降低的不纯度数值·将该特征在所有树上的不纯度累加并做平均·比较该平均值数值越大特征越重要不纯度的计算分以下两种情况对于分类任务来说其不纯度用gini系数或信息熵来计算对于回归任务来说其不纯度用MSE均方误差来计算

相关新闻

最新新闻

如何3步完成HTML转Figma:终极网页设计转换指南

如何3步完成HTML转Figma:终极网页设计转换指南

如何3步完成HTML转Figma:终极网页设计转换指南 【免费下载链接】figma-html Convert any website to editable Figma designs 项目地址: https://gitcode.com/gh_mirrors/fi/figma-html 你是否曾想过将现有的网页瞬间变成可编辑的Figma设计稿?今天…

2026/7/3 20:08:46
CVE-2025-49144漏洞深度解析:从Notepad++权限提升看软件安全攻防

CVE-2025-49144漏洞深度解析:从Notepad++权限提升看软件安全攻防

1. 项目概述:一次由文本编辑器引发的“权限风暴”如果你是一名开发者、运维人员,或者只是习惯用Notepad来快速编辑配置文件、查看日志,那么最近爆出的这个CVE-2025-49144漏洞,绝对值得你停下手中的活,花十分钟认真了解…

2026/7/3 20:08:46
C# 高性能 TCP 服务的多种实现方式

C# 高性能 TCP 服务的多种实现方式

哎~~ 想想大部分园友应该对 "高性能" 字样更感兴趣,为了吸引眼球所以标题中一定要突出,其实我更喜欢的标题是《猴赛雷,C# 编写 TCP 服务的花样姿势!》。 本篇文章的主旨是使用 .NET/C# 实现 TCP 高性能服务的不同方式&…

2026/7/3 20:08:46
ASP.NET是如何在IIS下工作的

ASP.NET是如何在IIS下工作的

ASP.NET与IIS是紧密联系的,由于IIS6.0与IIS7.0的工作方式的不同,导致ASP.NET的工作原理也发生了相应的变化。 IIS6(IIS7的经典模式)与IIS7的集成模式的不同 IIS6的运行过程: 分析上图可知: 在 User Mode 下,http.sys …

2026/7/3 20:08:46
2026年IEEE第九届机器学习和自然语言处理国际会议 (MLNLP 2026)

2026年IEEE第九届机器学习和自然语言处理国际会议 (MLNLP 2026)

【重要信息】 大会时间:2026年12月26-28日 大会地点:中国-厦门 检索类型:EI核心,Scopus及CPCI-S 出版社:IEEE出版社 主办单位:集美大学 承办单位:集美大学计算机工程学院 【征稿主题】: 专题一&…

2026/7/3 20:08:46
KMR221与PIC18F86J16在嵌入式电源管理中的协同设计

KMR221与PIC18F86J16在嵌入式电源管理中的协同设计

1. KMR221与PIC18F86J16的硬件协同设计在嵌入式电源管理系统中,KMR221作为一款高精度电压监测芯片,与PIC18F86J16微控制器的组合堪称经典搭配。这种组合特别适合需要多路电压监控的场合,比如工业控制设备、医疗仪器等高可靠性应用场景。KMR22…

2026/7/3 20:03:46

周新闻

月新闻