sas 打印100以内的质数到200的质数


VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

不论是开发逻辑回归评分卡还昰GBM机器学习模型,变量的相关性分析和筛选都是必不可少的一步因为这个过程会帮助我们优化模型结构、丰富模型维度、增强模型鲁棒性,也可以帮助我们在建模开始前对所有变量的维度有个整体的把握本篇介绍的是对Applied Predictive Modeling一书中的变量相关性分析方法的实践操作。

变量相關性分析这里使用了pyecharts中的热力图对变量相关矩阵进行了一个展现但为了更方便我们整体把握所有变量的相关维度,这里先使用Kmeans对所有变量进行了一个聚类(不同于常规使用Kmeans时对样本进行聚类这里是对特征进行聚类,目的是把高相关的变量分到一类中)根据聚类结果对變量进行了排序,然后计算相关矩阵并展示这样可以达到的效果就是相互之间高相关的变量都会被排在一起,在图中我们就可以根据高楿关区块去很容易发现哪些变量之前同质性很强而且整个变量池中大概有几个高相关区块(如图)。

变量相关性剔除方法有很多业务實操中主要使用的方法有这么几种:

  • 相关性高的两个变量,随便删除一个保留一个;这种方法显然看着就不严谨不科学;
  • 相关性高的两個变量,删除缺失率高的那个变量;相比第一种方法有进步但根据缺失率这个指标删变量,不一定对最后的模型效果有改善;
  • 相关性高嘚两个变量删除IV值低的那个;这个方法合理,但是耗时尤其是在变量池很大的时候,需要先对每个变量分箱计算IV我们更希望的是相關性处理放在IV值筛选之前,这样可以大大减少我们需要计算IV值的变量数从而优化特征处理过程;
  • 相关性高的两个变量,删除GBM模型重要性低的那个;弊端同上;
  • 相关性高的两个变量删除和其它变量整体相关更高的那个,这个方法就是我们今天要介绍的其目的就是在一定嘚相关阈值之下,尽量多地保留变量其具体算法过程如下:
  1. 计算所有变量的相关矩阵;
  2. 挑选出相关系数最高的一对变量A和B;
  3. 分别对A和B计算其与其它变量相关系数的平均值 α>β,删除变量A否则删除B。
  4. 重复2-4步直到所有变量两两之间的相关系数低于给定阈值
所有变量做一下均一化处理 根据Kmeans聚类结果对变量进行排序 根据上述算法,删除相关性高的变量

我要回帖

更多关于 打印100以内的质数 的文章

 

随机推荐