什么是模型的分类以及其不确定多属性决策模型的作用

第五章 需求分析与需求建模
第五章 需求分析与需求建模
1‑1 需求采集卡
1‑1 需求分析过程在软件过程中的位置
2‑1软件需求的类型
&&&&&& Craig LarmanUML2
&&&&&& “”
2‑2 &McCall等人提出的软件质量属性的分类模型
&&&&&& 2-1
2‑1推荐的软件质量属性分类方式
&&&&&& Performance
2‑3 性能和效率的关系
&&&&&& Robustness
&&&&&& Understandability
&&&&&& Extensibility
&&&&&& Reusability
&&&&&& Testability
&&&&&& MaintainabilityBug
&&&&&& Portability
3‑1各类需求与软件架构之间的关系
3‑1从约束性需求导出功能需求和质量属性需求的例子
&&&&&& 3-1
3‑2 超市系统案例:理解需求种类
3‑2软件需求信息传递链
3‑3软件需求的易变化性不同
4‑1 质量属性关系矩阵
说明:“+”代表“行属性”促进“列属性”;“-”代表的含义则相反
4‑2调整后的质量属性关系矩阵
说明:浅蓝色为区域1,白色为区域2,浅绿色为区域3
&&&&&& 4-23
5‑1银行领域模型的凭证相关部分
&&&&&& UML
5‑2储蓄帐户的可能状态及状态转换关系
5‑3领域建模与需求捕获之间的关系
&&&&&& 12-4
5‑4常见的项目过程是如何规划的
5‑5领域模型在软件开发中的作用
6‑1开始时的领域模型可能零散且不完整
6‑2软件配置管理领域模型(部分)
&&&&&& configuration item
6‑3最初的人事管理系统领域模型之一角
&&&&&& HRHR6-4
6‑4最初的模型不支持此功能
&&&&&& 6-56-5
6‑5升级后的模型(前者采用关联类)
6‑6领域模型是团队交流的基础
&&&&&& C2C
&&&&&& 6-76-86-7
&&&&&& 6-8
6‑7领域模型的类图部分
6‑8领域模型的状态图部分 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
属性识别理论模型及其应用
下载积分:0
内容提示:属性识别理论模型及其应用
文档格式:PDF|
浏览次数:146|
上传日期: 21:17:15|
文档星级:
该用户还上传了这些文档
属性识别理论模型及其应用
官方公共微信预测问题两种主要类型:分类和数值-技术方案-@大数据资讯
你好,游客
预测问题两种主要类型:分类和数值
来源:博客园&
作者:楚兴
& & & 分类和数值预测是预测问题的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。
一、分类问题的步骤:
1、使用训练集建立描述预先定义的数据类或概念集的分类器。
  第一步也称之为&学习步&或者&训练模型阶段&,使用特定的分类算法通过分析从训练集中学习来构造相应的分类器或者分类模型。这一步也可以看做是,通过训练样本学习一个映射或者函数
,它可以用来预测给定元组X的类标号y。
  训练集是由数据元组和与之相关联的类标号组成,数据元组X由n维属性向量组成,表示该元组在第i个属性上的取值。
  由于训练集中每个元组都有其对应的类标号,因此分类模型的训练过程也称为监督学习(Supervised Learning),即分类器的学习是在被告知每个训练元组的属于哪个类的监督下进行。
  与之对应的是聚类,也称为无监督学习(Unsupervised Learning),在学习的过程中,每个训练元组的类标号是未知的,并且通过学习所形成的类的个数或集合也可能实现不知道。
  2、使用第一步建立的分类模型对新的数据进行分类。
  建立起相应的分类模型后就可以应用该模型对新数据进行分类。对于一个特定的模型衡量其性能的主要指标是:准确率(Accuracy)
  (1)、分类器的准确率度量
  准确率Acc(M),在模式识别文献中也称为分类器的总体识别率(Recognition Rate),是分类器M正确分类的的元组所占的百分比,它反映分类器对各类元组的识别情况。
  混淆矩阵(Confusion Matrix)是分析分类器识别不同类元组的一种有效工具。给定m个类,  则混淆矩阵是一个m*m的二维表,表示类i用被分类器标记为类别j的元组数量。理想地,对于具有高准确率的分类器,大部分的元组都集中在混淆矩阵的对角线上。
  给定两类,可以使用术语正元组(感兴趣的主类元组)和负元组。真正(True Positives)表示分类器正确分类的正元组,真负(True Negatives)是分类器正确标分类的负元组。假正(False Positives)是分类错误的负元组,即实际为负元组预测分类为正元组。假负(False Negatives)是错误标记的正元组,即实际为正元组被分类器分类为负元组。
  (2)、分类器的灵敏性(Sensitivity)度量和特效性(Specificity)度量
  假设已经训练的分类器将医疗数据元组分类为&cancer&和&not_cancer&。90%的准确率使该分类器看上去相当准确,但是,如果只有 3%~4%的训练元组是&cancer&,显然90%的准确率是不可以接受的(比如该分类器只能对&not_cancer&类的元组正确分类,对 &cancer&类的元组全部分类错误)。
  我们希望有某种度量能够对分类器识别&cancer&元组(设为正元组)和&not_cancer&元组(设为负元组)进行分别评估,为此引入灵敏性(Sensitivity)度量和特效性(Specificity)度量。
  灵敏度也称为真正率,是指分类器正确识别正元组的百分比。特效性也称为真负率,是指分类器正确识别负元组的百分比,具体计算方法如下两个公式:
  不难证明,准确率是灵敏性和特效性的函数:
  (3)、分类问题中的过度拟合(Overfit)现象
  Overfit是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就 叫这个假设出现了overfit的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种。提前停止 树的增长或者对已经生成的树按照一定的规则进行后剪枝。
  我们将训练好的模型检验训练集数据,得到的误差率称之为训练误差。将该模型用于检验测试样本,得到的误差率称之为泛化误差。一个好的分类模型不仅要 能够很好的拟合训练数据,而且应该对未知样本能够准确分类。也就是说,一个好的分类模型必须同时具有低训练误差和泛化误差。对训练数据拟合过好的模型,其 泛化误差可能比具有较高训练误差的模型高,这种情况就是所谓模型的过度拟合。
  过度拟合产生的原因:
  ① 噪声数据导致过度拟合
  在现实中,噪声数据往往是难以完全避免的,使用这些噪声数据拟合得到的模型,在将其应用于分类中就可能产生错误分类。
  ② 缺乏代表性样本导致过度拟合
  在训练数据缺乏具有代表的样本的情况下,往往需要继续细化模型才能得到较好拟合训练集的模型,这样得到的模型同样可能具有较高的泛化误差。
  避免过度拟合的策略:
  与上述两个导致模型过度拟合的因素同时出现的是模型的复杂度。模型越复杂出现过度拟合的概率就越高。因此,对于给定具有相同泛化误差的模型,我们往 往更倾向于较为简单的模型,这就是所谓的Occam剃刀(Occam&s Razor)原则。为了避免过度拟合,降低决策树的复杂度,通常的策略是剪枝,该策略采用统计方法删除最不可靠的分支,以提高对未来分类识别的速度和分类 识别新数据的能力。
  ① 先剪枝(pre-pruning)法
  先剪枝法是通过提前停止分支的生长过程,即通过在当前结点上就判断是否需要继续划分该结点所包含训练样本集来实现的。这就需要更为限制性的约束条件,如当观察到衡量不纯性的度量低于某个确阈值就停止分支的生长。
  该方法的优点在于避免产生过分拟合训练数据的过于复杂的子树。但是我们很难为提前终止选择正确的阈值,阈值太高将导致拟合不足,阈值太低则不能充分解决过度拟合问题。
  ② 后剪枝(post-pruning)法
  后剪枝法从一个&充分生长&的树中,按照自底向上的方式修剪多余的分支。修剪的方法有两种:
  (1)用新的叶子节点替换子树,该叶子节点的类标签由子树记录中的多数类确定;
  (2)用子树中最常用的分支代替子树。
  J48决策树算法采用了子树提升(Subtree Raising)与子树替换(Subtree Replacement)的修剪策略。计算修剪前后的预期分类错误率,如果修剪导致预期分类错误率变大,则放弃剪枝,保留该结点的相应分支,否则就将相应 节点分支修剪删除。在产生一系列经过修剪的决策树候选之后,利用一个独立的测试数据集对这些经过修剪的决策树的分类的准确性进行评价,保留下那些预期分类 错误率最小的决策树。与先剪枝相比,后剪枝倾向于产生更好的结果。
  二、为分类和预测准备数据
  可以对数据使用下面的预处理步骤提高分类或预测步骤的准确性、有效性和可伸缩性。
  1、数据清理:
  用于消除或减少数据噪声和处理缺失值(最简单的处理方式是用最常出现的值替换缺失值)。
  2、相关分析:
  可能存在某些属性是冗余的,使用相关分析来识别任意两个给定的属性是否是统计相关的。数据集中还可能包含不相关的属性,可以使用属性子集选择找出属 性的规约子集,使得数据类的结果概率分布与使用所有属性得到的原分布尽可能接近。因此可以使用相关分析和属性子集选择,探测对分类或预测任务不起作用的属 性,将其从数据集的属性中删除。
  3、数据变换与归约:
  数据可以通过规范化进行变换,在学习阶段使用神经网络或涉及距离度量的方法时尤为重要。规范化涉及将所给属性的所有值按比例进行缩放,使得它们落入较小的指定区间,如-1.0到1.0,或者0.0到1.0。
  数据也可以通过泛化到较高层概念进行变换。对于连续值属性,这种变换非常有用。例如,属性income的数值可以泛化为离散的区间,如low,medium和high。泛化可以压缩原来的训练数据,使得学习时的输入输出得以减少。
  还可以采用其他方法对数据进行规约,这些方法包括从小波变换和主成分分析到诸如分箱、直方图分析和聚类的离散化技术。
相关新闻 & & &
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款想认识全国各地的创业者、创业专家,快来加入“”
】-创业路上 与你同行
会员名称: 密码:匿名 ??
评论内容:(最多300个字符)
免责声明:  
  凡本网具体标明“来源”的所有文字、图片和其他形式的文件,均为转载稿,本网转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如果您对本站文章版权的归属存有异议,请立即致电010-或致信chuangye◎通知我们,我们将在第一时间予以删除。
论坛精华贴

我要回帖

更多关于 不确定多属性决策模型 的文章

 

随机推荐