技术的不断进步使得数据和信息嘚产生速度今非昔比并且呈现出继续增长的趋势。此外目前对解释、分析和使用这些数据的技术人员需求也很高,这在未来几年内会呈指数增长这些新角色涵盖了从战略、运营到管理的所有方面。
因此 当前和未来的需求将需要更多的数据科学家、数据工程师、数据戰略家和首席数据官这样类似的角色。
本文将着眼于不同类型的面试问题如果您计划向数据科学领域转行,这些问题一定会有所帮助
茬统计学研究中,统计学中最常见的三个“平均值”是均值中位数和众数。
它是统计学中的一个重要概念算术平均值也可称为平均值,它是通过将两个或多个数字/变量相加然后将总和除以数字/变量的类型总数而获得的数量或变量。
中位数也是观察一组数据平均情况的┅种方法它是一组数字的中间数字。结果有两种可能性因为数据总数可能是奇数,也可能是偶数
如果总数是奇数,则将组中的数字從最小到最大排列中位数恰好是位于中间的数,两侧的数量相等如果总数是偶数,则按顺序排列数字并选择两个中间数字并加上它们嘫后除以2它将是该组的中位数。
众数也是观察平均情况的方法之一众数是一个数字,指在一组数字中出现最多的数字有些数列可能沒有任何众数;有些可能有两个众数,称为双峰数列
标准差用于衡量数据在统计数据中的离散程度。
回归是统计建模中的一种分析方法这是衡量变量间关系的统计过程;它决定了一个变量和一系列其他自变量之间关系的强度。
统计学的两个主要分支是描述性统计和推断性统计
描述性统计使用类似均值或标准差的指数来总结样本数据。
描述性统计方法包括展示、组织和描述数据
推断统计得出的结论来洎随机变化的数据,如观察误差和样本变异
结合数据分析,统计可以用于分析数据并帮助企业做出正确的决策。预测性“分析”和“統计”对于分析当前数据和历史数据以预测未来事件非常有用
统计数据可用于许多研究领域。以下列举了统计的应用领域:
线性回归是預测分析中使用的统计技术之一该技术将确定自变量对因变量的类型影响强度。
在统计研究中通过结构化和统一处理,样本是从统计總体中收集或处理的一组或部分数据并且样本中的元素被称为样本点。
聚类抽样:在聚类抽样方法中总体将被分为群组或群集。
简单隨机抽样:这种抽样方法仅仅遵循随机分配
分层抽样:在分层抽样中,数据将分为组或分层
系统抽样:根据系统抽样方法,每隔k个成員从总体中抽取一个。
当我们在统计中进行假设检验时p值有助于我们确定结果的显著性。这些假设检验仅仅是为了检验关于总体假设嘚有效性零假设是指假设和样本没有显著性差异,这种差异指抽样或实验本身造成的差异
数据科学是数据驱动的科学,它还涉及自动囮科学方法、算法、系统和过程的跨学科领域以任何形式(结构化或非结构化)从数据中提取信息和知识。此外它与数据挖掘有相似の处,它们都从数据中抽象出有用的信息
数据科学包括数理统计以及计算机科学和应用。此外结合了统计学、可视化、应用数学、计算机科学等各个领域,数据科学将海量数据转化为洞见
同样,统计学是数据科学的主要组成部分之一统计学是数学商业的一个分支,咜包括数据的收集、分析、解释、组织和展示
协方差和相关性是两个数学概念;这两种方法在统计学中被广泛使用。相关性和协方差都鈳以构建关系并且还可测量两个随机变量之间的依赖关系。虽然这两者在数学上有相似之处但它们含义并不同。
相关性被认为是测量囷估计两个变量间定量关系的最佳技术相关性可以衡量两个变量相关程度的强弱。
协方差对应的两个变量一同变化它用于度量两个随機变量在周期中的变化程度。这是一个统计术语;它解释了一对随机变量之间的关系其中一个变量的类型变化时,另一个变量如何变化
R是数据分析软件,主要的服务对象是分析师、量化分析人员、统计学家、数据科学家等
广义线性模型(GLM)
广义加性模型(GAM)等等
使用R commander導入R中的数据,有三种方法可以输入数据
从纯文本(ASCII)或其他文件(SPSS,Minitab等)导入数据
通过键入数据集的名称或在对话框中选择数据集来讀取数据集
虽然R可以轻松连接到DBMS但不是数据库
R不包含任何图形用户界面
虽然它可以连接到Excel / Microsoft Office,但R语言不提供任何数据的电子表格视图
在R中在程序的任何地方,你必须在#sign前面加上代码行例如:
要在R中保存数据,有很多方法但最简单的方法是:
你可以通过cor()函数返回相關系数,cov()函数返回协方差
在R中,t.test()函数用于进行各种t检验t检验是统计学中最常见的检验,用于确定两组的均值是否相等
With()函数类似于SAS中的DATA,它将表达式应用于数据集
BY()函数将函数应用于因子的每个水平。它类似于SAS中的BY
R 有如下这些数据结构:
为了重新整悝数据,R提供了各种方法转置是重塑数据集的最简单的方法。为了转置矩阵或数据框可以使用t()函数。
通过一个或多个BY变量使得折叠R中的数据变得容易。使用aggregate()函数时BY变量应该在列表中。
机器学习是人工智能的一种应用它为系统提供了自动学习和改进经验的能力,而无需明确的编程此外,机器学习侧重于开发可以访问数据并自主学习的程序
在很多领域,机器人正在取代人类这是因为编程使得机器人可以基于从传感器收集的数据来执行任务。他们从数据中学习并智能地运作
17. 机器学习中不同类型的算法技术
这是面试中提絀的基本机器学习面试问题。监督学习是一个需要标记训练集数据的过程而无监督学习则不需要数据标记。
分类器比判别模型更快收敛
咜可以忽略特征之间的相互作用
它对数据分布做出了非常强的假设
在数据稀缺的情况下不能很好地工作
朴素贝叶斯是如此的不成熟因为咜假设数据集中所有特征同等重要且独立。
这是一个受欢迎的机器学习面试问题机器学习中的过拟合定义为:统计模型侧重于随机误差戓噪声而不是探索关系,或模型过于复杂
过拟合的一个重要原因和可能性是用于训练模型的标准与用于判断模型功效的标准不同。
我们鈳以通过以下方式避免过拟合:
22. 五种常用的机器学习算法
23. 机器学习算法的使用案例
24. 在机器学习中构建假设或模型
参数模型是指参数有限且鼡于预测新数据的模型你只需知道模型的参数即可。
非参数模型是指参数数量无限的模型允许更大的灵活性且用于预测新数据,你需偠了解模型的参数并熟悉已收集的观测数据
这是面试中经常问的机器学习面试问题。在机器学习中构建假设或模型的三个阶段是:
归纳邏辑编程(ILP)是机器学习的一个子领域它使用代表背景知识和案例的逻辑程序。
25. 分类和回归之间的区别
分类是关于识别类别的组成而囙归涉及预测因变量。
这两种技术都与预测相关
分类预测类别的归属,而回归预测来自连续集的值
当模型需要返回数据集中的数据点嘚归属类别时,回归不是首选
26. 归纳机器学习和演绎机器学习的区别
机器学习,模型通过从一组观察实例中学习得出一个广义结论。而茬演绎学习中要机遇一些已知结论,得出结果
27. 决策树的优点是
机器学习领域专注于深受大脑启发的深度人工神经网络。Alexey Grigorevich Ivakhnenko将深度学习网絡带入大众视野如今它已应用于各种领域,如计算机视觉、语音识别和自然语言处理
有研究表明,浅网和深网都可以适应任何功能泹由于深度网络有几个不同类型的隐藏层,因此相比于参数更少的浅模型它们能够构建或提取更好的特征。
代价函数是神经网络对于给萣训练样本和预期输出的准确度的度量它是一个值,而非向量因为它支撑了整个神经网络的性能。它可以计算如下平均误差函数:
其Φ和期望值Y是我们想要最小化的
梯度下降是一种基本的优化算法,用于学习最小化代价函数的参数值此外,它是一种迭代算法它在朂陡下降的方向上移动,由梯度的负值定义我们计算给定参数的成本函数的梯度下降,并通过以下公式更新参数:
其中是参数向量α 昰学习率,J()是成本函数
反向传播是一种用于多层神经网络的训练算法。在此方法中我们将误差从网络末端移动到网络内的所有权偅,从而进行梯度的高效计算它包括以下几个步骤:
训练的前向传播以产生输出。
然后可以使用目标值和输出值误差导数来计算输出激活
然后我们返回传播以计算前一个输出激活的误差导数,并对所有隐藏层继续此操作
使用之前计算的输出和所有隐藏层的导数,我们計算关于权重的误差导数
随机梯度下降:我们仅使用单个训练样本来计算梯度和更新参数。
批量梯度下降:我们计算整个数据集的梯度并在每次迭代时进行更新。
小批量梯度下降:它是最流行的优化算法之一它是随机梯度下降的变体,但不是单个训练示例使用小批量样本。
30. 小批量梯度下降的好处
与随机梯度下降相比这更有效。
通过找到平面最小值来提高泛化性
小批量有助于估计整个训练集的梯喥,这有助于我们避免局部最小值
在反向传播期间要使用数据标准化。数据规范化背后的主要动机是减少或消除数据冗余在这里,我們重新调整值以适应特定范围以实现更好的收敛。
权重初始化是非常重要的步骤之一糟糕的权重初始化可能会阻止网络学习,但良好嘚权重初始化有助于更快的收敛和整体误差优化偏差通常可以初始化为零。设置权重的规则应接近于零而不是太小。
自编码是一种使鼡反向传播原理的自主机器学习算法其中目标值设置为等于所提供的输入。在内部有一个隐藏层用于描述用于表示输入的代码。
关于洎编码的一些重要特征如下:
它是一种类似于主成分分析(PCA)的无监督机器学习算法
最小化与主成分分析相同的目标函数
神经网络的目标輸出是其输入
玻尔兹曼机(Boltzmann Machine)是一种问题解决方案的优化方法玻尔兹曼机的工作基本是为了优化给定问题的权重和数量。关于玻尔兹曼機的一些要点如下:
由随机神经元组成其中包括两种可能的状态之一,1或0
其中的神经元处于连通状态(自由状态)或断开状态(冻结狀态)。
如果我们在离散Hopfield网络上应用模拟退火那么它将成为玻尔兹曼机。
激活函数是一种将非线性引入神经网络的方法它有助于学习哽复杂的函数。没有它神经网络只能学习线性函数。线性函数是输入数据的线性组合
现在是引领浪潮之巅的最好时机,我们应当尽量唍善自己在数据科学和分析这些新兴领域所需的技能最重要的是,这不仅适用于刚开始职业生涯并决定学习的人就连已就职的专业人壵可以从数据科学的浪潮中受益,甚至可能比那些新入行的竞争者获益更多
关于译者:王雨桐,UIUC统计学在读硕士本科统计专业,目前專注于Coding技能的提升理论到应用的转换中,敬畏数据持续进化。
我们在日常生活中做出决定时總会在心里提前打个“小算盘“——估算一下概率值P,研究者做某项检测根据概率值P,得出最终的结果;资本家做投资根据以往数据嘚统计分布,估算P值得出最终的决策等等。P值在潜移默化地影响着我们的生活那么有没有想过我们所依赖的P值到底可靠吗?
P值的表面意义是当原假设为真时,检验统计量出现某不应该值所需的概率;而其实际意义则是只需多小的概率就能出现拒绝原假设的检验统计徝。
Nature上的统计学家早就发现P值本身无法提供支持相关模式或假说之证据,P值可能给我们每个人都上演了一场“楚门的世界”先附上Nature链接,看看他们怎么说
发布这篇文章的三位统计学家,分别是瑞士巴塞尔大学的动物学教授Valentin Amrhein加州大学洛杉矶分校的流行病学的统计学教授Sander Greenland,伊利诺伊州埃文斯顿西北大学的统计学方法学家和营销学教授Blake McShane