国家开放大学大数据预处理复习题成人高考试题答案

邢老师：13068761630 13333709510(微信同号) 张老师

联大青书学堂文才和学其他华夏大地现代兴业安徽教育在线超星中国大学mooc 学起plus弘成广东开放大学国家开放大学上海开放大学含弘慕课中国医科大学

成人高考指南

提升学历的理由：
升职加薪、积分落户、考研、公务员考试、子女入学、出国留学

成人高考报名入口

当前位置：首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据预处理复习题

显示国家开放大学系统国家开放大学大数据预处理复习题所有答案
数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。
答案是：√
如果输入数据是连续型数据，使用决策树模型时，就必须将连续型变量离散化为定性变量使用。
答案是：√
Min-Max缩放可以将数据缩放至任意给定的范围内。
答案是：√
数据缺失使得数据集信息含量降低，还会使一些模型无法应用。
答案是：√
使用客观法得到的是分类形式或顺序形式定性变量，依据的是研究者基于研究目的所确定的类别。
答案是：×
Spearman相关系数为-1时，两个变量不相关。
答案是：×
经过Max-ABS缩放后，数据的正负可能会发生改变。
答案是：×
具有不同的数据特征的变量可以直接纳入到同一个分析体系中。
答案是：×
低频分类数据都是由于数据采集是的错误导致的
答案是：×
数据离散化是指将定性变量转换为连续性变量。
答案是：×
一旦发现异常值，就应当将其删除
答案是：×
Max-ABS缩放只可以将变量缩放至区间[0,1]。
答案是：×
低频分类数据的形成都是由于真实的分类结果确实存在低频类别。
答案是：×
出现在训练集中的异常值，会干扰模型的训练
答案是：×
变量选择的目的是删除数据集的行，样本归约的目的是删除数据集的列。
答案是：×
Pearson相关系数的值均在[0,1]之间分布
答案是：×
数据分析项目中，数据预处理环节不重要，可以忽略不做。
答案是：×
日期时间型数据不能进行任何计算
答案是：×
在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于客观条件原因。
答案是：×
所有的异常值都必须删除。
答案是：×
模型预测准确度总是随着样本数量的增加而同步增加。
答案是：×
在数据预处理时，数据集中变量的数量不能发生变化
答案是：×
低频分类数据的处理方式通常是将频数过低的类别删除
答案是：×
所有的数据错误都可以被发现并纠正。
答案是：×
若数据集中某样本包含缺失值，则该样本需要被删除。
答案是：×
确定异常值时，是比较与（）的距离 A. 平均值 B. 中值 C. 最大值 D. 最小值
答案是：A
下列不属于异常值处理正确方法的是（）。 A. 直接删除 B. 标记 C. 截断 D. 替换为任意值
答案是：D
下列关于数据离散化的方法中，不正确的是（）。 A. 数据离散化可以分为客观法和主观法两种。 B. 客观法基于研究目的确定类别。 C. 通常用名词“分箱”称呼客观法。 D. 分箱法主要有等宽法（等宽分箱）和等频法（等频分箱）两
答案是：B
下列关于决策树模型的表述中，不正确的是（）。 A．越晚进入决策树的变量，其对于目标变量而言越重要。 B．该算法形象的以树状结构建立模型，再现了人类决策的过程。 C．具有建立过程直观易理解、便于可视化、应用范围广等一系列优点。
答案是：A
下列关于Max-ABS缩放的表述中，不正确的是（）。 A．Max-ABS缩放将原值大于0的数据缩放到区间(0,1]。 B．不包含负数的变量经过Max-ABS缩放后的结果可能会出现负数。 C．原值等于0的数据缩放后还为0。 D
答案是：B
下列关于数据标准化的表述中，不正确的是（）。 A．标准化后，正负号代表了原始值是大于（+）还是小于（-）均值。 B．标准化后，可以避免数据尺度差异对后续建模造成负面影响。 C．标准化后，数据的标准差并没有变化，只有均值发生变化
答案是：C
下列关于数据预处理的目的中，不正确的是（）。 A．完善数据，使其满足分析建模的质量和数据形式要求。 B．使数据集得以简化，提高建模分析的效率。 C．作为数据分析项目的第一步，为数据采集提供指导。 D．提高数据信息含量，进而提
答案是：C
下列表述中，错误的是（）。 A．低频分类数据都是真实的分类结果确实存在低频类别导致的。 B．可以通过绘制分类变量的各类别频数分布的箱线图来发现数据是否为低频分类数据。 C．过多的低频类别会严重影响建模的效率，在数据预处理阶段需
答案是：A
下列表述中，正确的是（）。 A．含有缺失值的变量必须被剔除。 B．数据缺失的原因一定是该数据不存在。 C．数据缺失对于数据建模分析不存在影响。 D．随机缺失类型是指数据的缺失仅仅依赖于其它变量。
答案是：D
下列关于哑变量的说法中，不正确的是（）。 A.任何一个k个类别的定性变量都可以转换为k-1个哑变量。 B.哑变量只有两个类别，用0和1表示。 C.哑变量的0-1形态与逻辑型数据的False和True相同，0表示True，1表示
答案是：C
下列关于异常值处理方法的表述中，正确的是（）。 A．把异常值替换为某一可以接受的值，这一处理方法是标记法。 B.用一个变量将异常值标记出来的方法是截断法。 C.采用截断方法不会造成信息损失。 D.只有在研究目的是获取数据的一
答案是：D
下列关于分箱法的表述中，不正确的是（）。 A.使用客观法进行数据离散化是计算机科学领域通常的做法，通常用名词“分箱”称呼这种方法。 B.分箱法主要有等宽法（等宽分箱）和等频法（等频分箱）两种形式。 C.等宽分箱法一般被称作“分
答案是：C
下列关于用方差分析进行变量选择的表述中，不正确的是（）。 A．方差分析是用于检验两组或多组数据之间样本均值的差异是否显著的方法。 B．方差分析的检验形式是F检验。 C．P值以0.01作为筛选标准时，P值大于0.01的变量需要保
答案是：C
下列关于变量的数据特征的表述中，正确的是（）。 A．原始数据的特征往往与分析方法的要求不一致。 B．变量的数据特征与测量尺度和采集方式无关。 C．两个数值型变量之间可以直接比较大小。 D．对数据进行缩放后，数据的分布形状会发
答案是：A
下列关于Robust缩放方法的表述中，不正确的是（）。 A．Robust缩放方法的理念是“首先中心化，然后除以尺度”。 B．Robust缩放方法用到的指标不易受极端值影响。 C．Robust缩放方法用中位数代替了标准化方法里的
答案是：D
下列对定性变量的描述中，不正确的是（）。 A．“成绩”可以作为定性变量。 B．连续型数据很难转变为定性数据。 C．多分类定性变量可以转变为哑变量。 D．顺序型变量可以转变成得分变量。
答案是：B
下列关于低频分类数据的表述中，正确的是（）。 A．低频分类数据都是由于数据采集是的错误导致的。 B．低频分类数据都是真实可靠的，只是其类别的样本频数比较低。 C．使用低频分类数据建立模型会使模型更简化，更精确。 D．低频分类
答案是：D
下列关于数据缺失类型的表述中，错误的是（）。 A．在某次调查中，在整理问卷时不小心打翻墨水瓶，导致部分问卷的部分问题污损，这种缺失记为非随机、不可忽略缺失。 B．数据缺失的三种类型是完全随机缺失、随机缺失和非随机、不可忽略缺失
答案是：A
关于哑变量与one-hot码，下列说法正确的是（）。 A．任何一个个类别的定性变量都可以转换为个哑变量。 B．任何一个个类别的定性变量都可以转换为个比特的one-hot码。 C．哑变量与one-hot码是完全相同的概念。 D
答案是：A
下列表述中，正确的是（）。 A．将连续型变量离散化为定性变量，其数据信息含量会增加。 B．等频法属于有监督离散化方法。 C．数据离散化是指把无限空间中有限的个体映射到有限的空间中，以此提高算法的时空效率。 D．数据离散化是指
答案是：C
下列关于异常值处理的表述中，不正确的是（）。 A. 异常值可能是准确的数据 B. 对于数据错误的异常值，可以删除 C. 删除异常值将改变数据集的样本量 D. 截断方法改变了样本容量
答案是：D
下列关于数据归约的意义中，不正确的是（）。 A．可以降低无效、错误数据对数据建模的影响，提高建模准确性。 B．大幅缩减模型的训练时间，在需要反复训练模型的场景下能够极大地提高建模效率。 C．可以降低数据存储的空间成本。 D．
答案是：D
下列关于数据中心化的表述中，不正确的是（）。 A．中心化后，平均值变为0。 B．中心化后，标准差发生改变。 C．中心化后，极差没有发生改变。 D．中心化后，分布形状没有发生改变。
答案是：B
下列关于数据预处理环节简化数据的表述中，不正确的是（）。 A．过多的数据会导致模型训练效率低下。 B．初学者进行数据分析时需要简化数据，专业数据分析师不需要简化数据。 C．简化数据时，需要保证数据集的信息不过多损失。 D．在
答案是：B
下列关于数据缺失的表述中，正确的是（）。 A．缺失值处理的主要手段就是使用最接近的值进行填补。 B．只要数据录入人员避免漏录，数据就不会缺失。 C．在预处理阶段，遇到数据缺失情况可以忽略，不做处理。 D．某个变量的值为0，说
答案是：A
在大多数箱线图绘图工具中，定义上限值位置和下限值位置分别为（）。 A．Q1+1.5XIQR,Q3-1.5XIQR ， B．Q1-1.5XIQR,Q3+1.5XIQR ， C．Q3-1.5XIQR,Q1+1.5XIQR ， D
答案是：D
下列关于数据错误的表述中，不正确的是（）。 A．数据集中所有错误的数据都可以被发现并予以纠正。 B．数据自身的逻辑规律可以帮助我们发现一些数据错误。 C．类别名称不统一会造成数据错误。 D．文字表述不规范会造成数据错误。
答案是：A
下列表述中，正确的是（）。 A．含有缺失值的变量必须被剔除。 B．数据缺失的原因是该数据不存在。 C．数据缺失对于数据建模分析不存在影响。 D．随机缺失类型是指数据的缺失仅仅依赖于其它变量。
答案是：D
下列关于异常值识别方法的表述中，不正确的是（）。 A.异常值的识别方式是考察变量中每一个样本值与其他样本值的相对距离。 B.通过箱线图可以识别异常值。 C.可以利用变量的样本均值和样本标准差来识别异常值。 D.异常值识别标准
答案是：A
下列关于哑变量的名称中，不正确的是（）。 A.二分类变量 B.虚拟变量 C.0-1型变量 D.数值型变量
答案是：D
下列关于异常值的表述中，不正确的是（）。 A．异常值也可以称为离群值。 B．异常值的数值可能是真实可靠的。 C．异常值在数据中占得比例很小。 D．异常值完全是由于错误形成的数据。
答案是：D
下列关于相关系数的表述中，正确的是（）。 A．Pearson相关系数的值在[0,1]之间分布。 B．Spearman相关系数的值在[-1,1]之间分布。 C．变量和的Spearman相关系数的定义为：。 D．相关系数越大，则
答案是：B
下列数据特征缩放的公式中，正确的是（）。 A．数据中心化公式为：X=(X-X1)/S。 B．数据标准化公式为：X=X-X1。 C．Max-ABS缩放公式为：X=X/\|X\|max。 D．Robust缩放公式为：X=X-Medi
答案是：C
下列关于数据预处理的表述中，不正确的是（）。 A．具备专业经验的数据科学家可以在数据分析前忽略数据预处理。 B．数据预处理是在数据采集后，分析前这段时间里对数据进行的处理操作。 C．数据预处理的效果与数据分析顺利与否直接相关。
答案是：A
下图是某分类变量各类别计数分布的箱线图，从图中可知（）。 A．少部分分类计数很低。 B．该变量类别很少，可以清晰的用箱线图展示各类别的频数。 C．这个变量存在大量低频分类。 D．绝大多数分类计数很高。
答案是：C
目前为： 2/3 页首页上页下页尾页

提升学历-成人高考报名入口提升学历-成人高考报名时间成人高考常见问题

成人高考指南

当前位置： 首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据预处理复习题

当前位置：首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据预处理复习题