国家开放大学大数据技术导论复习题成人高考试题答案

邢老师：13068761630 13333709510(微信同号) 张老师

联大青书学堂文才和学其他华夏大地现代兴业安徽教育在线超星中国大学mooc 学起plus弘成广东开放大学国家开放大学上海开放大学含弘慕课中国医科大学

成人高考指南

提升学历的理由：
升职加薪、积分落户、考研、公务员考试、子女入学、出国留学

成人高考报名入口

当前位置：首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据技术导论复习题

显示国家开放大学系统国家开放大学大数据技术导论复习题所有答案
对数转换适用于泊松分布数据。（）【A.】√ 【B.】 ×
答案是：B
对数转换是将原始数据的自然对数值作为分析数据，如果原始数据中有零，可以在底数中加上一个小数值。（）【A.】√ 【B.】 ×
答案是：A
数据转换可将原始数据转换成适合数据分析的形式，如果数据转换处理不当，将严重扭曲数据本身的内涵，改变数据原本的形态。（）【A.】√ 【B.】 ×
答案是：A
聚类就是将数据集分组为多个类或簇，在同一个簇中的数据对象（记录）之间具有较高的相似度，而不同簇中的对象差别不大。（）【A.】√ 【B.】 ×
答案是：B
k-NN近邻缺失数据填充算法是一种简单快速的算法，它利用本身具有完整记录的属性值实现对缺失属性值的估计。（）【A.】√ 【B.】 ×
答案是：A
数据清洗的标准只包含返回率和精确度两个方面。（）【A.】√ 【B.】 ×
答案是：B
数据清洗的过程是指通过分析脏数据产生的原因和存在形式，构建数据清洗的模型和算法来完成对脏数据的清除，进而实现将不符合要求的数据转化成满足数据应用要求的数据，为数据分析与建模建立基础。（）【A.】√ 【B.】 ×
答案是：A
数据清洗的目的是消除脏数据，主要消除异常数据、清除重复数据、保证数据的完整性等，进而提高数据的可利用性。（）【A.】√ 【B.】 ×
答案是：A
准确性、完整性、一致性和及时性称为数据质量的四要素。（）【A.】√ 【B.】 ×
答案是：A
数据清洗是数据预处理的重要部分，其主要工作是检查数据的完整性及数据的一致性，对其中的噪声数据进行平滑，对丢失的数据进行填补，以及对重复的数据进行消除等。（）【A.】√ 【B.】 ×
答案是：A
时间戳方式的优点是性能优异，系统设计清晰，数据抽取相对复杂，可以实现数据的递增加载。（）【A.】√ 【B.】 ×
答案是：B
使用基于时间戳的增量数据抽取方式进行数据抽取时，系统通过比较上次抽取时间与时间戳字段的值来决定抽取的数据。（）【A.】√ 【B.】 ×
答案是：A
时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的一个数据，其通常是一个字符序列，唯一标识某一刻的时间。（）【A.】√ 【B.】 ×
答案是：A
增量数据抽取机制能够将业务系统中的变化数据按一定的频率准确地捕获到，同时不能对业务系统造成太大的压力，也不能影响现有业务。相对全量数据抽取，增量数据抽取的设计更简单。（）【A.】√ 【B.】 ×
答案是：B
在大数据抽取之前，无需清楚数据源的类型和数据的类型，可直接抽取。（）【A.】√ 【B.】 ×
答案是：B
NewSQL数据库是指各种新型的可扩展／高性能数据库，这类数据库不仅具有 NoSQL数据库对海量数据的存储管理能力，还保持了传统数据库的 ACID和 SQL等特性。（）【A.】√ 【B.】 ×
答案是：A
NoSQL数据库与 SQL数据库显著的区别是 NoSQL数据库不使用 SQL作为查询语言，其数据存储不使用固定的表格模式，具有横向可扩展性的特征。（）【A.】√ 【B.】 ×
答案是：A
NoSQL数据库代表了一系列的、不同类型的相互关联的数据存储与处理的技术的集合。（）【A.】√ 【B.】 ×
答案是：A
NoSQL主要指非关系型、分布式、不提供 ACID 特性的数据库设计模式。（）【A.】√ 【B.】 ×
答案是：A
大数据可视分析通过交互可视界面来进行分析、推理和决策，可视分析与各个领域的数据形态、大小及其应用密切相关。（）【A.】√ 【B.】 ×
答案是：A
OldSQL数据库适用于数据分析应用，NewSQL数据库适用于事务处理应用，NoSQL数据库适用于互联网应用。（）【A.】√ 【B.】 ×
答案是：B
OldSQL数据库是指传统的关系数据库，NoSQL数据库是指非结构化数据库，而 NewSQL数据库是介于 OldSQL数据库和 NoSQL数据库两者之间的数据库。（）【A.】√ 【B.】 ×
答案是：A
从应用的构建架构角度出发，我们可以将数据库归纳为 OldSQL数据库、NoSQL数据库和 NewSQL数据库。（）【A.】√ 【B.】 ×
答案是：A
网络拓补分析算法是基于网页之间的链接，通过已知的网页或数据对与其有直接或间接链接关系的对象作出评价的算法，其又分为网页粒度、网站粒度两种算法。（）【A.】√ 【B.】 ×
答案是：B
网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。（）【A.】√ 【B.】 ×
答案是：A
聚焦网络爬虫与通用网络爬虫的区别之处在于聚焦网络爬虫在实施网页抓取时要进行主题筛选，尽量保证只抓取与主题相关的网页信息。（）【A.】√ 【B.】 ×
答案是：A
聚焦网络爬虫又称为主题爬虫，是面向特定主题的一种网络爬虫程序。（）【A.】√ 【B.】 ×
答案是：A
网页的爬行策略可以分为深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略和反向链接数搜索策略，其中深度优先搜索策略是最常使用的方法。（）【A.】√ 【B.】 ×
答案是：B
通用网络爬虫又称为全网爬虫，其可将爬行对象从一些种子 URL扩充到整个 Web，主要为门户站点搜索引擎和大型 Web服务采集数据。（）【A.】√ 【B.】 ×
答案是：A
网络爬虫从一个或若干初始网页的 URL开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL放入队列，直到满足系统的停止条件为止。（）【A.】√ 【B.】 ×
答案是：A
网络爬虫可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。（）【A.】√ 【B.】 ×
答案是：A
网络爬虫的过程主要分为获取网页、解析网页和存储数据三部分，其是按照一定的获取网页规则，自动地抓取互联网数据的软件。（）【A.】√ 【B.】 ×
答案是：A
网站数据采集只是将网站上的结构化数据从网页中提取出来，并将其存储到统一的本地数据文件中。（）【A.】√ 【B.】 ×
答案是：B
网站内部数据是网站最容易获取的数据，其通常存放在网站的文件系统或数据库中，也是与网站自身最为密切相关的数据，是网站分析最常用的数据来源。（）【A.】√ 【B.】 ×
答案是：A
空间数据的获取不包括对多媒体数据进行获取。（）【A.】√ 【B.】 ×
答案是：B
空间数据是一种用点、线、面以及实体等基本空间数据结构来表示自然世界的数据。（）【A.】√ 【B.】 ×
答案是：A
图形数字化是将图形的连续模拟量转换成离散的数字量的过程。（）【A.】√ 【B.】 ×
答案是：A
图像信息获取的方法只有扫描技术。（）【A.】√ 【B.】 ×
答案是：B
图像数字化是将连续色调的模拟图像经采样量化后转换成数字影像的过程。（）【A.】√ 【B.】 ×
答案是：A
图像数字化是进行数字图像处理的前提。（）【A.】√ 【B.】 ×
答案是：A
在互联网营销中，用户反馈承担的核心任务是为产品收集用户舆情信息。（）【A.】√ 【B.】 ×
答案是：A
大数据的获取要避免重复数据。（）【A.】√ 【B.】 ×
答案是：A
获取的数据是指已被转换为电信号的各种物理量，如温度、水位、风速、压力等。（）【A.】√ 【B.】 ×
答案是：A
由于集群模式和单节点模式运行 Hadoop系统都需要使用 SSH登录，因此在安装 Hadoop 系统之前，首先需要安装配置 SSH协议。（）【A.】√ 【B.】 ×
答案是：A
通常情况下如果集群的规模在百个节点以上，MapReduce的速度可以和节点的数目成正比。（）【A.】√ 【B.】 ×
答案是：A
MapReduce模型中，Map针对每一个输入元素都要生成一个输出元素，Reduce针对每一个输入列表都要生成一个输出元素。（）【A.】√ 【B.】 ×
答案是：A
MapReduce的基本原理就是将大数据分成小块逐个分析，最后将提取出来的数据汇总分析，进而获得需要的结果。（）【A.】√ 【B.】 ×
答案是：A
MapReduce模型通过将数据集的大规模操作分发给网络上的各节点，每个节点将已完成的工作和状态更新，周期性地报告给 Worker。（）【A.】√ 【B.】 ×
答案是：B
在MapReduce程序执行过程中，Map和Reduce函数接收的都是键值对。（）【A.】√ 【B.】 ×
答案是：A
网站外部数据主要包括互联网环境数据、竞争对手数据、合作伙伴数据和用户数据等。（）【A.】√ 【B.】 ×
答案是：A
在MapReduce程序执行过程中，由Master负责分配任务，分配的原则是 Master选择空闲的 Worker并为其分配一个 Map任务或一个 Reduce任务（）【A.】√ 【B.】 ×
答案是：A
在MapReduce程序执行过程中，用户程序中的MapReduce类库首先将输入文档进行分割，用户也可以通过设置参数对其大小进行控制（）【A.】√ 【B.】 ×
答案是：A
WordCount完成的功能是统计输入文件中的每个单词出现的频率（）【A.】√ 【B.】 ×
答案是：B
在单词计数中，Reduce方法的输入参数 key为单个单词，而 value是由各 Mapper类上对应单词的计数值所组成的列表，所以只要遍历 value并求和，即可得到某个单词出现的总次数。（）【A.】√ 【B.】 ×
答案是：A
在单词计数的Map过程中需要将文件进行按列分割。（）【A.】√ 【B.】 ×
答案是：B
可视分析是一种独立式的图形用户界面模型。（）【A.】√ 【B.】 ×
答案是：B
MapReduce模型适用场景的特点是任务可被分解成相互联系的子问题。（）【A.】√ 【B.】 ×
答案是：B
Reduce任务与 Map任务的最大不同是 Map任务的文件都存储于本地，而 Reduce任务需要到多处采集。（）【A.】√ 【B.】 ×
答案是：A
通常一个作业的输入都是基于分布式文件系统的文件，而对于一个 Map任务而言，它的输入是输入文件的一个数据块，或者是数据块的一部分，也可跨越数据块。（）【A.】√ 【B.】 ×
答案是：B
与分布式文件系统相比，MapReduce框架可定制性强。（）【A.】√ 【B.】 ×
答案是：A
目前为： 3/6 页首页上页下页尾页

提升学历-成人高考报名入口提升学历-成人高考报名时间成人高考常见问题

成人高考指南

当前位置： 首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据技术导论复习题

当前位置：首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据技术导论复习题