邢老师:13068761630  13333709510(微信同号)  张老师
联大  青书学堂  文才  和学  江开  华夏大地  现代兴业  安徽教育在线  超星  中国大学mooc  学起plus弘成  广东开放大学  国家开放大学  上海开放大学  含弘慕课  中国医科大学 

成人高考指南

提升学历的理由:
升职加薪、积分落户、考研、公务员考试、子女入学、出国留学


成人高考报名入口


当前位置: 首页 > 联大系统 > 焦作师范高等专科学校> 焦作师范高等专科学校Hadoop应用基础
 

输入试题:
显示联大系统焦作师范高等专科学校Hadoop应用基础所有答案
什么样的计算不能用mr来提速,举5个例子。
答案是:1)数据量很小。 2)繁杂的小文件。 3)索引是更好的存取机制的时候。 4)事务处理。 5)只有一台机器的时候。
有可能使 Hadoop 任务输出到多个目录中么?如果可以,怎么做?
答案是:1)可以输出到多个目录中,采用自定义OutputFormat。 2)实现步骤: (1)自定义outputformat, (2)改写recordwriter,具体改写输出数据的方法write()
如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
答案是:如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key 的 hashcode 值摸运算(%)reduce 的数量,得到的数字就是“分区号“。
如何决定一个job的map和reduce的数量?
答案是:1)map数量 splitSize=max{minSize,min{maxSize,blockSize}} map数量由处理的数据分成的block数量决定default_num = total_size / split_size; 2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。
谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?
答案是:1)序列化和反序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(Writable),精简、高效。 2)自定义bean对象要想序列化传输步骤及注意事项:。 (1)必须实现Writable接口 (2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造 (3)重写序列化方法 (4)重写反序列化方法 (5)注意反序列化的顺序和序列化的顺序完全一致 (6)要想把结果显示在文件中,需要重写toString(),且用”\t”分开,方便后续用 (7)如果需要将自定义的bean放在key中传输,则还需要实现comparable接口,因为mapreduce框中的shuffle过程一定会对key进行排序
HDFS Federation方案的优势?
答案是:第一点,命名空间的扩展。因为随着集群使用时间的加长,HDFS上存放的数据也将会越来越多。这个时候如果还是将所有的数据都往一个NameNode上存放,这个文件系统会显得非常的庞大。这时候我们可以进行横向扩展,把一些大的目录分离出去.使得每个NameNode下的数据看起来更加的精简。 第二点,性能的提升.这个也很好理解。当NameNode所持有的数据量达到了一个非常大规模的量级的时候(比如超过1亿个文件),这个时候NameNode的处理效率可能就会有影响,它可能比较容易的会陷入一个繁忙的状态。而整个集群将会受限于一个单点NameNode的处理效率,从而影响集群整体的吞吐量。这个时候多NameNode机制显然可以减轻很多这部分的压力。 第三点,资源的隔离。这一点考虑的就比较深了。通过多个命名空间,我们可以将关键数据文件目录移到不同的NameNode上,以此不让这些关键数据的读写操作受到其他普通文件读写操作的影响。也就是说这些NameNode将会只处理特定的关键的任务所发来的请求,而屏蔽了其他普通任务的文件读写请求,以此做到了资源的隔离。千万不要小看这一点,当你发现NameNode正在处理某个不良任务的大规模的请求操作导致响应速度极慢时,你一定会非常的懊恼。
HAnamenode 是如何工作的?
答案是:ZKFailoverController主要职责 1)健康监测:周期性的向它监控的NN发送健康探测命令,从而来确定某个NameNode是否处于健康状态,如果机器宕机,心跳失败,那么zkfc就会标记它处于一个不健康的状态。 2)会话管理:如果NN是健康的,zkfc就会在zookeeper中保持一个打开的会话,如果NameNode同时还是Active状态的,那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode,当这个NN挂掉时,这个znode将会被删除,然后备用的NN,将会得到这把锁,升级为主NN,同时标记状态为Active。 3)当宕机的NN新启动时,它会再次注册zookeper,发现已经有znode锁了,便会自动变为Standby状态,如此往复循环,保证高可靠,需要注意,目前仅仅支持最多配置2个NN。 4)master选举:如上所述,通过在zookeeper中维持一个短暂类型的znode,来实现抢占式的锁机制,从而判断那个NameNode为Active状态
NameNode与SecondaryNameNode 的区别与联系?
答案是:1)机制流程同上; 2)区别 (1)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。 (2)SecondaryNameNode主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。 3)联系: (1)SecondaryNameNode中保存了一份和namenode一致的镜像文件(fsimage)和编辑日志(edits)。 (2)在主namenode发生故障时(假设没有及时备份数据),可以从SecondaryNameNode恢复数据。
简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好?
答案是:(1)使用root账户登录 (2)修改IP (3)修改host主机名 (4)配置SSH免密码登录 (5)关闭防火墙 (6)安装JDK (7)解压hadoop安装包 (8)配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml (9)配置hadoop环境变量 (10)格式化 hadoop namenode-format (11)启动节点start-all.sh
列举几个hadoop生态圈的组件并做简要描述?
答案是:(1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 (2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 (3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 (4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。 (5)Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。
hadoop dfsadmin - report命合用于检测HDFS损坏块。() A.正确 B.错误
答案是:B
Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。() A.正确 B.错误
答案是:B
NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读学取或则会写人metadata 信息并反馈client端。() A.正确 B.错误
答案是:B
Hadoop是 Java开发的,所以 MapReduce 只支持Java语言编写。() A.正确 B.错误
答案是:B
如果 NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。() A.正确 B.错误
答案是:B
Nagios不可以监控Hadoop 集群,因为它不提供 Hadoop支持。() A.正确 B.错误
答案是:B
Block Size 是不可以修改的。() A.正确 B.错误
答案是:B
Ganglia不仅可以进行监控,也可以进行告警。() A.正确 B.错误
答案是:A
Hadoop环境变量中的 HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200 GB。() A.正确 B.错误
答案是:B
NameNode 的 Web UI端口是50030,它通过jetty 启动的 web 服务。() A.正确 B.错误
答案是:B
DataNode 首次加入 cluster 的时候,如果log中报告不兼容文件版本,那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。() A.正确 B.错误
答案是:B
Mapreduce 的 input split 就是一个block。() A.正确 B.错误
答案是:B
每个map槽就是一个线程。() A.正确 B.错误
答案是:B
因为HDFS有多个副本,所以NameNode 是不存在单点问题的。() A.正确 B.错误
答案是:B
集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。() A.正确 B.错误
答案是:B
Hadoop 默认调度器策略为FIFO() A.正确 B.错误
答案是:A
hadoop dfsadmin - report命令用于检测HDFS 损坏块。() A.正确 B.错误
答案是:B
slave节点要存储数据,所以它的磁盘越大越好。() A.正确 B.错误
答案是:B
Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。() A.正确 B.错误
答案是:B
NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。() A.正确 B.错误
答案是:B
Hadoop支持数据的随机读写。() A.正确 B.错误
答案是:B
Hadoop 是 Java开发的,所以 MapReduce 只支持Java 语言编写。() A.正确 B.错误
答案是:B
Cloudera CDH是需要付费使用的。() A.正确 B.错误
答案是:B
如果NameNode意外终止, SecondaryNameNode 会接替它使集群继续工作。() A.正确 B.错误
答案是:B
Nagios不可以监控Hadoop 集群,因为它不提供Hadoop支持。() A.正确 B.错误
答案是:B
Block Size是不可以修改的。() A.正确 B.错误
答案是:B
Ganglia 不仅可以进行监控,也可以进行告警。() A.正确 B.错误
答案是:A
hdfs-site.xml的3个主要属性?
答案是:1:dfs.name.dir决定的是元数据存储的路径以及dfs的存储⽅式(磁盘或是远端)。 2:dfs.data.dir决定的是数据存储的路径。 3:fs.checkpoint.dir⽤于第⼆Namenode。
简单描述⼀下hive中的分区表?
答案是:Hive的分区表分为动态分区和静态分区两种模式,分区表实际上就是对应⼀个HDFS⽂件系统上的独⽴的⽂件夹,该⽂件夹下是该分区所有的数据⽂件。Hive中的分区就是分⽬录,把⼀个⼤的数据集根据业务需要分割成⼩的数据集。在查询时通过WHERE字句中的表达式选择查询所需要的指定的分区,这样的查询效率会提⾼很多。
Mapreduce执⾏过程中,在执⾏Reduce Task之前主要做哪些⼯作?
答案是:reduce task在执⾏之前的⼯作是不断的拉取当前job⾥每个map task 的最终的输出⽂件,然后将不同maptask中某⼀分区的数据不断的做merge,也最终形成⼀个⽂件作为reduce task的输⼊⽂件交给reduce。
简单描述Shuffle过程环形缓冲区的作⽤?
答案是:数据从map()输出,经过Partitioner分区操作,在进⼊环形缓冲区。默认情况下,环形缓冲区⼤⼩值为100MB。当map输⼊的数据进⼊环形缓冲区的量达到80MB以上时,那么开始执⾏溢写过程,溢写过程中如果有其他数据进⼊,那么由剩余的百分之20反向写⼊,最终溢写⽂件经过合并、排序后落⼊本地磁盘。
如果需要在NameNode节点群起集群,你需要如何配置?
答案是:先确保你的集群配置是正确的,单点启动能够成功,如果要群起我们需要在etc/hadoop/slaves⽂件中添加数据节点,也就是从节点,来告诉namenode群起的时候启动那些从节点(datanode)。
yarn有哪⼏部分组成,作⽤分别是什么?调度器主要有哪三种?hadoop默认的是哪⼀种?
答案是:yarn由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 ResourceManager:处理客户端请求、监控NodeManager、启动或监控ApplicationMaster、资源的分配与调度。 NodeManager:管理单个节点上的资源、处理来⾃ResourceManager的命令、处理来⾃ApplicationMaster的命令。ApplicationMaster:负责数据的切分、为应⽤程序申请资源并分配给内部的任务、任务的监控与容错。 Container:Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、⽹络等。 调度器有FIFO、Capacity Scheduler(容量调度器)和Fair Scheduler(公平调度器)。 Hadoop2.7.2默认的资源调度器是Capacity Scheduler(容量调度器)。
Hive内部表和外部表的区别?
答案是:我们在创建外部表的时候要加个关键字 external 内部表:当我们在hive中使⽤命令删除hive表时,hive所对应的hdfs的⽬录也会被删除,元数据库中的数据也会被删除。 外部表:在hive中删除了外部表,⽽外部表所对应的hdfs⽬录不会被删除,元数据库被删除。
MapReduce的基本数据类型包括哪些?
答案是:BooleanWritable ByteWritable IntWritable FloatWritable LongWritable DoubleWritable Text MapWritable ArrayWritable
简单描述MapReduce不适合对哪些场景的使⽤?其实问的就是它的缺点。
答案是:(1)MapReduce不适合做低延迟数据访问场景的使⽤ (2)MapReduce不适合处理⼤量⼩⽂件 (3)MapReduce不适合处理流式计算
如何实现服务器之间的免密登录(便捷版)?SSH采⽤的是什么加密?
答案是:实现免密登录步骤: 1.在服务器⽣成密钥对 ssh-keygen -t rsa 三次回车 2.发送公钥到本机 ssh-copy-id hostname(服务器主机名,⼀般先发给⾃⼰实现本机免密登录)输⼊⼀次密码 3.将 .ssh⽂件夹中的⽂件分别分发⾄集群中其他服务器(节点) SSH为建⽴在应⽤层基础上的安全协议,采⽤⾮对称加密(rsa加密算法)
假如NameNode中没有数据会怎么样?
答案是:先说明NameNode节点肯定不正常,集群肯定不正常的,没有数据的NameNode就不能称之为NameNode,通常情况下,NameNode 肯定会有数据,并且存储的是元数据。
简单描述⼀下TextInputFormat怎么进⾏⽂件切分?
答案是:TextInputFormat根据⽂件⼤⼩将⽂件拆分成splits,如果单个⽂件较⼩,则每个⽂件为⼀个split,并将⽂件按分割形成对,如果单个⽂件较⼤。超过block块默认⼤⼩的1.1倍,则会将⽂件切分为多个split。这⼀步由MapReduce框架⾃动完成,其中偏移量包括了回车所占的字符数。将分割好的对交给⽤户⾃定义的map⽅法进⾏处理,⽣成新的对。得到map⽅法输出的 对后,Mapper会将它们按照key值进⾏排序,并执⾏Combine过程,将key值相同value值累加,得到Mapper的最终输出结果。Reducer先对从Mapper接收的数据进⾏排序,再交由⽤户⾃定义的reduce⽅法进⾏处理,得到新的对,并作为任务的输出结果。
是否可以在Windows上运⾏Hadoop?
答案是:你最好不要这么做,Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。在Hadoop安装中,Windows通常不会被使⽤,因为会出现各种各样的问题。因此,Windows绝对不是Hadoop的推荐系统。
什么是hive,谈谈你的理解?
答案是:hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进⾏运⾏。其优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应⽤,⼗分适合数据仓库的统计分析。 补充(1)hive处理的数据存储在HDFS。 (2)hive分析数据底层的实现是MapReduce。 (3)执⾏程序运⾏在Yarn上。
简单描述你对Hadoop集群SafeMode模式的理解?
答案是:集群处于安全模式,不能执⾏重要操作(写操作),集群属于只读状态。但是严格来说,知识保证HDFS元数据信息的访问,⽽不保证⽂件的访问。集群启动完成后,⾃动退出安全模式,如果集群处于安全模式,想要完成写操作,需要离开安全模式。 (1)查看安全模式状态:bin/hdfs dfsadmin -safemode get (2)进⼊安全模式状态:bin/hdfs dfsadmin -safemode enter (3)离开安全模式状态:bin/hdfs dfsadmin -safemode leave (4)等待安全模式状态:bin/hdfs dfsadmin -safemode wait 对于全新创建的HDFS集群,NameNode启动后不会进⼊安全模式,因为没有Block信息。
Hadoop伪分布集群包含哪些守护进程?
答案是:DataNode、NodeManager、ResourceManager,SecondaryNameNode,NameNode
Hadoop有几种运行模式?
答案是:单机模式、伪分布模式、完全分布式模式
Hadoop有哪些应用领域?
答案是:运营商、电子商务、在线旅游、欺诈检测、医疗保健、能源开采、金融、直播、在线教育等
Hadoop包含哪些优势?
答案是:方便、弹性、健壮、简单
Hadoop2.0包含哪些核心组件?
答案是:MapReduce、HDFS、YARN
HBase官方版本可以安装在什么操作系统上? A.CentOS B.Ubuntu C.RedHat D.Windows
答案是:ABC
下列关于Bloom Filter的描述正确的是? A.是一个很长的二进制向量和一系列随机映射函数 B. C.有一定的误算率 D.可以在Bloom Filter中删除元素
答案是:AC
关于HBase二级索引的描述,哪些是正确的? A.核心是倒排表 B.二级索引概念是对应Rowkey这个“一级”索引 C.二级索引使用平衡二叉树 D.二级索引使用LSM结构
答案是:AB
目前为: 1/2 页  首页   上页  下页 尾页

提升学历-成人高考报名入口    提升学历-成人高考报名时间     成人高考常见问题