华为鲲鹏云大数据服务与基础应用 部分习题
-
(多选题)IDC对大数据特征的描述以下哪些项是正确的()?
A、Volume-巨量
B、Variety-多样性
C、Value-价值密度
D、Velocity-速度
ABCD -
(判断题)大数据技术的演进路线是从分布式存储到云存储,从智能分析到分布式分析()
A、TRUE
B、FALSE
A -
(多选题)下面哪些是MapReduce的特点?()
A、易于编程
B、良好的扩展性
C、实时计算
D、高容错性
ABD -
(单选题)YARN中资源抽象用什么表示?()
A、内存
B、CPU
C、Container
D、磁盘空间
C -
(单选题)下面哪个是MapReduce适合做的?()
A、迭代计算
B、离线计算
C、实时交互计算
D、流式计算
B -
(多选题)容量调度器有哪些特点?()
A、容量保证
B、灵活性
C、多重租赁
D、动态更新配置文件
ABCD -
(多选题)OBS支持哪几种方式对用户的OBS请求进行访问控制?
A、ACL
B、桶策略
C、用户签名认证
D、服务端加密
ABC -
(判断题)Volcano可以脱离Kubernetes单独执行?()
A、TRUE
B、FALSE
B -
(单选题)华为鲲鹏BMS云服务器最高可提供多少核?
A、32
B、48
C、64
D、128
D -
(多选题)以下哪些属于华为鲲鹏计算服务?
A、KC1
B、KS1
C、KM1
D、KK1
ABC -
(判断题)为了方便部署,在生产上可以将安全组的入方向规则打开,以让外部所有用户可以访问服务器的所有IP
A、TRUE
B、FALSE
B -
(判断题)在配置的过程中,如果自己的大数据集群的节点名称与配置参考文档的不同,需要将配置文件里的节点名称配置成自己的()
A、TRUE
B、FALSE
A -
(多选题)HDFS的元数据持久化触发的条件是什么?()
A、Editlog满64M
B、Editlog满128M
C、时间距上次持久化30min
D、时间距上次持久化60min
BD -
(判断题)HDFS只支持大文件存储不支持小文件存储()
A、TRUE
B、FALSE
B -
(单选题)当Zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的?()
A、3
B、4
C、6
D、以上都不是
C -
(单选题)下面关于Zookeeper的特性描述错误的是()
A、客户端所发送的更新会按照他们被发送的顺序进行应用
B、一条消息要被超过半数的Server接收,他将可以成功写入磁盘
C、消息更新只能成功或失败,没有中间状态
D、Zookeeper节点数必须为奇数个
D -
(多选题)HBase集群定时执行Compaction的目的是什么?()
A、减少同一Region,同一ColumnFamily下的文件数目
B、提升数据读取性能
C、减少同一ColumnFamily的文件数据
D、减少同一Region的文件数目
ABD -
(单选题)HBase中Region的物理存储单元是什么()
A、Region
B、ColumnFamily
C、Column
D、Row
B -
(多选题)以下哪些是Hive适用的场景?()
A、实时的在线数据分析
B、数据挖掘(用户行为分析,兴趣分区,区域展示)
C、数据汇总(每天/每周用户点击数,点击排行)
D、非实时分析(日志分析,统计分析)
BCD -
(单选题)以下关于Hive SQL基本操作描述正确的是()
A、创建外部表使用external关键字,创建普通表需要指定internal关键字
B、创建外部表必须要指定location信息
C、加载数据到Hive时源数据必须是HDFS的一个路径
D、创建表时可以指定列分隔符
D -
(判断题)Spark和Hadoop都不适用于迭代计算的场景
A、TRUE
B、FALSE
B -
(判断题)Spark应用运行时,如果某个Task运行失败则导致整个app运行失败。
A、TRUE
B、FALSE
B -
(判断题)Flume传输数据的过程中,Sink取走数据并写入目的地后,会将events从channel中删除。
A、TRUE
B、FALSE
B -
(单选题)关于Kafka的说法不正确的是()
A、Kafka强依赖于Zookeeper
B、Kafka部署的实例个数不得小于2
C、Kafka的客户端可以产生消息
D、Consumer作为Kafka的客户端角色进行消息的消费
B -
(判断题)云监控服务属于免费服务()
A、TRUE
B、FALSE
A -
(多选题)数据开发的五大流程有()
A、数据采集
B、数据清洗
C、数据分析
D、数据入库
E、数据可视化
ABCDE -
(多选题)以下哪些属于华为云鲲鹏伙伴计划?()
A、鲲鹏凌云伙伴计划
B、鲲鹏智数伙伴计划
C、鲲鹏展翅伙伴计划
D、鲲鹏翱翔伙伴计划
ABC -
(判断题)华为云鲲鹏社区目前是否提供软件下载功能()
A、是
B、否
A -
HDFS是什么,适合于做什么?
HDFS是运行在通用硬件上的分布式文件系统。适用于大文件存储与访问、流式数据访问。 -
HDFS包含哪些角色?
NameNode、DataNode、Client -
请简述HDFS的读写流程
读取:Client联系NameNode,获取文件信息。Client根据从NameNode获取到的信息,联系DataNode,获取相应的数据块;数据读取完成后,业务调用close关闭连接。写入:Client联系NameNode,NameNode在元数据中创建文件节点;Client联系DataNode并建立流水线,完成后,客户端再通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2,DataNode3;业务调用close关闭连接;Client联系NameNode,确认数据写完成。 -
请简述MapReduce的工作原理
一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务并行处理它们。框架会对map函数的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 -
请简述YARN的工作原理
用户将应用程序提交到RM;RM为AM申请资源,与某个NM通信,启动AM;AM与RM通信,为执行任务申请资源;得到资源后与NM通信,启动相应的任务;所有任务结束后,AM向RM注销,整个应用结束。 -
请简述Hadoop三个时代的架构特点
第一代使用三副本存储,需要通过代码实现大数据分析逻辑,第二代使用SQL实现大数据分析,一套HDFS支持多种计算引擎,第三代实现对接云上数据湖,实现了计算和存储的分离。存储方面持续降低成本,支持纠删码的存储;计算方面支持使用容器调度代替传统调度组件,更加轻量化。 -
请简述计算存储合一架构与数据湖模式的比较
计算存储合一部署模式,限制于HDFS单一接口,在应用访问数据多样化的背景下,逐渐难以应对;不同生态如果使用了多套存储,会造成数据割裂,管理工具不统一造成运维工作量增加。 -
请简述Volcano的概念?
Volcano是基于Kubernetes的批处理系统,源自于华为云AI容器。 -
请简述Kubernetes作为普适的容器化解决方案,应用到大数据、AI、高性能批量计算等专业领域时存在的痛点
痛点如下:
K8s的原生调度功能无法满足计算要求
K8s作业管理能力无法满足AI训练的复杂诉求
数据管理方面,缺少计算侧数据缓存能力,数据位置感知等功能
资源管理方面缺少分时共享,利用率低
硬件异构能力弱
其他练习:
模拟考试:
微信搜索公众号:水蛙编程,回复“考试”,可进行鲲鹏HCIA模拟考试!
原文链接:https://blog.csdn.net/qq_44826711/article/details/111403371?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277696416782184692352%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165277696416782184692352&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-13-111403371-null-null.nonecase&utm_term=%E5%8D%8E%E4%B8%BA
暂无评论内容