数据挖掘测验

数据挖掘与机器学习

以下哪项是NOSQL分析数据库的示例?

选择一个:

  1. IBM DB2公司
  2. 甲骨文公司
  3. 卡桑德拉
  4. 青梅

 

正确答案是:卡桑德拉


问题
2

ETL代表什么?

正确答案是:提取转换负载


问题

判断题:在数据仓库中,一维数据以星型模式格式存储。

选择一个:

是的

 

正确答案是“假”。


问题
4

OLAP代表什么?

选择一个:

  1. 在线申请处理
  2. 在线分析处理
  3. 在线事务处理
  4. 在线有限分析处理

 

正确答案是:在线分析处理


问题
5

调用一个数据库,其中一个特定列的所有值都是连续存储的?

选择一个:

  1. 面向列的存储
  2. 内存数据库
  3. 分区
  4. 数据压缩

 

正确答案是:面向列的存储


问题
6

判断题:雪花模式与星型模式的不同之处在于,保存维度数据的表是标准化的。

选择一个:

是的

 

正确答案是“真的”。


问题
7

判断题:Map/Reduce是处理SQL查询的优化方法。

选择一个:

是的

 

正确答案是“假”。


问题
8

判断题:信息检索或文本分析不是数据挖掘的一种形式。

选择一个:

是的

 

正确答案是“假”。


问题
9

以下哪项不是统计处理软件包?

选择一个:

  1. SAS公司
  2. 迷你表
  3. 眩晕
  4. 驯马师

 

正确答案是:眩晕


问题
10

判断题:NoSQL数据库以牺牲可用性为代价提供了更高的性能。

选择一个:

是的

 

正确答案是“假”。


问题
11

对错:残差图是识别非线性的有用工具。

选择一个:

是的

 

正确答案是“真的”。


问题
12

哪个下单 将为波士顿数据框提供描述性统计信息?

选择一个:

  1. 摘要(波士顿)
  2. 埃瓦尔(波士顿)
  3. coef(波士顿)
  4. 统计(波士顿)

 

正确答案是:总结(波士顿)


问题
13

以下哪个函数用于在R中生成线性回归模型?

选择一个:

  1. 法律()
  2. lm()
  3. lstat()
  4. glm()

 

正确答案是:lm()


问题
14

判断题:共线性是指两个或多个预测变量彼此密切相关的情况。

选择一个:

是的

 

正确答案是“真的”。


问题
15

正确或错误:在KNN算法中,K的小值提供了最灵活的拟合(低偏差/高方差)。

选择一个:

是的

 

正确答案是“真的”。


问题
16

R中的names()函数:

选择一个:

  1. 列出作为函数参数提供的数据帧中的所有列名。
  2. 附加名称以使数据框中的变量按名称可用。
  3. 显示由K均值聚类算法标识的类的名称。
  4. 这些答案都没有

 

正确答案是:列出作为函数参数提供的数据帧中的所有列名。


问题
17

你有一个数据集,它产生了下面的图,你需要创建一个预测模型。你最可能使用以下哪种技巧?

选择一个:

  1. 线性回归
  2. 曲线回归
  3. K-最近邻
  4. 对数几率回归

 

正确答案是:线性回归


问题
18

判断正确与否:函数library()列出了R中加载到内存中的所有库。

选择一个:

是的

 

正确答案是“假”。


问题
19

残差图是识别以下各项的有用工具:

选择一个:

  1. 非线性
  2. 线性
  3. 多项式关系
  4. 非参数关系

 

正确答案是:非线性


问题
20

以下哪项是参数化方法的示例。

选择一个:

  1. KNN分类器
  2. 贝叶斯分类器
  3. 线性回归
  4. 主成分分析

 

正确答案是:线性回归


问题
21

线性回归模型用y表示β0+β1x,其中β0是截距,β1是直线的斜率)。下面的方程可以用来计算系数β0和β1的值。利用下面的一组数据,求出最接近千分之一的系数β0和β1,以及当x为10时y的预测值。

{(-1,0),(0,2),(1,4),(2,5)}

选择一个:

  1. a=答案_
  2. b=回答_
  3. y=回答_
  4. 当x是10时


问题
22

下表给出了y值及其对应的y值,确定了y=mx+b的线性回归模型,当x值为10时,报告m(斜率)和b(截距)的值以及y的估计值

选择一个:

  1. b=回答_
  2. m=回答_
  3. y=回答_

 


问题
23

我们可以使用什么R下单 来生成数据的散点图,以确定它是形成适合线性回归的线性模式还是需要其他技术的非线性模式?

选择一个:

  1. 绘图()
  2. 历史()
  3. 矩阵()
  4. 摘要()

 

正确答案是:plot()


问题
24

下表给出了y值及其对应的y值,确定了y=mx+b的线性回归模型,当x值为3时,报告m(斜率)和b(截距)以及y的估计值。四舍五入到最近的百位。

选择一个:

  1. b=回答_
  2. m=回答_
  3. y=回答_

 


问题
25

生产灾害设备的公司的收入已表示为基于输入变量的线性回归模型,即即将到来的飓风季节的飓风数量。模型表示为Y=mX+b,其中Y是以百万美元为单位的预计销售额,m=0.76,b=5。假设气象部门预测在这个季节有6次飓风,那么以百万美元计的销售额预计是多少?

  1. 回答:百万美元

 

正确答案是:9.56


问题
26

对还是错:下面的数据图表示线性可分离的数据?

选择一个:

是的

 

正确答案是“假”。


问题
27

判断题:线性回归被认为是一种非参数方法。

选择一个:

是的

 

正确答案是“假”。


问题
28

判断是否正确:fix()函数用于标识数据帧中包含不一致数据的值,并自动更正这些值。

选择一个:

是的

 

正确答案是“假”。


问题
29

以玉米生长季日照天数为输入变量,将农民的玉米产量表示为线性回归模型。该模型表示为Y=mX+b,其中Y是估计的玉米产量,单位为蒲式耳/英亩,m=1.38,b=42。假设在生长季节,预计会有67天的日照,玉米的每英亩产量是多少蒲式耳?

  1. 答案:每英亩蒲式耳

 

正确答案是:134.46


问题
30

判断题:逻辑回归可以用来预测一个连续变量。

选择一个:

是的

 

正确答案是“假”。


问题
31

判断题:数据挖掘可以说是一个旨在检测数据集中模式的过程。

选择一个:

是的

 

正确答案是“真的”。


问题
31

判断题:在无监督学习中,必须使用与结果变量配对的数据属性来训练学习算法。

选择一个:

是的

 

正确答案是“假”。


问题
32

正确与否:无监督学习包括建立一个统计模型来预测,或根据一个或多个输入来估计输出。

选择一个:

是的

 

正确答案是“假”。


问题
33

回归分析涉及开发一个模型,其中一个或多个输入用于预测输出变量。在这种情况下,回归代表了什么样的学习。

选择一个:

  1. 强化学习
  2. 监督学习
  3. 无监督学习
  4. 混合学习

 

正确答案是:监督学习


问题
34

假设我们有一个数据集,其中包含了几年来每个客户的销售数据,并且我们希望使用这些数据来预测未来的销售,哪种方法是最适合调查的?

选择一个:

  1. 分类
  2. 回归
  3. 聚类
  4. 决策树

 

正确答案是:回归


问题
35

假设你有各种各样的数据,包括病史、饮食习惯、遗传因素,你想用这些数据来判断一个人是否有可能患癌症。哪种技术最有前途?

选择一个:

  1. 分类
  2. 回归
  3. 聚类
  4. 估计

 

正确答案是:分类


问题
36

以下哪项是无监督学习算法的例子?

选择一个:

  1. 线性回归
  2. ID3决策树
  3. 聚类
  4. K-最近邻

 

正确答案是:K-均值


问题
37

判断结果变量必须是分类的?

选择一个:

是的

 

正确答案是“假”。


问题
38

以下哪项不是机器学习技术?

选择一个:

  1. 回归
  2. 聚类
  3. 线性成分分析
  4. 神经网络

 

正确答案是:线性成分分析


问题
39

正确或错误:在监督学习模型中,偏差指的是数据分析员的假设引入的错误。

选择一个:

是的

 

正确答案是“假”。


问题
40

答案的目的是在现有数据中找出有效的新颖的、潜在有用的、可理解的相关性和模式。

 

正确答案是:数据挖掘

CallTutors担保

  • 限期工作
  • 保证最低价格
  • 剽窃免费保证
  • 24*7可用性
  • 本土经验丰富的专家
  • 免费修订版