邢老师:13068761630  13333709510(微信同号)  张老师
联大  青书学堂  文才  和学  其他  华夏大地  现代兴业  安徽教育在线  超星  中国大学mooc  学起plus弘成  广东开放大学  国家开放大学  上海开放大学  含弘慕课  中国医科大学 

成人高考指南

提升学历的理由:
升职加薪、积分落户、考研、公务员考试、子女入学、出国留学


成人高考报名入口


当前位置: 首页 > 国家开放大学系统 > 郑州大学> 国家开放大学大数据预处理复习题
 

输入试题:
显示国家开放大学系统国家开放大学大数据预处理复习题所有答案
请写出下方代码的功能 bin_1=pd.cut(price,bins=5) d1={“price”:car_data[“price”],”bin”:bin_1} p1=pd.DataFrame(data=d1) print(“等宽分
答案是:将变量price进行等宽分箱,设定组数为5,将原变量和等宽分箱结果合并进一个数据框,输出前20位等宽分箱结果,输出等宽分箱频数分布
请写出下方代码的功能 model_all = GradientBoostingClassifier(random_state=0) model_all.fit(X=train_x, y=train_y) feature_imp = p
答案是:使用scikit-learn库中的GradientBoostingClassifier()函数,基于训练集train_x和train_y数据,建立GBDT模型model_all,设定随机种子random_state为0。提取model_all的feature_importances属性并保存为feature_imp,它度量的是变量在GBDT模型所包含的所有决策树上的平均重要性。然后根据feature_imp的数值,提取了平均重要性得分较大的前8个变量,其变量名保存在var_tree中。第一句print输出所有变量名称及其重要性,按降序排序。第二句print输出排名前8的变量名称
请写出下方代码的功能 pearson = pd.Series(name="pearson correlation") for i in train_x: pearson[i] = pearsonr(train_y, train
答案是:建立pearson序列,使用for循环,调用scipy.stats库中的pearsonr()函数,分别计算train_x中的每个变量与train_y的相关系数,并存入pearson序列中。判断pearson序列中符合“绝对值大于0.5”这一条件,得到逻辑值序列var_cor。
请写出下方代码的功能 dt_example = pd.Series("") dt_example[0] = "2020/01/20" dt_example[1] = "2020/02/20" dt_example = pd.to_d
答案是:构造一个数组存储时间,第一个时间是2020年1月20日,第二个时间是2020年2月20日,将日期时间从字符串状态转换为标准时间日期格式数据,时间格式为年-月-日。
请写出下方代码的功能 data_1 = copy.deepcopy(data)
答案是:将data数据深复制给data_1
请写出下方代码的功能 car_data = pd.read_csv(r"d:cardata.csv",header=0) v1_fill = car_data["v1"].fillna(car_data["v1"].median())
答案是:从数据文件cardata.csv中读取数据,保存在数据框car_data中,使用car_data中变量v1的非缺失部分的中位数填补变量v1的缺失部分,并把填补好的结果保存在数据框v1_fill中
请写出下方代码的功能 train, test = train_test_split(data, test_size=0.3)
答案是:对data数据划分训练集和测试集,测试集比例为0.3.
请写出下方代码的功能 scaler = StandardScaler() new_data = scaler.fit_transform(mydata) print(pd.DataFrame({"Scale":scaler.scal
答案是:使用StandardScaler模块对数据集mydata中的所有变量进行标准化,得到新数据集new_data。调用该模块的scale_参数和mean_参数,通过print输出对mydata中变量进行标准化时所依据的标准差和均值。
对group_a组和group_b组样本进行方差分析的F检验: anova = (group_a, group_b)
答案是:f_oneway
计算离散化变量的各类频数,结果保存在result中: data.
答案是:value_counts()
找出data中3000到10000的值,结果保存在result中: result=data. &data.
答案是:ge(3000) le(10000)
计算变量y与x的Spearman相关系数: Spearman_xy = (y, x)
答案是:spearmanr
对数据集data中的所有变量进行Robust缩放,结果保存在data_scale中: rob_scaler = () data_scale = rob_scaler. (data)
答案是:RobustScaler fit_transform
截取addr的前三个字,并查看唯一值: addr. (0, 3).unique()
答案是:str.slice
将数据集data中的变量v1的缺失值使用其均值进行填补,将填补完的变量保存在v1_fill中: v1_fill = data["v1"]. (data["v1"]. )
答案是:fillna mean()
使用截断方法,将大于data_mean+5*data_std赋值为data_mean+5*data_std : data[data. (data_mean+5*data_std)] = data_mean+5*data_std
答案是:gt
对数据data计算标准差,结果保存在result中: result=data. ()
答案是:std
对data数据采用等宽分箱,分组数为5组,结果保存在result中: result=pd. (data,bins=5)
答案是:cut
使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值: auc = (y_true=test_y, y_score=model_new. (test_x[var_ne
答案是:roc_auc_score predict_proba
将数据集data中的所有变量缩放到区间[0,5],结果保存在data_scale中: new_scaler = ( =(0,5)) data_scaler = new_scaler.fit_transfo
答案是:MinMaxScaler feature_range
使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTA
答案是:drop axis=1
查看数据集car_data中所有变量缺失值情况,将结果保存在对象missing_car中: missing_car = car_data. .sum()
答案是:isna()
对3倍标准差异常值分类计数,结果保存在result中: result= data. ()
答案是:value_counts
对数据data计算标准分数,data_mean是data的平均值,data_std是data的标准差,结果保存在result中: result=(data- )/
答案是:data_mean data_std
使用客观法离散化data,设定了参数为bins = [0, 10000, 100000, 200000, np.inf],标签为["new", "used", "old", "worn"],结果保存在result中: result=pd.
答案是:labels=["new", "used", "old", "worn"]
计算变量y与x的Pearson相关系数: Pearson_xy = (y, x)
答案是:Pearsonr
对数据集data中的所有变量进行Max-ABS缩放,结果保存在data_scale中: ma_scaler = () data_scale = ma_scaler. (data)
答案是:MaxAbsScaler fit_transform
将data_1数据集age变量中的-1和999替换为缺失值: data_1["age"]. ([-1, 999], np.nan, inplace=True)
答案是:replace
car_data数据集中的make变量每一个类别的频数存储在make_count中,现在将car_data数据集中的make变量频数低于100的类别合并为一类: car_data["make1"] = car_data["make"].m
答案是:make_count[x]<100 x
将data离散化为0-1型变量,结果保存在result中: result=data. eq(0).
答案是:astype(int)
对data数据采用等频分箱,分组数为5组,结果保存在result中: result=pd. (data,bins=5)
答案是:qcut
对数据data计算平均值,结果保存在result中: result=data. ()
答案是:mean
通过画箱线图对数据data识别异常值: data.plot. ()
答案是:box
对数据集data中的所有变量进行Min-Max缩放,结果保存在data_scale中: mm_scaler = () data_scale = mm_scaler. (data)
答案是:MinMaxScaler fit_transform
对序列B进行中心化,结果保存在centralize_b中: centralize_b = (B, with_std=False)
答案是:scale
对boston数据集中的变量LSTAT进行处理,随机生成了10个缺失值: sample = random.sample( (boston.shape[0]), 10) boston. [sample,
答案是:range loc
计算car_data数据集中的make变量每一个类别的频数,存储在make_count中: make_count = car_data["make"].
答案是:value_counts()
简述等宽法的适用情况。
答案是:等宽法适用于对数据分布较为均匀的连续型变量进行离散化,根据连续型变量的取值范围,建立若干个宽度相等且首尾相连的区间,将连续型变量的每个值映射到相应的区间,并以区间名称作为新的离散型变量的值。
简述低频分类数据的特点、形成原因及影响。
答案是:低频分类数据通常呈现出类别众多,并且很多类别仅有几个甚至一个样本的情况。低频分类数据形成原因大致可以分为两种:第一,真实的分类结果中确实存在低频分类。第二,采集数据时格式不规范或错误,从而形成一些频数极小(如仅有一个样本)的类别。过多的低频分类会严重影响建模的效率。
简述数据离散化的操作含义。
答案是:数据离散化是指将连续型变量的每个取值映射到根据客观或主观标准事先确定好的一系列分组或分类中,从而得到定性变量的数据预处理方法。
请简述将变量缩放至区间[-1,1]时,Max-ABS缩放与Min-Max缩放的效果是否相同。
答案是:缩放效果不同,因为二者采取缩放方式不同。Min-Max缩放将原数据的所有值整体缩放至[-1,1]。Max-ABS缩放是将原值大于0的数据缩放到(0,1],将原值小于0的数据缩放到[-1,0),原值等于0的数据缩放后还为0。
请简述使用相关系数选择变量的思想和步骤。
答案是:无论是Pearson相关系数还是Spearman相关系数,其值均在[-1,1]之间分布。当值为0时,两个变量不相关;当其值为1或-1时,表示两个变量完全正相关或完全负相关。相关系数的绝对值越大,则说明两个变量的相关性越强。运用相关系数进行变量选择的步骤是,分别计算每个变量与目标变量的相关系数,保留与目标变量相关系数大的变量。
简述缺失值填补的思路。
答案是:第一个思路是利用包含缺失值的变量自身的信息进行填补,主要形式为使用该变量的非缺失部分构造简单统计量,并用该统计量填补缺失部分。第二个思路是同时利用包含缺失值的变量自身的信息和其他变量的信息,建立机器学习模型,基于该模型对缺失值变量的预测结果进行填补。
请简述异常值的含义。
答案是:异常值也可以称为离群值,指在一个数据序列中与大多数值相比特别大或特别小的值
请简述数据特征缩放对数据分析的意义
答案是:意义共有三点:一是,多数数据特征缩放的方法可以消除数据的量纲,而保留其数据分布特征,这样更有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响;二是,数据特征缩放可以提高梯度下降求解(迭代运算)的收敛速度,提高建模效率;三是,数据特征缩放可以提高一些模型的预测精度。
利用箱线图可以识别出异常值。
答案是:√
将数据离散化后,可以克服连续型变量中隐藏的缺陷,使模型结果更加稳定,得到更加有意义的研究结论。
答案是:√
数量归约是指从所有样本中选择一个有代表性的子集,因此也称为样本归约。
答案是:√
逻辑纠错中比较简单的方式是将不合理的值替换为缺失值,这样既保持了变量的性质不变,又避免了错误数据的危害。
答案是:√
包含缺失值的数据集表现出来的不确定性与不包含缺失值的数据集相比显著增大。
答案是:√
异常值的数值可能是真实的值。
答案是:√
在进行变量选择时需要遵循的原则是,剔除的变量必须对数据分析影响较小
答案是:√
数据中心化是数据标准化的第一个步骤。
答案是:√
数据预处理是指在对数据进行分析前需要对数据进行的处理工作。
答案是:√
Python中,使用datetime对象的datetime.now()方法获得当前系统时间
答案是:√
完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。
答案是:√
“分箱”是客观法数据离散化的方法。
答案是:√
通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。
答案是:√
经过标准化处理后,新值体现的是原值在序列中的相对位置。
答案是:√
过多的低频类别会严重影响建模的效率。
答案是:√
目前为: 1/3 页  首页   上页  下页 尾页

提升学历-成人高考报名入口    提升学历-成人高考报名时间     成人高考常见问题