探索大数据:商业与技术的交汇点

需积分: 10 15 下载量 148 浏览量 更新于2024-07-22 收藏 22.79MB PDF 举报
"Big Data For Dummies.pdf" 是一本由 Judith Hurwitz, Alan Nugent, Dr. Fern Halper 和 Marcia Kaufman 合著的书籍,旨在帮助读者理解和掌握大数据的基本概念和技术,同时探讨其在商业环境中的应用和影响。这本书由 John Wiley & Sons, Inc. 出版,覆盖了大数据的技术细节以及与业务相关的战略规划。 在当今数字化的世界中,大数据已经成为了许多企业和个人关注的焦点。"Big Data for Dummies" 针对不同的读者群体,包括那些希望深入理解技术细节的IT专业人士,以及那些想要了解大数据如何影响商业决策的高管们。书中强调,实施大数据环境不仅需要技术架构的规划,还需要商业策略的考量,并且这个过程需要大量的前期准备。 大数据的核心在于处理海量、高速生成的数据,这些数据来自各种来源,包括社交媒体、物联网设备、交易记录等。大数据的特点通常被概括为4V:Volume(大量)、Velocity(高速)、Variety(多样)和Veracity(真实性)。为了有效利用这些数据,书里可能会介绍如Hadoop这样的分布式计算框架,用于存储和处理大规模数据;以及数据挖掘、机器学习和人工智能等技术,用于从中提取价值。 在商业应用方面,大数据可以帮助企业进行更精准的市场分析,预测消费者行为,优化运营效率,甚至创新商业模式。书中可能涵盖如何制定数据驱动的决策流程,如何构建数据文化,以及如何评估大数据项目的投资回报率。 此外,书中可能还会讨论数据安全和隐私问题,因为随着数据量的增长,保护敏感信息的重要性也日益凸显。这包括合规性要求,如欧盟的GDPR(一般数据保护条例)和其他地区的类似法规。 "Big Data for Dummies" 是一本全面介绍大数据基础知识和实践应用的指南,无论你是技术新手还是经验丰富的专业人士,都能从中受益,更好地理解大数据如何改变我们的工作和生活。通过阅读这本书,你可以了解到如何将大数据技术转化为企业的竞争优势,以及如何在大数据时代中抓住机遇。

function median_target(var) { temp = data[data[var].notnull()]; temp = temp[[var, 'Outcome']].groupby(['Outcome'])[[var]].median().reset_index(); return temp; } data.loc[(data['Outcome'] == 0) & (data['Insulin'].isnull()), 'Insulin'] = 102.5; data.loc[(data['Outcome'] == 1) & (data['Insulin'].isnull()), 'Insulin'] = 169.5; data.loc[(data['Outcome'] == 0) & (data['Glucose'].isnull()), 'Glucose'] = 107; data.loc[(data['Outcome'] == 1) & (data['Glucose'].isnull()), 'Glucose'] = 1; data.loc[(data['Outcome'] == 0) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 27; data.loc[(data['Outcome'] == 1) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 32; data.loc[(data['Outcome'] == 0) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 70; data.loc[(data['Outcome'] == 1) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 74.5; data.loc[(data['Outcome'] == 0) & (data['BMI'].isnull()), 'BMI'] = 30.1; data.loc[(data['Outcome'] == 1) & (data['BMI'].isnull()), 'BMI'] = 34.3; target_col = ["Outcome"]; cat_cols = data.nunique()[data.nunique() < 12].keys().tolist(); cat_cols = [x for x in cat_cols]; num_cols = [x for x in data.columns if x not in cat_cols + target_col]; bin_cols = data.nunique()[data.nunique() == 2].keys().tolist(); multi_cols = [i for i in cat_cols if i in bin_cols]; le = LabelEncoder(); for i in bin_cols: data[i] = le.fit_transform(data[i]); data = pd.get_dummies(data=data, columns=multi_cols); std = StandardScaler(); scaled = std.fit_transform(data[num_cols]); scaled = pd.DataFrame(scaled, columns=num_cols); df_data_og = data.copy(); data = data.drop(columns=num_cols, axis=1); data = data.merge(scaled, left_index=True, right_index=True, how='left'); X = data.drop('Outcome', axis=1); y = data['Outcome']; X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, shuffle=True, random_state=1); y_train = to_categorical(y_train); y_test = to_categorical(y_test);将这段代码添加注释

2023-06-01 上传

将下列代码变为伪代码def median_target(var): temp = data[data[var].notnull()] temp = temp[[var, 'Outcome']].groupby(['Outcome'])[[var]].median().reset_index() return temp data.loc[(data['Outcome'] == 0 ) & (data['Insulin'].isnull()), 'Insulin'] = 102.5 data.loc[(data['Result'] == 1 ) & (data['Insulin'].isnull()), 'Insulin'] = 169.5 data.loc[(data['Result'] == 0 ) & (data['Glucose'].isnull()), 'Glucose'] = 107 data.loc[(data['Result'] == 1 ) & (data['Glucose'].isnull()), 'Glucose'] = 1 data.loc[(data['Result'] == 0 ) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 27 data.loc[(data['Result'] == 1 ) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 32 data.loc[(data['Result'] == 0 ) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 70 data.loc[(data['Result'] == 1 ) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 74.5 data.loc[(data['Result'] == 0 ) & (data['BMI'].isnull()), 'BMI'] = 30.1 data.loc[(data['Result'] == 1 ) & (data['BMI'].isnull()), 'BMI'] = 34.3 target_col = [“Outcome”] cat_cols = data.nunique()[data.nunique() < 12].keys().tolist() cat_cols = [x for x in cat_cols ] #numerical列 num_cols = [x for x in data.columns if x 不在 cat_cols + target_col] #Binary列有 2 个值 bin_cols = data.nunique()[data.nunique() == 2].keys().tolist() #Columns 2 个以上的值 multi_cols = [i 表示 i in cat_cols if i in bin_cols] #Label编码二进制列 le = LabelEncoder() for i in bin_cols : data[i] = le.fit_transform(data[i]) #Duplicating列用于多值列 data = pd.get_dummies(data = data,columns = multi_cols ) #Scaling 数字列 std = StandardScaler() 缩放 = std.fit_transform(数据[num_cols]) 缩放 = pd。数据帧(缩放,列=num_cols) #dropping原始值合并数字列的缩放值 df_data_og = 数据.copy() 数据 = 数据.drop(列 = num_cols,轴 = 1) 数据 = 数据.合并(缩放,left_index=真,right_index=真,如何 = “左”) # 定义 X 和 Y X = 数据.drop('结果', 轴=1) y = 数据['结果'] X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, shuffle=True, random_state=1) y_train = to_categorical(y_train) y_test = to_categorical(y_test)

2023-06-01 上传