data = pd.DataFrame({"电影":self.movies,"评分":rating,"导演":cast,"主演":cast}) data['电影'] = data['电影'].apply(lambda x: x.text) data['评分'] = data['评分'].apply(lambda x: x.text) data['导演'] = data['导演'].apply(lambda x: x.text.split('\n')[0][3:].split('/')) data['主演'] = data['主演'].apply(lambda x: x.text.split('\n')[1][3:].split('/'))

时间: 2023-12-02 22:31:35 浏览: 135

python中pandas.DataFrame的简单操作方法（创建、索引、增添与删除）

在Python的Pandas库中，DataFrame是一个二维的数据结构，它能存储各种类型的数据，并提供了丰富的数据分析功能。本文将深入探讨如何进行DataFrame的创建、索引、增添与删除等基本操作。 **一、创建DataFrame** 1. **根据字典创建**：当你有一个字典，其中键是列名，值是对应的列表时，可以使用`pd.DataFrame()`函数创建DataFrame。如果字典中所有列表长度相同，那么DataFrame将被创建。如果不指定索引，Pandas会默认使用0开始的整数序列。例如： ```python import pandas as pd data = {'one': [1, 2, 3], 'two': [2, 3, 4], 'three': [3, 4, 5]} df = pd.DataFrame(data, index=['first', 'second', 'third']) ``` 2. **从多维数组创建**：如果你有一个NumPy数组，你可以直接使用它创建DataFrame。同样，需要指定索引和列名，否则它们将默认为0开始的整数序列： ```python import numpy as np arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) df = pd.DataFrame(arr, index=[22, 33, 44], columns=['one', 'two', 'three']) ``` 3. **从其他DataFrame创建**：你可以通过选择特定的列创建新的DataFrame。这通常涉及使用`.loc`或`.iloc`，或者直接通过列名选取： ```python df2 = df[['one', 'three']].copy() ``` `copy()`函数用于创建DataFrame的深拷贝，防止对原DataFrame的修改影响到新DataFrame。 **二、DataFrame的索引操作** 1. **索引列**：要获取一列数据，可以直接通过列名访问，如`df['one']`。如果你想同时获取多列，可以将列名放入列表中，如`df[['one', 'three']]`。 2. **索引行**：索引行可以使用索引值，例如`df[1:3]`将返回第1到第3行（不包括第3行）。如果只写一个冒号，如`df[:]`，则返回所有行。 3. **索引特定行和列的组合**：若要获取特定行和列的组合，可以使用`.loc`或`.iloc`。`.loc`基于标签（即索引值），而`.iloc`基于位置（即整数索引）。例如： ```python df.loc[[22, 33], ['one', 'three']] ``` 如果你尝试在`.loc`中直接赋值，可能会遇到只读问题。为了确保赋值成功，确保操作不是只读的。 **三、增添与删除** 1. **增添数据**：可以通过`df.append()`方法添加行，或者通过`df['new_column'] = value`方式添加列。 2. **删除数据**：使用`df.drop()`方法可以删除行或列。例如，`df.drop('column_name', axis=1)`将删除指定列，`df.drop(index_value)`将删除指定索引的行。 **总结** Pandas DataFrame是数据分析的核心工具，理解和熟练掌握其创建、索引、增添和删除等操作是进行高效数据分析的基础。通过上述介绍，你应该对如何在Python中操作DataFrame有了更深入的理解。实践中，结合实际数据，不断练习这些操作，将有助于提高你的数据分析技能。

这段代码是使用 Pandas 库创建了一个 DataFrame 对象，并对其中的某些列进行了一些数据清洗操作。具体来说： - 第一行代码创建了一个 DataFrame 对象，其中包含了四列数据，分别为电影名称、评分、导演和主演。这些数据可能来自某个网站或者其他来源。 - 第二行代码对“电影”这一列进行了数据清洗操作，使用 apply() 方法和一个 lambda 函数将每一行数据中的 HTML 标签（如 <a> 和 </a>）去掉，只保留文本内容。 - 第三行代码对“评分”这一列进行了类似的操作，使用 apply() 方法和一个 lambda 函数将每一行数据中的 HTML 标签去掉，只保留评分数值。 - 第四行和第五行分别对“导演”和“主演”这两列进行了类似的操作，使用 apply() 方法和一个 lambda 函数将每一行数据中的 HTML 标签去掉，并将导演和主演的姓名提取出来，存储为一个列表。这里使用了一些字符串操作，如 split() 方法和列表切片。总之，这段代码的作用是将一些混乱的数据整理成为一个比较规范的 DataFrame 对象，方便后续处理和分析。

阅读全文

相关推荐

Python DataFrame.loc函数：按标签选择行与列详解

Pandas 中的 DataFrame 合并方法：append、merge 和 concat

Pandas基础知识-pd.DataFrame()

pd.DataFrame统计各列数值多少的实例

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

jardin:基于pandas.DataFrame的ORM

pandas.DataFrame 索引

pandas.DataFrame.sample使用实例

3.dataframe使用1

pandas.DataFrame.drop_duplicates 用法介绍

python pandas.DataFrame.loc函数使用详解

pandas.DataFrame 概念及创建

详解pandas.DataFrame.plot() 画图函数

解决pandas.DataFrame.fillna 填充Nan失败的问题

Python pandas.DataFrame.loc用法深度解析

Python数据处理：Numpy与Pandas.DataFrame深入应用

教师节主题班会.pptx

学生网络安全教育主题班会.pptx

世界环境日主题班会.pptx

最新推荐

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

如何在Springboot后端项目中实现前端的多人视频会议功能，并使用Vue.js与ElementUI进行界面开发？

Android应用显示Ignaz-Taschner-Gymnasium取消课程概览

关系数据表示学习