# 将 time 列中的 年月日 提取出来 填入 date1 df['date1'] = pd.???(df['time'],format='%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d') df.head()
时间: 2023-09-16 17:16:04 浏览: 136
可以使用 pandas 的 to_datetime 方法先将 time 列转换成 datetime 类型,然后使用 dt 属性中的 strftime 方法将年月日提取出来并格式化为字符串,最后填入 date1 列中。具体代码如下:
```
df['date1'] = pd.to_datetime(df['time'], format='%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d')
df.head()
```
这样就可以将 time 列中的年月日提取出来并填入 date1 列中了。
相关问题
df.rename(columns = lambda x : x.replace(' ',''),inplace = True) # 原始dataframe中列名中包含空格,需要进行替换 # 删除重复行,保留第一次出现的行 df.drop_duplicates(inplace = True) # 数据类型转换 df['OrderDate'] = pd.to_datetime(df['OrderDate']) df['ShipDate'] = pd.to_datetime(df['ShipDate']) df['RowID'] = df['RowID'].astype('object') df['PostalCode'] = df['PostalCode'].astype('object') # 提取年月日 df['OrderYear'] = df['OrderDate'].dt.year df['OrderMonth'] = df['OrderDate'].dt.month df['OrderDay'] = df['OrderDate'].dt.day df['OrderWeekday'] = df['OrderDate'].dt.weekday + 1 df['OrderYearMonth'] = df['OrderDate'].dt.strftime('%Y-%m') # 计算订单的发货时间 df['ShipDays'] = (df['ShipDate'] - df['OrderDate']).dt.days # 计算成本 df['Cost'] = df['Sales'] - df['Profit'] df.head().请解释这段代码
这段代码是对一个名为 `df` 的 pandas DataFrame 进行数据预处理的操作,具体解释如下:
1. `df.rename(columns = lambda x : x.replace(' ',''),inplace = True)`:将 DataFrame 中所有列名中的空格替换为空,并且将修改直接应用到原 DataFrame 中。
2. `df.drop_duplicates(inplace = True)`:删除原 DataFrame 中重复的行,只保留第一次出现的行,并且将修改直接应用到原 DataFrame 中。
3. `df['OrderDate'] = pd.to_datetime(df['OrderDate'])` 和 `df['ShipDate'] = pd.to_datetime(df['ShipDate'])`:将 `OrderDate` 和 `ShipDate` 这两列转换成 pandas 中的 datetime 类型。
4. `df['RowID'] = df['RowID'].astype('object')` 和 `df['PostalCode'] = df['PostalCode'].astype('object')`:将 `RowID` 和 `PostalCode` 这两列转换成 pandas 中的 object 类型。
5. `df['OrderYear'] = df['OrderDate'].dt.year` 和 `df['OrderMonth'] = df['OrderDate'].dt.month` 等:提取 `OrderDate` 这一列中的年、月、日、星期等信息,并新建相应的列。
6. `df['OrderYearMonth'] = df['OrderDate'].dt.strftime('%Y-%m')`:将 `OrderDate` 这一列中的日期转换成字符串,并只保留年月信息,存放在 `OrderYearMonth` 这一列中。
7. `df['ShipDays'] = (df['ShipDate'] - df['OrderDate']).dt.days`:计算订单的发货时间,即 `ShipDate` 减去 `OrderDate` 的天数差,存放在 `ShipDays` 这一列中。
8. `df['Cost'] = df['Sales'] - df['Profit']`:计算每笔订单的成本,即 `Sales` 减去 `Profit`,存放在 `Cost` 这一列中。
9. `df.head()`:输出处理后的 DataFrame 中前 5 行数据。
import numpy as np from datetime import datetime, timedelta import pandas as pd test = pd.read_excel("C:\\Users\\1data\\Desktop\\DBM成本收入核算\\test.xlsx") start_date = pd.to_datetime(test['合同开始日期']) end_date = pd.to_datetime(test['合同截止日期']) test['合同周期月数'] = round((end_date - start_date) / np.timedelta64(1, 'M')) start_date_col = '合同开始日期' end_date_col = '合同截止日期' new_col = '日期' for index, row in test.iterrows(): start_date = pd.to_datetime(row[start_date_col]) end_date = pd.to_datetime(row[end_date_col]) date_list = [] if start_date.day <= 15: while start_date <= end_date: date_list.append(start_date) start_date = start_date + timedelta(days=30) else: start_date = start_date + timedelta(days=30) while start_date <= end_date + timedelta(days=30): date_list.append(start_date) start_date = start_date + timedelta(days=30) test.loc[index, new_col] = ','.join([str(date.date()) for date in date_list]) df_tmp=test['日期'].str.split(',',expand=True) df_tmp=df_tmp.stack() df_tmp = df_tmp.reset_index(level=1,drop=True) df_tmp.name='日期' df_new = test.drop(['日期'], axis=1).join(df_tmp).reset_index().drop(columns='index') print(df_new) df_new.to_excel('income_test.xlsx',index=False) 将这段代码导出的excel中合同开始日期字段不显示时分秒且新增日期字段的取年月的字段合同周期年月
要将导出的 Excel 中的合同开始日期字段只显示年月日,可以使用 pandas 的 to_datetime 方法中的 strftime 函数将日期格式化为字符串再导出到 Excel 中。修改代码如下:
```
import numpy as np
from datetime import datetime, timedelta
import pandas as pd
test = pd.read_excel("C:\\Users\\1data\\Desktop\\DBM成本收入核算\\test.xlsx")
start_date = pd.to_datetime(test['合同开始日期'])
end_date = pd.to_datetime(test['合同截止日期'])
test['合同周期月数'] = round((end_date - start_date) / np.timedelta64(1, 'M'))
start_date_col = '合同开始日期'
end_date_col = '合同截止日期'
new_col = '日期'
for index, row in test.iterrows():
start_date = pd.to_datetime(row[start_date_col])
end_date = pd.to_datetime(row[end_date_col])
date_list = []
if start_date.day <= 15:
while start_date <= end_date:
date_list.append(start_date)
start_date = start_date + timedelta(days=30)
else:
start_date = start_date + timedelta(days=30)
while start_date <= end_date + timedelta(days=30):
date_list.append(start_date)
start_date = start_date + timedelta(days=30)
# 格式化日期字符串为年月日
date_str_list = [date.strftime('%Y-%m-%d') for date in date_list]
test.loc[index, new_col] = ','.join(date_str_list)
# 将日期字段拆分为多列
df_tmp = test['日期'].str.split(',', expand=True)
df_tmp = df_tmp.stack()
df_tmp = df_tmp.reset_index(level=1, drop=True)
df_tmp.name = '日期'
# 将拆分后的日期列与原始 DataFrame 合并
df_new = pd.concat([test.drop(['日期'], axis=1), df_tmp], axis=1)
df_new = df_new.reset_index().drop(columns='index')
# 计算合同周期年月
df_new['合同周期年月'] = df_new['合同周期月数'].apply(lambda x: f"{int(x//12)}年{int(x%12)}月")
# 导出到 Excel
df_new.to_excel('income_test.xlsx', index=False)
```
这样导出的 Excel 文件中的合同开始日期字段只显示年月日,而新增日期字段的取年月的字段合同周期年月也被计算出来了。
阅读全文