# 数据集为2015-2020年在线教育市场的投资事件信息汇总 # 数据字段说明: # ▪ 时间:投资事件发生的时间,格式为:年/月/日。 # ▪ 公司名称:被投资的公司名称。 # ▪ 公司网址:被投资公司在信息披露网站的主页URL。 # ▪ 融资轮次:融资轮次。 # ▪ 投资金额:融资金额,单位有人民币、美元等不同货币。该字段的值有多种类型,包括:明确金额、金额范围、未披露。(读入数据后应换算成统一单位,金额范围按中值记录,未披露按0记录) # ▪ 投资人:投资人,有单个投资人、多个投资人、未披露。 # ▪ 最新估值(估算):投资后,被投资公司的估值。估值=投资人投资金额/投资人所占股权比例。 # ▪ 字段1:被投资公司所在的领域(一级)。 # ▪ 字段2:被投资公司所在的领域(二级)。 # ▪ 字段3:被投资公司所在的领域(三级)。 # 请统计:筛选出所有投资方未透露,且投资金额也未透露的投资事件信息,然后按照一级领域统计这些投资在每个领域的总投资次数和金额,按照次数降序输出,次数相同按照金额降序。最后将结果写入result.txt文件中。
时间: 2024-01-24 09:20:35 浏览: 96
上市公司环境投资数据集.zip
5星 · 资源好评率100%
好的,这是一个数据处理任务。你需要使用Python编写代码来完成该任务。以下是一个可能的解决方案:
```python
import pandas as pd
# 读入数据
df = pd.read_excel('data.xlsx')
# 将金额转换为统一单位(以万元为单位)
df.loc[df['投资金额'].str.contains('万'), '投资金额'] = df.loc[df['投资金额'].str.contains('万'), '投资金额'].str.extract('(\d+\.?\d*)')['投资金额'].astype(float)
df.loc[df['投资金额'].str.contains('亿'), '投资金额'] = df.loc[df['投资金额'].str.contains('亿'), '投资金额'].str.extract('(\d+\.?\d*)')['投资金额'].astype(float) * 10000
df.loc[df['投资金额'] == '未透露', '投资金额'] = 0
# 筛选出投资金额和投资方均未透露的投资事件
df = df[(df['投资金额'] == 0) & (df['投资人'] == '未透露')]
# 按一级领域统计投资次数和金额
result = df.groupby('字段1').agg({'公司名称': 'count', '投资金额': 'sum'}).sort_values(by=['公司名称', '投资金额'], ascending=False)
# 写入文件
result.to_csv('result.txt', sep='\t')
```
说明:
1. 首先读入数据,并将金额转换为统一单位(以万元为单位)。如果投资金额中包含“万”或“亿”等单位,则提取其中的数字,并乘以相应的倍数转换为万元。
2. 然后筛选出投资金额和投资方均未透露的投资事件,使用逻辑运算符“&”将两个条件连接起来。
3. 最后按照一级领域统计投资次数和金额,并按照题目要求进行排序。注意,如果出现次数相同的情况,需要按照金额降序排列。
4. 将结果写入文件,使用制表符作为字段分隔符。
阅读全文