目前有如下数据集(上传到HDFS的 /data/data.txt): 张三-北京 李四-上海 王五-北京 赵六-广州 田七-深圳 周八-武汉 李九-杭州 最终结果转换为: [(张三,北京),(李四,上海),(王五,北京),(赵六,广州),(田七,深圳),(周八,武汉),(李九,杭州)]
时间: 2023-10-22 16:05:09 浏览: 71
中国省,市,县(区)三级数据信息,已转换成mysql的dump文件utf-8格式。
您可以使用以下代码将数据集转换为目标格式:
```python
import re
# 从HDFS读取数据集
with open('/data/data.txt', 'r') as f:
data = f.read()
# 提取姓名和城市信息并转换为目标格式
pattern = r'(\w+)-(\w+)'
result = re.findall(pattern, data)
final_result = [(name, city) for name, city in result]
print(final_result)
```
这段代码会从HDFS中读取数据集文件`/data/data.txt`,然后使用正则表达式提取姓名和城市信息。最后,将提取的结果转换为目标格式,即将姓名和城市组成元组,并存储在`final_result`列表中。最后,打印输出`final_result`即可得到最终结果。
阅读全文