r语言:从字符串"1994 / 法国 美国 / 剧情 动作 犯罪" 中分别提取出年代、国家、体裁
时间: 2023-08-03 09:31:41 浏览: 47
可以使用正则表达式来提取出字符串中的年代、国家和体裁信息。下面是一个示例代码:
```R
# 要提取的字符串
text <- "1994 / 法国 美国 / 剧情 动作 犯罪"
# 提取年代
year <- sub("^([0-9]+).*", "\\1", text)
cat("年代:", year, "\n")
# 提取国家
countries <- gsub(".*?([\\u4e00-\\u9fa5]+).*?([\\u4e00-\\u9fa5]+).*", "\\1,\\2", text)
cat("国家:", countries, "\n")
# 提取体裁
genres <- gsub(".*?([\\u4e00-\\u9fa5]+).*?([\\u4e00-\\u9fa5]+).*?([\\u4e00-\\u9fa5]+).*", "\\1,\\2,\\3", text)
cat("体裁:", genres, "\n")
```
输出结果为:
```
年代: 1994
国家: 法国,美国
体裁: 剧情,动作,犯罪
```
需要注意的是,这里使用了中文的正则表达式来提取中文信息。同时,由于字符串中的年代信息位于字符串的开头,因此可以使用 `sub` 函数来提取。而国家和体裁信息中间都有多个空格和斜杠,因此需要使用更加复杂的正则表达式来提取出信息。