awk 'NR > 1 {split($4,a,","); print a[1]" "$3}'是什么意思
时间: 2024-04-20 18:25:07 浏览: 195
这是一个使用 AWK 命令的表达式,用于对输入数据进行处理和提取信息。
让我们逐步解释这个命令的含义:
1. `awk`:这是 AWK 命令的调用。
2. `'NR > 1 {split($4,a,","); print a[1]" "$3}'`:这是 AWK 的脚本部分,用于对每一行进行处理。
- `NR > 1`:表示只处理行号大于 1 的行,即跳过第一行。
- `{split($4,a,","); print a[1]" "$3}`:在满足条件的行上执行的操作。
- `split($4,a,",")`:将第四列按逗号进行分割,并将分割结果存储在数组 `a` 中。
- `print a[1]" "$3`:打印数组 `a` 的第一个元素(分割结果的第一部分)和第三列,用空格分隔。
综合起来,该命令用于处理输入数据的每一行,跳过第一行,并在满足条件的行上将第四列按逗号分割,然后打印分割结果的第一部分和第三列。
相关问题
请将下列shell语句转换为python语句:if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then # Make train dict echo "Make a dictionary" mkdir -p $(dirname $dict) echo "<blank> 0" > ${dict} # 0 will be used for "blank" in CTC echo "<unk> 1" >> ${dict} # <unk> must be 1 if [ "${token_type}" = bpe ]; then # we borrowed these code and scripts which are related bpe from ESPnet. cut -f 2- -d" " data/${train_set}/text | sort > data/lang_char/input.txt tools/spm_train --input=data/lang_char/input.txt --vocab_size=${nbpe} --model_type=${bpemode} --model_prefix=${bpemodel} --input_sentence_size=100000000 tools/spm_encode --model=${bpemodel}.model --output_format=piece < data/lang_char/input.txt | tr ' ' '\n' | sort | uniq | awk '{print $0 " " NR+1}' >> ${dict} elif [ "${token_type}" = char ]; then tools/text2token.py -s 1 -n 1 data/${train_set}/text | cut -f 2- -d" " | tr " " "\n" \ | sort | uniq | grep -a -v -e '^\s*$' | awk '{print $0 " " NR+1}' >> ${dict} fi num_token=$(cat $dict | wc -l) echo "<sos/eos> $num_token" >> $dict # <eos> fi
以下是将上述shell语句转换为Python语句的代码:
```python
if stage <= 2 and stop_stage >= 2:
# Make train dict
print("Make a dictionary")
os.makedirs(os.path.dirname(dict), exist_ok=True)
with open(dict, "w") as f:
f.write("<blank> 0\n") # 0 will be used for "blank" in CTC
f.write("<unk> 1\n") # <unk> must be 1
if token_type == "bpe":
# we borrowed these code and scripts which are related bpe from ESPnet.
with open(f"data/{train_set}/text") as text_file:
texts = [line.strip().split()[1:] for line in text_file]
with open("data/lang_char/input.txt", "w") as input_file:
for text in texts:
input_file.write(" ".join(text) + "\n")
subprocess.run(f"tools/spm_train --input=data/lang_char/input.txt --vocab_size={nbpe} --model_type={bpemode} --model_prefix={bpemodel} --input_sentence_size=100000000", shell=True)
with open(f"{bpemodel}.vocab") as vocab_file:
vocab = [line.strip().split()[0] for line in vocab_file]
with open(dict, "a") as dict_file:
for i, vocab_item in enumerate(vocab):
dict_file.write(f"{vocab_item} {i+2}\n")
elif token_type == "char":
with open(f"data/{train_set}/text") as text_file:
texts = [line.strip().split()[1] for line in text_file]
texts = " ".join(texts)
tokens = subprocess.check_output(f"echo '{texts}' | tools/spm_encode --model={bpemodel}.model --output_format=piece", shell=True)
tokens = tokens.decode().split("\n")
tokens = [token.strip() for token in tokens if token.strip() != ""]
tokens = sorted(set(tokens))
with open(dict, "a") as dict_file:
for i, token in enumerate(tokens):
dict_file.write(f"{token} {i+2}\n")
num_token = sum(1 for line in open(dict))
with open(dict, "a") as dict_file:
dict_file.write(f"<sos/eos> {num_token}\n") # <eos>
```
需要注意的是,在Python中也需要使用相应的模块和工具来实现shell语句中的一些操作,例如在此代码中使用了`os`、`subprocess`模块和`tools/spm_train`、`tools/spm_encode`脚本来进行文件操作和调用外部命令。另外,由于Python中没有直接对应的`$`符号,需要使用`f-string`或者`str.format()`方法来进行字符串格式化。
txt文件最后一列是acc或rel的话输出第一列值,用awk
在AWK中,你可以使用正则表达式配合`end`块来处理这种情况。如果你的txt文件的最后一列是"acc"或"rel",并且你想要输出对应的第一列(通常假设列为1),你可以编写这样的命令:
```bash
awk '/(acc|rel)$/ {print $1}' input.txt
```
这个命令的工作原理是:
- `/\(acc\|rel\)$/` 是一个正则表达式模式,匹配每一行以 "acc" 或 "rel" 结尾的行。
- `{print $1}` 当找到匹配行时,打印第一列(`$1`表示第一个字段)的内容。
如果你有多个列,并不确定哪一列是最后一列,可以稍微调整一下,比如先按行读取整个文件,然后在`END`块里查找最后一列:
```bash
awk 'FNR==NR{a[$0]; next} END{for(i in a){split(a[i],arr," "); print arr[1]}}' file.txt input.txt
```
这里的 `FNR==NR` 是指当前处理的是输入文件,收集所有行;而在 `END` 块中,遍历之前存储的所有行,每行分割成数组并打印第一元素。