优化这段代码 s_len = [] s_tokens = sent_tokenize(text) for i in s_tokens: w_tokens = word_tokenize(i) s_len.append(len(w_tokens)) x_axis = np.arange(0,len(s_len)) plt.scatter(x_axis,s_len) plt.show()

s_tokens = sent_tokenize(text) s_len = [len(word_tokenize(i)) for i in s_tokens] x_axis = np.arange(len(s_len)) plt.scatter(x_axis, s_len) plt.show()

if "test" in self.path: self.inference = False if self.config.token_type: pad, cls, sep = '[PAD]', '[CLS]', '[SEP]' else: pad, cls, sep = '<pad>', '<cls>', '<sep>' contens = [] with open(self.path, 'r', encoding='utf-8') as f: data_list = f.readlines() for row_data in tqdm(data_list): row_json_data = json.loads(row_data) token_id_full = [] fact = row_json_data['fact'] if self.inference == False: labels = row_json_data['meta']['accusation'] fact_tokens = self.tokenizer.tokenize(fact) len_fact_tokens = len(fact_tokens) if len_fact_tokens <= self.max_seq_len-2: fact_tokens_ = [cls] + fact_tokens + [sep] else: fact_tokens_ = [cls] + fact_tokens[:self.max_seq_len-2] + [sep]

这段代码是用来处理输入数据的，主要是将输入数据转换为模型可以处理的格式。首先根据传入的参数判断是否是测试模式，然后根据配置文件中的token_type参数选择相应的标记符号。接着打开传入的文件，逐行读取数据。对于每一行数据，首先获取事实部分的文本，并将其使用tokenizer进行分词。如果文本长度小于等于max_seq_len-2，就在前后添加[CLS]和[SEP]标记符号，否则只保留前max_seq_len-2个token，然后同样在前后添加标记符号。最后将处理后的文本转化为token_id_full，并将其和标签（如果不是测试模式）一起加入到contens列表中。

def build_predict_text(self, text): token = self.config.tokenizer.tokenize(text) token = ['[CLS]'] + token seq_len = len(token) mask = [] token_ids = self.config.tokenizer.convert_tokens_to_ids(token) pad_size = self.config.pad_size if pad_size: if len(token) < pad_size: mask = [1] * len(token_ids) + ([0] * (pad_size - len(token))) token_ids += ([0] * (pad_size - len(token))) else: mask = [1] * pad_size token_ids = token_ids[:pad_size] seq_len = pad_size ids = torch.LongTensor([token_ids]) seq_len = torch.LongTensor([seq_len]) mask = torch.LongTensor([mask]) return ids, seq_len, mask

这段代码定义了一个名为 `build_predict_text` 的函数，该函数的作用是将输入的文本转化为 BERT 模型输入的格式。具体来说，该函数首先使用 BERT 模型配置对象中的 tokenizer 对输入文本进行分词，并在分词结果的开头添加 `[CLS]` 标记。然后，函数会根据模型配置对象中的 `pad_size` 参数来对分词后的结果进行填充，以保证每个输入样本的长度一致。接下来，函数会将分词后的结果转换为对应的 token id，并使用 `torch.LongTensor` 将其转换为张量数据类型。此外，函数还会将输入样本的长度和填充掩码也转换为张量数据类型，并一同返回。总体来说，这段代码的作用是将输入的文本转化为 BERT 模型的输入格式，以便于后续对该文本进行预测。

阅读全文

优化这段代码 s_len = [] s_tokens = sent_tokenize(text) for i in s_tokens: w_tokens = word_tokenize(i) s_len.append(len(w_tokens)) x_axis = np.arange(0,len(s_len)) plt.scatter(x_axis,s_len) plt.show()

相关推荐

Python代码词语标记器：tokenize的功能与应用

前端解析库：tokenize-htmltext压缩包文件解析

Python库unidic_combo-0.9.0发布，简化开发流程

def tokenize_text(text): tokens = jieba.lcut(text) tokens = [token.strip() for token in tokens] return tokens

深入解析jQuery选择器源码：tokenize方法

jQuery选择器解析：tokenize与preFilter协同工作解析

基于OpenCV的人脸识别小程序.zip

大家在看

jd-gui-windows-1.4.0（jar包反编译)

C#调用阿里云短信平台接口发送短信.rar

实验二DML语言一（数据插入、修改和删除.doc

【蒙特卡洛模拟】这个项目旨在通过强化学习和蒙特卡洛模拟的结合，解决银行购买股票的最优策略和预期利润折现率的问题KL.zip

电子科技大学-码图-答案

最新推荐

基于OpenCV的人脸识别小程序.zip

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

"互动学习：行动中的多样性与论文攻读经历"

【单相整流器终极指南】：电气工程师的20年实用技巧大揭秘

OxyPlot CategoryAxis

STM32-F0/F1/F2电子库函数UCOS开发指南