for i in cont: UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position 163: illegal multibyte sequence
时间: 2023-10-07 18:08:44 浏览: 150
这个错误提示是Unicode解码错误,指出在使用GBK编码时无法解码字节0x81,因为它是一个非法的多字节序列。这个错误通常发生在尝试将一个不兼容的编码格式应用于文本数据时。
解决这个问题的方法之一是使用正确的编码格式来读取文件。根据你提供的引用中的代码,使用PyQuery库的pq函数来解析HTML文件时,你可以通过添加`encoding='UTF-8'`参数来指定正确的编码格式,如下所示:
```python
data = pq(filename='练习.html', encoding='UTF-8')
```
这将使用UTF-8编码格式来解析HTML文件,确保正确的解码过程。
此外,根据你提供的引用中的代码,当使用pyquery对象选择子标签时,可以使用下面的语法:
```python
data('标签a a的子标签b b的子标签c ...')
```
这将选择指定的子标签。在你的代码中,`data('div div div div div div')`将选择HTML中连续的6个div标签。
希望这些信息对你有帮助。如果你还有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *3* [python爬虫——Pyquery库](https://blog.csdn.net/FrankGavin/article/details/119155866)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* [LLaMA的解读与其微调:Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙/LLaMA 2](https://blog.csdn.net/v_JULY_v/article/details/129709105)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文