nodejs Tesseract如何设置识别精度和语言
时间: 2024-05-16 21:18:20 浏览: 339
在 Node.js 中使用 Tesseract 进行 OCR 识别时,您可以通过以下方式设置识别精度和语言:
1. 设置识别精度:
Tesseract 提供了多个识别精度选项,从“最快”到“最准确”不等。您可以通过在 `Tesseract.recognize()` 方法的第二个参数中设置 `tessedit_char_whitelist` 和 `tessedit_ocr_engine_mode` 属性来设置识别精度。
例如,以下代码将设置 Tesseract 为使用 LSTM 引擎,同时设置识别精度为 `OEM.LSTM_ONLY`:
```
const Tesseract = require("tesseract.js")
Tesseract.recognize(imagePath, {
tessedit_ocr_engine_mode: 1, // OEM.LSTM_ONLY
tessedit_char_whitelist: "0123456789", // 限定只识别数字
})
```
2. 设置语言:
Tesseract 支持多种语言的 OCR 识别,您可以通过 `lang` 属性来设置识别时所用的语言。
例如,以下代码将设置 Tesseract 为仅识别英语文本:
```
Tesseract.recognize(imagePath, {
lang: "eng",
})
```
您也可以设置多个语言,让 Tesseract 在这些语言中进行识别。例如:
```
Tesseract.recognize(imagePath, {
lang: "eng+fra", // 同时识别英语和法语
})
```
阅读全文