斯坦福大学机器学习课：Photo OCR技术解析

版权申诉

110 浏览量更新于2024-06-26 收藏 1.97MB PDF 举报

"2014斯坦福大学机器学习mkv视频 Lecture18.pdf" 这篇资料主要探讨了机器学习在实际应用中的一个例子——照片光学字符识别（Photo OCR）问题。光学字符识别是一种技术，用于自动从图像中检测和转换文本。在Andrew Ng的讲解中，他详细介绍了Photo OCR的处理流程，包括三个主要步骤： 1. 文本检测（Text Detection）：这是整个过程的第一步，目标是找出图像中可能包含文字的区域。这通常涉及到使用滑动窗口技术，通过在不同尺度和位置上扫描图像来查找可能的文字特征。对于正例（positive examples），即包含文字的区域，和负例（negative examples），即不包含文字的区域，机器学习模型会进行区分和学习。 2. 字符分割（Character Segmentation）：在确定了文字区域之后，下一步是将连续的文字字符分离开来。这一步骤通常也使用了1D滑动窗口，对每个字符进行定位和切割，确保每个字符被单独处理。同样，模型也需要学习如何区分字符的边界，以及哪些是有效的字符分割实例。 3. 字符识别（Character Recognition）：最后一步是将分割出的字符识别为具体的字母或数字。这通常涉及到深度学习或传统的机器学习算法，如支持向量机（SVM）、神经网络等，训练模型以区分不同的字符类别。 Andrew Ng还提到了行人检测（Pedestrian Detection）作为另一个应用滑动窗口的示例，这个过程与文本检测类似，都是寻找特定类型的对象。在行人检测中，监督学习被用来训练模型，通过正例（行人图像片段）和负例（非行人图像片段）来学习识别行人。这个Lecture18的课程深入浅出地讲解了机器学习在实际应用中的问题解决策略，特别是在图像处理领域的应用，如Photo OCR，强调了滑动窗口技术在检测任务中的重要性，并展示了如何通过正负样本学习来构建和优化模型。这些知识对于理解计算机视觉和机器学习的结合应用至关重要。

Andrew*Ng*

Text$detec8on$

Pedestrian$detec8on$

剩余28页未读，继续阅读

百态老人

粉丝: 7658
资源: 2万+

斯坦福大学机器学习课：Photo OCR技术解析

斯坦福大学机器学习课程：异常检测

"斯坦福大学机器学习 Lecture11: 机器学习系统设计与垃圾邮件分类案例

斯坦福大学机器学习课程：支持向量机与核方法

2014斯坦福大学机器学习mkv视频 Lecture16.pdf

2014斯坦福大学机器学习mkv视频 Lecture10.pdf

2014斯坦福大学机器学习mkv视频 Lecture7.pdf

2014斯坦福大学机器学习mkv视频 Lecture17.pdf

2014斯坦福大学机器学习mkv视频 Lecture15.pdf

2014斯坦福大学机器学习mkv视频 Lecture13.pdf

2014斯坦福大学机器学习mkv视频 Lecture2.pptx

最新资源