Image to text chrome extension
1.0.0
一个 Chrome 扩展程序,可以使用 OCR 的概念从任何视频或图像中识别浏览器中的任何类型的文本。 OCR 是光学字符识别或图像中的其他单词查找文本的简称。 Google 之前发布了一个名为 Tesseract OCR 的引擎,这意味着 Google 为您提供了一个已经训练有文本识别的程序,因此我不必自己做 OCR 数据训练等复杂的事情。但为了获得更准确的结果,我们必须在将图像传递给 Tesseract 之前对其进行预处理,因为 Tesseract 有一些预定义的情况,需要遵循这些情况才能获得准确的结果。因此,对于我们扩展的功能,它首先从当前打开的选项卡中截取屏幕截图,然后使用画布裁剪所需的部分,并使用阈值二值化进行调整,以便它可以满足 OCR 要求,从而提供更准确的结果。然后将其发送到 pytesseract(Tesseract 的 Python 版本),以便它可以对其进行转换。最后获取文本并以 .txt 文件格式下载。因此,用户可以在记事本或任何其他文本编辑器中打开它,并根据需要比较和修改文本。
我确实经常在 YouTube 或任何其他网站上遇到代码片段,但现在,每当我遇到一段不提供下载或复制链接的代码时,我都非常感谢教程制作者在他们的视频中投入的精力。因此,为了从这些视频中获取代码,我在 tesseract 插件的帮助下制作了这个项目,这样我就可以从这些视频或图像中提取文本。
模块实现和演示可以在ppt中找到。
pip install pytesseract
npm i flask
jQuery min 文件附在文件中,如果您想更改它或使用 cdn 方法,您可以更改它。