Une extension Chrome qui peut reconnaître n'importe quel type de texte dans votre navigateur à partir de n'importe quelle vidéo ou image en utilisant le concept d'OCR. L'OCR est la forme abrégée de reconnaissance optique de caractères ou d'autres mots permettant de rechercher du texte dans des images. Google avait déjà publié un moteur appelé Tesseract OCR, cela signifie que Google vous fournit un programme dans lequel la reconnaissance de texte est déjà entraînée, donc je n'ai pas à faire des choses compliquées comme entraîner moi-même les données en OCR. Mais pour être plus précis, nous devons prétraiter l'image avant de la transmettre via Tesseract, car Tesseract comporte des circonstances prédéfinies qui doivent être suivies pour obtenir un résultat précis. Ainsi, pour la fonctionnalité de notre extension, elle prend d'abord une capture d'écran de l'onglet actuellement ouvert, puis recadre la partie souhaitée à l'aide du canevas et l'ajuste à l'aide de la binarisation de seuil afin qu'elle puisse remplir les exigences OCR pour donner des résultats plus précis. Envoyez-le ensuite à pytesseract (version Python de Tesseract) pour qu'il puisse le convertir. À la fin, récupérez le texte et téléchargez-le au format de fichier .txt. Ainsi, l'utilisateur peut l'ouvrir dans le bloc-notes ou tout autre éditeur de texte et comparer et modifier le texte si nécessaire.
Je rencontre très souvent des extraits de code sur YouTube ou sur tout autre site Web, même si j'apprécie grandement les efforts déployés par les créateurs de didacticiels dans leurs vidéos chaque fois que je rencontre un morceau de code qui ne fournit pas de lien pour le télécharger ou le copier. Donc, pour obtenir les codes de ces vidéos, j'ai réalisé ce projet avec l'aide du plugin tesseract afin de pouvoir extraire le texte de ces vidéos ou images.
La mise en œuvre et la démonstration des modules peuvent être trouvées dans le ppt.
pip install pytesseract
npm i flask
Le fichier jQuery min est joint aux fichiers au cas où vous souhaiteriez le modifier ou utiliser l'approche cdn, vous pouvez le modifier.