Améliorer l'accessibilité grâce à la reconnaissance d'écran transparente
Bienvenue sur VOCR
Découvrez les capacités de pointe de VOCR, votre outil ultime de reconnaissance d'écran basé sur l'OCR et l'IA, conçu pour améliorer votre expérience d'accessibilité numérique. Au-delà de la simple fonctionnalité de navigation avec OCR, VOCR s'intègre parfaitement à VoiceOver, permettant aux utilisateurs de capturer et de reconnaître sans effort le contenu de l'écran grâce à des raccourcis intuitifs et personnalisables. Grâce à des fonctionnalités telles que l'OCR en temps réel, les utilisateurs peuvent surveiller et lire en permanence le contenu en direct, tel que les sous-titres. La fonctionnalité ASK AI vous permet d'exploiter des modèles d'IA avancés, notamment OpenAI GPT, pour poser des questions détaillées sur les images et recevoir des réponses pertinentes. Il prend également en charge les modèles de langage de vision locale via Ollama pour votre confidentialité. Explore with AI va encore plus loin en analysant les images, en identifiant différentes zones et en fournissant des descriptions complètes.
La suite robuste de fonctionnalités de VOCR offre un contrôle et une précision inégalés, ce qui en fait un outil indispensable pour les utilisateurs à la recherche d'une solution OCR transparente, efficace et hautement fonctionnelle. Que vous naviguiez dans des applications inaccessibles ou que vous soyez curieux de connaître les images, VOCR vous permet d'en faire plus en toute simplicité et en toute confiance.
AVERTISSEMENT : UTILISER À VOS PROPRES RISQUES !
VOCR est distribué dans l'espoir qu'il sera utile, mais SANS AUCUNE GARANTIE, expresse ou implicite, de QUALITÉ MARCHANDE ou d'ADAPTATION À UN USAGE PARTICULIER. Veuillez consulter la licence publique générale GNU pour plus de détails.
Télécharger
Voici le lien direct pour télécharger VOCR v2.0.1.
Installation
Pour garantir le bon fonctionnement de VOCR, il est crucial de suivre chaque étape avec précision. Manquer ne serait-ce qu'une étape pourrait empêcher le VOCR de fonctionner correctement.
- Après avoir décompressé le fichier zip téléchargé, déplacez l'application vers votre dossier Applications et exécutez-la.
- Confirmez que VOCR est en cours d'exécution dans la barre de menu en appuyant deux fois sur vo+m.
- Dans VoiceOver Utility, sous la catégorie Général, cochez la case « Autoriser le contrôle de VoiceOver avec AppleScript ».
- S'il est actif, éteignez le rideau d'écran avec vo+shift+f11. Notez que le rideau d'écran doit être désactivé pour que l'application fonctionne correctement.
- Masquez les visuels VoiceOver avec vo+command+f11 s’ils sont affichés. S'ils ne sont pas masqués, des éléments tels que le panneau de sous-titres VoiceOver seront reconnus avec les autres contenus de l'écran.
- Appuyez sur commande+maj+contrôle+w. Vous devriez recevoir une notification demandant une autorisation d’accessibilité. Si VoiceOver ne se concentre pas automatiquement sur la fenêtre, appuyez deux fois sur vo+f1 pour afficher la liste des applications en cours d'exécution ; la boîte de dialogue système devrait être dans cette liste.
- Après avoir accordé l'autorisation d'accessibilité, appuyez à nouveau sur commande+maj+contrôle+w pour recevoir une notification demandant l'autorisation à VOCR de prendre une capture d'écran. Si vous ne recevez pas l'alerte, localisez la boîte de dialogue système comme décrit précédemment.
- Si vous ne parvenez pas à localiser la boîte de dialogue système, accédez à Paramètres système, Confidentialité et sécurité, puis choisissez Enregistrement d'écran et recherchez l'application VOCR.
- Après avoir accordé l'autorisation d'accessibilité, redémarrez l'application lorsque vous y êtes invité.
- Vérifiez que l'application est dans la barre de menu en appuyant deux fois sur vo+m.
- Appuyez sur commande+maj+contrôle+w. Vous devriez entendre un bip et une invite vocale indiquant « terminé ».
- Vous pouvez maintenant parcourir les résultats reconnus à l’aide de commande+contrôle+flèches. Reportez-vous à la section des raccourcis ci-dessous pour plus d'informations.
- Lorsque vous parcourez les résultats pour la première fois, une alerte vous demandera d'autoriser VOCR à contrôler VoiceOver pour les annonces vocales.
- Appuyez sur Échap pour quitter le mode de navigation de VOCR et libérer les raccourcis de navigation.
Curseur VoiceOver OCR
Cette fonctionnalité est utile pour capturer des parties spécifiques d'un écran, comme un lecteur vidéo sur une page Web ou des images sur les réseaux sociaux.
- Déplacez votre curseur VoiceOver sur l'élément que vous souhaitez reconnaître.
- Appuyez sur commande+maj+contrôle+v.
- La première fois que vous utilisez cette fonctionnalité, vous recevrez une alerte pour autoriser VOCR à exécuter AppleScript.
- Après avoir accordé l'autorisation, appuyez à nouveau sur commande+maj+contrôle+v.
ROC en temps réel
Appuyez sur Commande+Maj+Contrôle+R après avoir numérisé une fenêtre ou utilisé VOCursor pour démarrer ou arrêter l'OCR en temps réel. Lorsqu'il est activé, VOCR analysera en permanence et signalera uniquement le nouveau contenu. Ceci est utile pour lire du contenu en direct tel que des sous-titres.
Configurer le modèle IA
Vous pouvez héberger votre propre modèle de langage de vision à l'aide d'Ollama ou utiliser OpenAI GPT pour poser des questions sur les images capturées avec VOCR.
Pour utiliser le modèle OpenAI GPT :
- Achetez des crédits API pour votre compte.
- Créez une clé API OpenAI.
- Entrez votre clé API OpenAI dans le menu VOCR : Paramètres > Moteur > Clé API OpenAI.
Remarque : Plusieurs heures peuvent être nécessaires pour que votre API devienne active après l'achat de crédits.
Le coût d’utilisation de VOCR est une estimation. Pour l'utilisation officielle et le coût, veuillez vous référer au tableau de bord d'utilisation sur le site Web d'OpenAI.
Pour utiliser un modèle de langage de vision local avec Ollama :
Ollama est gratuit et privé, mais il est moins précis et nécessite beaucoup de puissance de calcul. Je recommande la puce M1 ou ultérieure avec un minimum de 16 Go de mémoire.
Téléchargez et installez Ollama.
Téléchargez un modèle multimodal (vision-langage) en exécutant la commande suivante dans votre terminal :
Notez qu'il existe également des modèles llava:13b
et llava:34b
, qui offrent une plus grande précision mais nécessitent plus de stockage, de mémoire et de puissance de calcul.
Vous pouvez également essayer une application connexe appelée VOLlama. Il s'agit d'un client de chat accessible pour Ollama, vous permettant d'interagir facilement avec un grand modèle de langage open source qui s'exécute localement sur votre ordinateur.
DEMANDER À L'IA
Après la configuration d'OpenAI et/ou d'Ollama :
- Choisissez Ollama ou GPT dans Menu VOCR > Paramètres > Moteur.
- Scannez une fenêtre/VOCursor ou capturez une image à partir d'une caméra.
- Appuyez sur Commande+Maj+Contrôle+A pour poser une question sur l'image au modèle sélectionné.
La réponse sera copiée dans le presse-papiers afin que vous puissiez la consulter au cas où vous la manqueriez.
Vous pouvez également sélectionner un fichier image dans le Finder, afficher le menu contextuel avec VO+Shift+M, accéder à « Ouvrir avec » et choisir VOCR pour poser une question sur l'image.
Explorez avec l'IA
- Choisissez GPT dans le menu VOCR > Paramètres > Moteur.
- Fournissez votre clé API OpenAI dans Menu VOCR > Paramètres > Moteur > Clé API OpenAI.
- Scannez une fenêtre ou utilisez VOCursor.
- Appuyez sur Commande+Maj+Contrôle+E.
VOCR demandera à GPT d'analyser l'image, d'identifier différentes zones et de décrire le contenu de chacune. Vous pouvez parcourir les résultats à l’aide des raccourcis Commande + Contrôle + Flèches.
Remarque : Cette fonctionnalité est expérimentale et produit souvent des descriptions inexactes des emplacements et du contenu.
Raccourcis globaux
Ces raccourcis fonctionnent à tout moment :
- Menu VOCR : Commande+Maj+Contrôle+S
- Fenêtre OCR : Commande+Maj+Contrôle+W
- Curseur OCR VoiceOver : Commande+Maj+Contrôle+V
- Capture de la caméra : Commande+Maj+Contrôle+C
- Activer l'OCR en temps réel : Commande+Maj+Contrôle+R
- Demandez à l'IA : Commande+Maj+Contrôle+A
- Explorez avec l'IA : Commande+Maj+Contrôle+E
Raccourcis de navigation
Ces raccourcis ne fonctionnent que lorsque la navigation est active après un scan :
- Déplacer vers le bas/haut : Commande+Contrôle+Flèche bas/haut
- Déplacer vers la gauche/droite : Commande+Contrôle+Flèche gauche/droite
- Caractère précédent/suivant : Commande+Maj+Ctrl+Flèche gauche/droite
- Aller en haut/en bas : Commande+Contrôle+Page précédente/suivante
- Aller au début/fin horizontalement : Commande+Contrôle+Début/Fin
- Quitter la navigation : Échapper
- Emplacement : Commande+Contrôle+L (rapporte les coordonnées actuelles)
- Identifier l'objet : Commande+Contrôle+I (Identifie l'objet actuel avec l'IA lorsque la détection d'objet est activée dans les paramètres)
Paramètres
Accédez au menu VOCR avec Commande+Contrôle+Maj+S. Ce menu contient tous les paramètres et opérations.
- Fenêtre cible : vous permet de numériser une fenêtre différente de la fenêtre actuelle.
- Analyse automatique : analyse automatiquement après avoir cliqué sur un élément avec VO+Shift+Espace.
- Détecter un objet : localise les objets sans texte, tels que les icônes.
- Utiliser la dernière invite : réutilise la dernière invite lorsque vous interrogez l'IA avec Commande+Maj+Contrôle+A.
- Déplacer la souris : Déplace le curseur de la souris lorsque vous naviguez.
- Audio positionnel : fournit un retour audio lorsque le curseur de la souris se déplace. Les changements de fréquence correspondent à l'emplacement vertical et le panoramique audio correspond à la position horizontale. Si vous n'entendez pas le retour audio, accédez à Paramètres > Sortie audio.
- Position de réinitialisation : lorsqu'il est désactivé, le curseur ne sera pas réinitialisé dans le coin supérieur gauche après chaque nouvelle numérisation.
- Lancer à la connexion : exécute automatiquement VOCR lorsque vous vous connectez.
- Journal : commence à écrire des journaux dans VOCR.txt dans votre dossier Documents.
- Sortie audio : choisissez un périphérique sonore pour le retour audio de position.
- Choisir l'appareil photo : sélectionnez l'appareil photo à utiliser pour capturer une image.
- Raccourcis : personnalisez les raccourcis.
- Moteur : Choisissez entre GPT ou Ollama.
Notez que Llama.cpp a temporairement suspendu la prise en charge du modèle de langage de vision sur son serveur.
Opération
Lorsque vous ouvrez le menu VOCR, peu d'opérations sont disponibles après un scan :
- Enregistrer la dernière image
- Enregistrer le résultat OCR
- Mises à jour
Dépannage
- Si vous entendez « rien trouvé », vous devrez probablement désactiver le rideau d'écran VoiceOver avec vo+shift+f11 ou ajuster les autorisations d'accessibilité et d'enregistrement d'écran dans Paramètres système > Confidentialité et sécurité.
- Si vous n'entendez rien après avoir utilisé la fonction « OCR VoiceOver Cursor », vous devrez probablement accorder les autorisations VOCR pour : envoyer des événements Apple.
Habituellement, relancer VOCR et réémettre la commande redéclenche les alertes pour réapparaître dans les boîtes de dialogue système comme décrit ci-dessus.
Enfin, profitez de VOCR !