Verbesserung der Barrierefreiheit durch nahtlose Bildschirmerkennung
Willkommen bei VOCR
Entdecken Sie die hochmodernen Funktionen von VOCR, Ihrem ultimativen OCR- und KI-gestützten Bildschirmerkennungstool, das Ihr digitales Barrierefreiheitserlebnis verbessern soll. Über die einfache Navigationsfunktion mit OCR hinaus lässt sich VOCR nahtlos in VoiceOver integrieren, sodass Benutzer Bildschirminhalte mit intuitiven und anpassbaren Verknüpfungen mühelos erfassen und erkennen können. Mit Funktionen wie Echtzeit-OCR können Benutzer Live-Inhalte wie Untertitel kontinuierlich überwachen und lesen. Mit der ASK AI-Funktionalität können Sie fortschrittliche KI-Modelle, einschließlich OpenAI GPT, nutzen, um detaillierte Fragen zu Bildern zu stellen und aufschlussreiche Antworten zu erhalten. Zum Schutz Ihrer Privatsphäre werden über Ollama auch lokale Vision-Sprachmodelle unterstützt. „Explore with AI“ geht noch einen Schritt weiter, indem es Bilder analysiert, verschiedene Bereiche identifiziert und umfassende Beschreibungen bereitstellt.
Die robuste Funktionssuite von VOCR bietet beispiellose Kontrolle und Präzision und macht es zu einem unverzichtbaren Werkzeug für Benutzer, die eine nahtlose, effiziente und hochfunktionale OCR-Lösung suchen. Ganz gleich, ob Sie durch unzugängliche Anwendungen navigieren oder neugierig auf Bilder sind – mit VOCR können Sie mühelos und sicher mehr erledigen.
ACHTUNG : NUTZUNG AUF EIGENE GEFAHR!
VOCR wird in der Hoffnung verbreitet, dass es nützlich ist, jedoch OHNE JEGLICHE ausdrückliche oder stillschweigende Gewährleistung der MARKTGÄNGIGKEIT oder EIGNUNG FÜR EINEN BESTIMMTEN ZWECK. Weitere Einzelheiten finden Sie in der GNU General Public License.
Herunterladen
Hier ist der direkte Link zum Herunterladen von VOCR v2.0.1.
Aufstellen
Um sicherzustellen, dass VOCR ordnungsgemäß funktioniert, ist es wichtig, jeden Schritt genau zu befolgen. Das Fehlen auch nur eines Schritts könnte dazu führen, dass VOCR nicht richtig funktioniert.
- Nachdem Sie die heruntergeladene ZIP-Datei dekomprimiert haben, verschieben Sie die Anwendung in Ihren Anwendungsordner und führen Sie sie aus.
- Bestätigen Sie, dass VOCR in der Menüleiste ausgeführt wird, indem Sie zweimal vo+m drücken.
- Aktivieren Sie im VoiceOver-Dienstprogramm in der Kategorie „Allgemein“ das Kontrollkästchen „VoiceOver-Steuerung mit AppleScript zulassen“.
- Wenn aktiv, schalten Sie den Bildschirmvorhang mit vo+shift+f11 aus. Beachten Sie, dass der Bildschirmvorhang ausgeschaltet sein muss, damit die App ordnungsgemäß funktioniert.
- Blenden Sie VoiceOver-Visuals mit „VO+Befehl+F11“ aus, wenn sie angezeigt werden. Wenn sie nicht ausgeblendet sind, werden Elemente wie das VoiceOver-Untertitelfeld zusammen mit anderen Bildschirminhalten erkannt.
- Drücken Sie Befehl+Umschalt+Strg+W. Sie sollten eine Benachrichtigung erhalten, in der Sie um die Erlaubnis zur Barrierefreiheit gebeten werden. Wenn sich VoiceOver nicht automatisch auf das Fenster konzentriert, drücken Sie zweimal vo+f1, um die Liste der aktuell ausgeführten Apps anzuzeigen. Der Systemdialog sollte in dieser Liste enthalten sein.
- Nachdem Sie die Barrierefreiheitsberechtigung erteilt haben, drücken Sie erneut Befehl+Umschalt+Strg+W, um eine Benachrichtigung zu erhalten, in der Sie um Erlaubnis für VOCR zum Erstellen eines Screenshots gebeten werden. Wenn Sie die Warnung nicht erhalten, suchen Sie wie zuvor beschrieben nach dem Systemdialog.
- Wenn Sie den Systemdialog nicht finden können, gehen Sie zu Systemeinstellungen, Datenschutz und Sicherheit, wählen Sie dann Bildschirmaufzeichnung und suchen Sie die VOCR-App.
- Nachdem Sie die Zugriffsberechtigung erteilt haben, starten Sie die App entsprechend der Aufforderung neu.
- Überprüfen Sie, ob sich die App in der Menüleiste befindet, indem Sie zweimal „vo+m“ drücken.
- Drücken Sie Befehl+Umschalt+Strg+W. Sie sollten einen Piepton und die Sprachansage „Fertig“ hören.
- Sie können jetzt mit Befehl+Strg+Pfeil durch die erkannten Ergebnisse navigieren. Weitere Informationen finden Sie im Abschnitt „Verknüpfungen“ weiter unten.
- Wenn Sie zum ersten Mal durch die Ergebnisse navigieren, werden Sie durch eine Warnung aufgefordert, VOCR die Steuerung von VoiceOver für Sprachansagen zu erlauben.
- Drücken Sie Escape, um den Navigationsmodus von VOCR zu verlassen und Navigationsverknüpfungen freizugeben.
OCR VoiceOver-Cursor
Diese Funktion ist nützlich, um bestimmte Teile eines Bildschirms zu erfassen, beispielsweise einen Videoplayer auf einer Webseite oder Bilder in sozialen Medien.
- Bewegen Sie Ihren VoiceOver-Cursor auf das Element, das Sie erkennen möchten.
- Drücken Sie Befehl+Umschalt+Strg+V.
- Wenn Sie diese Funktion zum ersten Mal verwenden, erhalten Sie eine Benachrichtigung, um VOCR die Ausführung von AppleScript zu erlauben.
- Nachdem Sie die Berechtigung erteilt haben, drücken Sie erneut Befehl+Umschalt+Strg+V.
Echtzeit-OCR
Drücken Sie Befehl+Umschalt+Strg+R, nachdem Sie ein Fenster gescannt oder VOCursor verwendet haben, um die Echtzeit-OCR zu starten oder zu stoppen. Wenn VOCR aktiviert ist, scannt und meldet VOCR kontinuierlich nur neue Inhalte. Dies ist nützlich, um Live-Inhalte wie Untertitel zu lesen.
KI-Modell einrichten
Sie können Ihr eigenes Vision-Sprachmodell mit Ollama hosten oder OpenAI GPT nutzen, um Fragen zu mit VOCR aufgenommenen Bildern zu stellen.
So verwenden Sie das OpenAI GPT-Modell:
- Kaufen Sie API-Guthaben für Ihr Konto.
- Erstellen Sie einen OpenAI-API-Schlüssel.
- Geben Sie Ihren OpenAI-API-Schlüssel im VOCR-Menü ein: Einstellungen > Engine > OpenAI-API-Schlüssel.
Hinweis: Nach dem Kauf von Credits kann es mehrere Stunden dauern, bis Ihre API aktiv wird.
Bei den Nutzungskosten von VOCR handelt es sich um eine Schätzung. Die offizielle Nutzung und die Kosten finden Sie im Nutzungs-Dashboard auf der OpenAI-Website.
So verwenden Sie ein lokales Vision-Sprachmodell mit Ollama:
Ollama ist kostenlos und privat, aber es ist weniger genau und erfordert viel Rechenleistung. Ich empfehle einen M1-Chip oder höher mit mindestens 16 GB Speicher.
Laden Sie Ollama herunter und installieren Sie es.
Laden Sie ein multimodales (Vision-Language-)Modell herunter, indem Sie den folgenden Befehl in Ihrem Terminal ausführen:
Beachten Sie, dass es auch die Modelle llava:13b
und llava:34b
gibt, die eine höhere Genauigkeit bieten, aber mehr Speicher, Arbeitsspeicher und Rechenleistung erfordern.
Vielleicht möchten Sie auch eine verwandte App namens VOLlama ausprobieren. Es handelt sich um einen zugänglichen Chat-Client für Ollama, der Ihnen die einfache Interaktion mit einem großen Open-Source-Sprachmodell ermöglicht, das lokal auf Ihrem Computer ausgeführt wird.
FRAGEN SIE AI
Nach der Einrichtung von OpenAI und/oder Ollama:
- Wählen Sie Ollama oder GPT im VOCR-Menü > Einstellungen > Engine.
- Scannen Sie ein Fenster/VOCursor oder erfassen Sie ein Bild von einer Kamera.
- Drücken Sie Befehl+Umschalt+Strg+A, um dem ausgewählten Modell eine Frage zum Bild zu stellen.
Die Antwort wird in die Zwischenablage kopiert, sodass Sie sie überprüfen können, falls Sie sie verpassen.
Sie können auch eine Bilddatei im Finder auswählen, das Kontextmenü mit VO+Umschalt+M aufrufen, auf „Öffnen mit“ gehen und VOCR wählen, um eine Frage zum Bild zu stellen.
Entdecken Sie mit KI
- Wählen Sie GPT im VOCR-Menü > Einstellungen > Engine.
- Geben Sie Ihren OpenAI-API-Schlüssel unter VOCR-Menü > Einstellungen > Engine > OpenAI-API-Schlüssel an.
- Scannen Sie ein Fenster oder verwenden Sie VOCursor.
- Drücken Sie Befehl+Umschalt+Strg+E.
VOCR wird GPT bitten, das Bild zu analysieren, verschiedene Bereiche zu identifizieren und deren Inhalte zu beschreiben. Sie können durch die Ergebnisse navigieren, indem Sie die Tastenkombinationen Befehl + Strg + Pfeile verwenden.
Hinweis: Diese Funktion ist experimentell und führt häufig zu ungenauen Beschreibungen von Orten und Inhalten.
Globale Verknüpfungen
Diese Verknüpfungen funktionieren jederzeit:
- VOCR-Menü: Befehl+Umschalt+Strg+S
- OCR-Fenster: Befehl+Umschalt+Strg+W
- OCR VoiceOver-Cursor: Befehl+Umschalt+Strg+V
- Kameraaufnahme: Befehl+Umschalt+Strg+C
- Echtzeit-OCR umschalten: Befehl+Umschalt+Strg+R
- AI fragen: Befehl+Umschalt+Strg+A
- Mit KI erkunden: Befehl+Umschalt+Strg+E
Navigationsverknüpfungen
Diese Verknüpfungen funktionieren nur, wenn die Navigation nach einem Scan aktiv ist:
- Nach unten/oben bewegen: Befehl+Strg+Pfeil nach unten/oben
- Nach links/rechts bewegen: Befehl+Strg+Links-/Rechtspfeil
- Vorheriges/nächstes Zeichen: Befehl+Umschalt+Strg+Links-/Rechtspfeil
- Nach oben/unten gehen: Befehl+Strg+Bild auf/ab
- Horizontal zum Anfang/Ende gehen: Befehl+Strg+Pos1/Ende
- Navigation verlassen: Escape
- Ort: Befehl+Strg+L (Meldet aktuelle Koordinaten)
- Objekt identifizieren: Befehl+Strg+I (Identifiziert das aktuelle Objekt mit KI, wenn die Objekterkennung in den Einstellungen aktiviert ist)
Einstellungen
Greifen Sie mit Befehl+Strg+Umschalt+S auf das VOCR-Menü zu. Dieses Menü enthält alle Einstellungen und Vorgänge.
- Zielfenster: Ermöglicht Ihnen, ein anderes Fenster als das aktuelle zu scannen.
- Autoscan: Scannt automatisch, nachdem mit VO+Umschalt+Leertaste auf ein Element geklickt wurde.
- Objekt erkennen: Findet Objekte ohne Text, z. B. Symbole.
- Letzte Eingabeaufforderung verwenden: Verwendet die letzte Eingabeaufforderung wieder, wenn AI mit Befehl+Umschalt+Strg+A gefragt wird.
- Maus bewegen: Bewegt den Mauszeiger beim Navigieren.
- Positionsaudio: Bietet Audio-Feedback, während sich der Mauszeiger bewegt. Frequenzänderungen entsprechen der vertikalen Position und Audioschwenks entsprechen der horizontalen Position. Wenn Sie kein Audio-Feedback hören, gehen Sie zu Einstellungen > Tonausgabe.
- Position zurücksetzen: Wenn diese Option deaktiviert ist, wird der Cursor nach jedem neuen Scan nicht in die obere linke Ecke zurückgesetzt.
- Beim Anmelden starten: VOCR wird automatisch ausgeführt, wenn Sie sich anmelden.
- Protokoll: Beginnt mit dem Schreiben von Protokollen in VOCR.txt in Ihrem Dokumentenordner.
- Tonausgabe: Wählen Sie ein Tongerät für die akustische Positionsrückmeldung.
- Kamera auswählen: Wählen Sie die Kamera aus, die zum Aufnehmen eines Bildes verwendet werden soll.
- Verknüpfungen: Verknüpfungen anpassen.
- Engine: Wählen Sie zwischen GPT oder Ollama.
Beachten Sie, dass Llama.cpp die Unterstützung für das Vision-Sprachmodell auf ihrem Server vorübergehend eingestellt hat.
Betrieb
Wenn Sie das VOCR-Menü öffnen, sind nach einem Scan einige Vorgänge verfügbar:
- Letztes Bild speichern
- OCR-Ergebnis speichern
- Aktualisierungen
Fehlerbehebung
- Wenn Sie „nichts gefunden“ hören, müssen Sie wahrscheinlich den VoiceOver-Bildschirmvorhang mit VO+Umschalt+F11 ausschalten oder die Barrierefreiheit und Bildschirmaufzeichnungsberechtigungen unter „Systemeinstellungen“ > „Datenschutz und Sicherheit“ anpassen.
- Wenn Sie nach der Verwendung der Funktion „OCR VoiceOver Cursor“ nichts hören, müssen Sie wahrscheinlich VOCR-Berechtigungen erteilen, um: Apple Events zu senden.
Normalerweise führt ein Neustart von VOCR und die erneute Ausgabe des Befehls dazu, dass die Warnungen erneut in den Systemdialogen angezeigt werden, wie oben beschrieben.
Abschließend wünschen wir Ihnen viel Spaß bei der Nutzung von VOCR!