Unduh VOCR - Unduh kode sumber VOCR

VOCR

Kode sumber lainnya

v2.1.0

Unduh

Meningkatkan Aksesibilitas dengan Pengenalan Layar yang Mulus

Selamat datang di VOCR

Temukan kemampuan mutakhir VOCR, alat pengenalan layar bertenaga OCR dan AI terbaik yang dirancang untuk meningkatkan pengalaman aksesibilitas digital Anda. Selain fitur navigasi sederhana dengan OCR, VOCR terintegrasi secara mulus dengan VoiceOver, memungkinkan pengguna dengan mudah menangkap dan mengenali konten layar dengan pintasan yang intuitif dan dapat disesuaikan. Dengan fitur seperti Real-Time OCR, pengguna dapat terus memantau dan membaca konten langsung, seperti subtitle. Fungsi ASK AI memungkinkan Anda memanfaatkan model AI tingkat lanjut, termasuk OpenAI GPT untuk mengajukan pertanyaan mendetail tentang gambar dan menerima jawaban mendalam. Ini juga mendukung model bahasa visi lokal melalui Ollama untuk privasi Anda. Jelajahi dengan AI mengambil langkah lebih jauh dengan menganalisis gambar, mengidentifikasi berbagai area, dan memberikan deskripsi komprehensif.

Rangkaian fitur VOCR yang tangguh menawarkan kontrol dan presisi yang tak tertandingi, menjadikannya alat yang sangat diperlukan bagi pengguna yang mencari solusi OCR yang lancar, efisien, dan sangat fungsional. Baik Anda sedang menavigasi aplikasi yang tidak dapat diakses atau ingin tahu tentang gambar, VOCR memberdayakan Anda untuk melakukan lebih banyak hal dengan mudah dan percaya diri.

PERINGATAN : GUNAKAN RISIKO ANDA SENDIRI!

VOCR didistribusikan dengan harapan dapat bermanfaat, namun TANPA JAMINAN APAPUN, tersurat maupun tersirat, mengenai KELAYAKAN UNTUK DIPERDAGANGKAN atau KESESUAIAN UNTUK TUJUAN TERTENTU. Silakan lihat Lisensi Publik Umum GNU untuk lebih jelasnya.

Unduh

Berikut ini tautan langsung untuk mengunduh VOCR v2.0.1.

Pengaturan

Untuk memastikan VOCR berfungsi dengan baik, penting untuk mengikuti setiap langkah dengan tepat. Melewatkan satu langkah saja dapat mencegah VOCR berfungsi dengan benar.

Setelah membuka kompresi file zip yang diunduh, pindahkan aplikasi ke folder Aplikasi Anda dan jalankan.
Konfirmasikan VOCR sedang berjalan di bilah menu dengan menekan vo+m dua kali.
Di Utilitas VoiceOver, di bawah kategori Umum, centang kotak "Izinkan VoiceOver dikontrol dengan AppleScript."
Jika aktif, matikan tirai layar dengan vo+shift+f11. Perhatikan bahwa tirai layar harus dimatikan agar aplikasi dapat berfungsi dengan baik.
Sembunyikan visual VoiceOver dengan vo+command+f11 jika ditampilkan. Jika tidak disembunyikan, elemen seperti panel keterangan VoiceOver akan dikenali bersama dengan konten layar lainnya.
Tekan perintah+shift+kontrol+w. Anda akan menerima pemberitahuan yang meminta izin aksesibilitas. Jika VoiceOver tidak secara otomatis fokus pada jendela, tekan vo+f1 dua kali untuk menampilkan daftar aplikasi yang sedang berjalan; dialog sistem harus ada dalam daftar ini.
Setelah memberikan izin aksesibilitas, tekan command+shift+control+w lagi untuk menerima notifikasi yang meminta izin bagi VOCR untuk mengambil tangkapan layar. Jika Anda tidak menerima peringatan, cari dialog sistem seperti dijelaskan sebelumnya.
Jika Anda tidak dapat menemukan dialog sistem, buka Pengaturan Sistem, Privasi & Keamanan, lalu pilih Perekaman Layar, dan temukan aplikasi VOCR.
Setelah memberikan izin aksesibilitas, mulai ulang aplikasi seperti yang diminta.
Verifikasikan aplikasi ada di bilah menu dengan menekan vo+m dua kali.
Tekan perintah+shift+kontrol+w. Anda akan mendengar bunyi bip dan perintah suara yang mengatakan "selesai".
Anda sekarang dapat menavigasi hasil yang dikenali menggunakan perintah+kontrol+panah. Lihat bagian pintasan di bawah untuk informasi lebih lanjut.
Saat menavigasi hasil untuk pertama kalinya, sebuah peringatan akan meminta Anda untuk mengizinkan VOCR mengontrol VoiceOver untuk pengumuman ucapan.
Tekan Escape untuk keluar dari mode navigasi VOCR dan mengosongkan pintasan navigasi.

Kursor Sulih Suara OCR

Fitur ini berguna untuk menangkap bagian layar tertentu, seperti pemutar video di halaman web atau gambar di media sosial.

Pindahkan kursor VoiceOver Anda ke elemen yang ingin Anda kenali.
Tekan perintah+shift+kontrol+v.
- Saat pertama kali Anda menggunakan fitur ini, Anda akan menerima peringatan untuk mengizinkan VOCR menjalankan AppleScript.
Setelah memberikan izin, tekan command+shift+control+v lagi.

OCR Waktu Nyata

Tekan Command+Shift+Control+R setelah memindai jendela atau menggunakan VOCursor untuk memulai atau menghentikan OCR real-time. Saat diaktifkan, VOCR akan terus memindai dan hanya melaporkan konten baru. Ini berguna untuk membaca konten langsung seperti subtitle.

Siapkan Model AI

Anda dapat menghosting model bahasa visi Anda sendiri menggunakan Ollama atau memanfaatkan OpenAI GPT untuk mengajukan pertanyaan tentang gambar yang diambil dengan VOCR.

Untuk menggunakan model OpenAI GPT:

Beli kredit API untuk akun Anda.
Buat kunci API OpenAI.
Masukkan kunci API OpenAI Anda di Menu VOCR: Pengaturan > Mesin > Kunci API OpenAI.

Catatan: Mungkin diperlukan waktu beberapa jam agar API Anda aktif setelah membeli kredit.

Biaya penggunaan dari VOCR merupakan perkiraan. Untuk penggunaan dan biaya resmi, silakan merujuk ke Dashboard Penggunaan di situs OpenAI.

Untuk memanfaatkan model bahasa visi lokal dengan Ollama:

Ollama gratis dan bersifat pribadi, tetapi kurang akurat dan memerlukan banyak daya komputasi. Saya merekomendasikan chip M1 atau lebih baru dengan memori minimum 16GB.

Unduh dan instal Ollama.
Unduh model multimodal (bahasa visi) dengan menjalankan perintah berikut di terminal Anda:
```
 ollama pull llava
```

Perhatikan bahwa ada juga model llava:13b dan llava:34b , yang menawarkan akurasi lebih tinggi namun memerlukan lebih banyak penyimpanan, memori, dan daya komputasi.

Anda mungkin juga ingin mencoba aplikasi terkait bernama VOLlama. Ini adalah klien obrolan yang dapat diakses untuk Ollama, memungkinkan Anda berinteraksi dengan mudah dengan model bahasa besar sumber terbuka yang berjalan secara lokal di komputer Anda.

TANYA AI

Setelah menyiapkan OpenAI dan/atau Ollama:

Pilih Ollama atau GPT di Menu VOCR > Pengaturan > Mesin.
Pindai jendela/VOCursor atau ambil gambar dari kamera.
Tekan Command+Shift+Control+A untuk menanyakan model yang dipilih pertanyaan tentang gambar.

Responsnya akan disalin ke clipboard sehingga Anda dapat meninjaunya jika Anda melewatkannya.

Anda juga dapat memilih file gambar di Finder, membuka menu kontekstual dengan VO+Shift+M, buka 'Buka dengan', dan pilih VOCR untuk mengajukan pertanyaan tentang gambar.

Jelajahi dengan AI

Pilih GPT di Menu VOCR > Pengaturan > Mesin.
Berikan kunci API OpenAI Anda di Menu VOCR > Pengaturan > Mesin > Kunci API OpenAI.
Pindai jendela atau gunakan VOCursor.
Tekan Command+Shift+Kontrol+E.

VOCR akan meminta GPT untuk menganalisis gambar tersebut, mengidentifikasi berbagai area, dan menjelaskan isinya masing-masing. Anda dapat menavigasi hasilnya menggunakan pintasan Command + Control + Arrows.

Catatan: Fitur ini bersifat eksperimental dan sering kali menghasilkan deskripsi lokasi dan konten yang tidak akurat.

Pintasan Global

Pintasan ini berfungsi setiap saat:

Menu VOCR: Perintah+Shift+Kontrol+S
Jendela OCR: Command+Shift+Control+W
Kursor VoiceOver OCR: Perintah+Shift+Kontrol+V
Pengambilan Kamera: Command+Shift+Control+C
Beralih OCR Waktu Nyata: Command+Shift+Control+R
Tanyakan AI: Command+Shift+Control+A
Jelajahi dengan AI: Command+Shift+Control+E

Pintasan Navigasi

Pintasan ini hanya berfungsi bila navigasi aktif setelah pemindaian:

Bergerak ke bawah/atas: Command+Control+Panah Bawah/Atas
Bergerak ke kiri/kanan: Command+Control+Panah Kiri/Kanan
Karakter sebelumnya/berikutnya: Command+Shift+Control+Panah Kiri/Kanan
Ke atas/bawah: Command+Control+Page Up/Down
Pergi ke awal/akhir secara horizontal: Command+Control+Home/End
Navigasi keluar: Melarikan diri
Lokasi: Command+Control+L (Melaporkan koordinat saat ini)
Identifikasi Objek: Command+Control+I (Mengidentifikasi objek saat ini dengan AI ketika deteksi objek diaktifkan di pengaturan)

Pengaturan

Akses Menu VOCR dengan Command+Control+Shift+S. Menu ini berisi semua pengaturan dan operasi.

Jendela Target: Memungkinkan Anda memindai jendela yang berbeda dari jendela saat ini.
Pemindaian Otomatis: Memindai secara otomatis setelah mengklik item dengan VO+Shift+Spasi.
Deteksi Objek: Menemukan lokasi objek tanpa teks seperti ikon.
Gunakan Perintah Terakhir: Menggunakan kembali perintah terakhir saat menanyakan AI dengan Command+Shift+Control+A.
Pindahkan Mouse: Memindahkan kursor mouse saat Anda bernavigasi.
Audio Posisi: Memberikan umpan balik audio saat kursor mouse bergerak. Perubahan frekuensi sesuai dengan lokasi vertikal, dan pergeseran audio sesuai dengan posisi horizontal. Jika Anda tidak mendengar tanggapan audio, buka Pengaturan > Output Suara.
Atur Ulang Posisi: Jika dinonaktifkan, kursor tidak akan diatur ulang ke sudut kiri atas setelah setiap pemindaian baru.
Luncurkan saat Login: Secara otomatis menjalankan VOCR saat Anda login.
Log: Mulai menulis log ke VOCR.txt di folder Dokumen Anda.
Output Suara: Pilih perangkat suara untuk umpan balik posisi audio.
Pilih Kamera: Pilih kamera yang akan digunakan untuk mengambil gambar.
Pintasan: Sesuaikan pintasan.
Mesin: Pilih antara GPT atau Ollama.

Perhatikan bahwa Llama.cpp untuk sementara menangguhkan dukungan untuk model bahasa vision di server mereka.

Operasi

Saat Anda membuka menu VOCR, beberapa pengoperasian tersedia setelah pemindaian:

Simpan Gambar Terakhir
Simpan Hasil OCR
Pembaruan

Pemecahan masalah

Jika Anda mendengar "tidak ada yang ditemukan", Anda mungkin perlu mematikan tirai layar VoiceOver dengan vo+shift+f11 atau menyesuaikan izin aksesibilitas dan perekaman layar di Pengaturan Sistem > Privasi & Keamanan.
Jika Anda tidak mendengar apa pun setelah menggunakan fitur "OCR VoiceOver Cursor", Anda mungkin perlu memberikan izin VOCR untuk: mengirim Acara Apple.

Biasanya, meluncurkan kembali VOCR dan mengeluarkan kembali perintah akan memicu kembali peringatan untuk muncul kembali dalam dialog sistem seperti dijelaskan di atas.

Terakhir, selamat menikmati penggunaan VOCR!

Memperluas

Informasi Tambahan

Versi v2.1.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-11-17
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua