Add-on ini memungkinkan untuk memperoleh deskripsi rinci untuk gambar, kontrol antarmuka pengguna, dan konten lain yang tidak dapat diakses secara visual.
Memanfaatkan kemampuan multimodal model AI canggih dan algoritme visi komputer, kami bertujuan untuk memberikan deskripsi konten terbaik di kelasnya dan meningkatkan kemandirian secara keseluruhan. Untuk informasi lebih lanjut tentang model yang mendasarinya, lihat bagian terkait dalam dokumen ini.
Jelaskan objek fokus, objek navigator, keseluruhan layar, atau ambil foto dari kamera internal
Jelaskan gambar apa pun yang telah disalin ke clipboard, baik itu gambar dari email atau jalur di windows explorer
Tunjukkan apakah wajah pengguna diposisikan di tengah bingkai menggunakan algoritma visi komputer (tidak memerlukan akses API berbayar)
Mendukung banyak penyedia (GPT4 OpenAI, Gemini Google, Claude 3 Anthropic, dan llama.cpp)
Mendukung berbagai format termasuk PNG (.png), JPEG (.jpeg dan .jpg), WEBP (.webp), dan GIF non-animasi (.gif)
Secara opsional, cache respons untuk mempertahankan kuota API
Untuk penggunaan tingkat lanjut, sesuaikan jumlah prompt dan token untuk menyesuaikan informasi dengan kebutuhan Anda
Render penurunan harga untuk mengakses informasi terstruktur dengan mudah (cukup sematkan, misalnya "respons dalam Penurunan Harga" di akhir permintaan Anda)
Ada beberapa motivasi utama di balik proyek ini.
NVDA mampu melakukan pengenalan karakter optik (OCR) secara langsung, yang merupakan terobosan baru. Jika Anda mencoba mengeluarkan teks dari gambar atau dokumen PDF, inilah yang Anda cari.
Namun, OCR hanya mampu menganalisis data yang mungkin berupa teks. Ia gagal dalam mempertimbangkan konteks, objek, dan hubungan yang disampaikan dalam gambar-gambar tersebut. Dan internet penuh dengan mereka. Logo, potret, meme, ikon, bagan, diagram, grafik batang/garis... Sebut saja. Mereka ada di mana-mana, dan biasanya tidak dalam format yang dapat diinterpretasikan oleh pengguna pembaca layar. Hingga saat ini, terdapat ketergantungan yang tak tergoyahkan pada penulis konten yang menyediakan deskripsi teks alternatif. Meskipun hal ini masih merupakan suatu keharusan, sulit untuk mengubah fakta bahwa standar kualitas yang tinggi merupakan pengecualian, bukan aturan.
Kini, kemungkinannya hampir tidak terbatas. Anda mungkin:
Visualisasikan desktop atau jendela tertentu untuk memahami penempatan ikon saat melatih orang lain
Dapatkan info detail tentang status game, mesin virtual, dll saat suara tidak mencukupi atau tidak tersedia
Cari tahu apa yang ditampilkan dalam grafik
Perjelas tangkapan layar atau pembagian layar di Zoom atau Microsoft Teams
Pastikan wajah Anda terlihat jelas ke kamera dan latar belakang Anda profesional sebelum merekam video atau berpartisipasi dalam rapat online
Visi GPT4
Visi pro Google Gemini
Claude 3 (Haiku, Sonett, dan Opus)
llama.cpp (sangat tidak stabil dan lambat tergantung pada perangkat keras Anda, diuji untuk bekerja dengan model llava-v1.5/1.6, BakLLaVA, Obsidian, dan MobileVLM 1.7B/3B)
Ikuti instruksi yang diberikan di bawah ini agar masing-masing berfungsi.
Unduh rilis terbaru add-on dari tautan ini. Klik file tersebut di komputer dengan NVDA terinstal, lalu ikuti petunjuk di bawah ini untuk mendapatkan kunci API dari penyedia yang didukung. Jika Anda tidak yakin mana yang akan digunakan, konsensus pengembang dan penguji addon ini adalah bahwa Gemini saat ini menawarkan harga yang lebih masuk akal, sementara Open-AI tampaknya memberikan tingkat akurasi yang lebih tinggi. Claude 3 haiku adalah opsi termurah dan tercepat tetapi kualitasnya unggul atau tidak. Tentu saja, hasil ini sangat bergantung pada tugas yang ada, jadi kami menyarankan Anda bereksperimen dengan berbagai model dan petunjuk untuk menemukan mana yang terbaik.
Buka halaman kunci API open-AI
Jika Anda belum memiliki akun, buatlah akun. Jika ya, masuklah.
Pada halaman kunci API, klik untuk membuat kunci rahasia baru. Salin ke papan klip Anda.
Danai akun dengan setidaknya $1
Dalam dialog pengaturan NVDA, gulir ke bawah ke kategori AI Content Description, lalu pilih "kelola model (alt+m)", pilih "GPT4 Vision" sebagai penyedia, tab ke dalam bidang kunci API, dan tempelkan kunci yang baru saja Anda buat Di Sini.
Pada saat artikel ini ditulis, Open-AI mengeluarkan kredit ke akun pengembang baru yang dapat digunakan selama tiga bulan, setelah itu kredit tersebut akan hilang. Setelah periode ini, Anda harus membeli kredit. Penggunaan umum tidak boleh melebihi $5,00 per bulan. Sebagai referensi, versi asli dari pengaya ini dikembangkan dengan harga sedikit di bawah satu dolar. Anda selalu bisa login ke akun OpenAI Anda dan klik "penggunaan" untuk mendapatkan kuota Anda.
Pertama-tama Anda harus membuat proyek ruang kerja Google dengan membuka konsol cloud Google. Pastikan Anda masuk ke akun Google Anda.
Buat nama antara empat hingga tiga puluh karakter, seperti "Gemini" atau "NVDA add-on"
Navigasikan ke halaman kunci API Google AI studio
Klik "buat kunci API"
Dalam dialog pengaturan NVDA, gulir ke bawah ke kategori AI Content Description, lalu pilih "kelola model (alt+m)", pilih "Google Gemini" sebagai penyedia Anda, masukkan tab ke dalam bidang kunci API, dan tempelkan kunci yang baru saja Anda buat Di Sini.
Masuk ke konsol Anthropic.
Klik pada profil Anda -> kunci API.
Klik Buat Kunci.
Masukkan nama untuk kunci tersebut, seperti "AIContentDescriber", lalu klik "Buat Kunci" dan salin nilai yang muncul. Ini adalah apa yang akan Anda tempelkan ke bidang kunci API di bawah kategori Ai Content Description pada dialog pengaturan NVDA -> kelola model -> Claude 3.
Jika Anda belum melakukannya, belilah kredit minimal $5 di halaman paket antropik.
Penyedia ini saat ini agak bermasalah, dan jarak tempuh Anda mungkin sangat bermasalah. Ini seharusnya hanya dilakukan oleh pengguna tingkat lanjut yang berkepentingan untuk menjalankan model lokal yang dihosting sendiri, dan perangkat keras untuk melakukannya.
Unduh llama.cpp. Pada saat penulisan ini, permintaan tarik ini menghilangkan kemampuan multimodal sehingga Anda ingin menggunakan versi terakhir yang mendukung ini. Jika Anda menggunakan adaptor grafis Nvidia dengan dukungan CUDA, unduh biner bawaan berikut: llama-b2356-bin-win-cublas-cu12.2.0-x64.zip dan cudart-llama-bin-win-cu12.2.0-x64. zip Langkah-langkah untuk bekerja dengan adaptor grafis yang berbeda berada di luar cakupan, tetapi dapat ditemukan di readme llama.cpp.
Ekstrak kedua file ini ke dalam folder yang sama.
Temukan format terkuantisasi model yang ingin Anda gunakan dari Huggingface. Untuk LLaVA 1.6 Vicuna 7B: llava-v1.6-vicuna-7b.Q4_K_M.gguf dan mmproj-model-f16.gguf
Letakkan file-file ini di folder dengan binari llama.cpp lainnya.
Dari prompt perintah, jalankan biner server llava.cpp, meneruskan file .gguf untuk model dan proyektor multimodal (sebagai berikut):
server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf
Dalam dialog pengaturan NVDA, gulir ke bawah ke kategori AI Content Description, lalu pilih "kelola model (alt+m)", pilih "llama.cpp" sebagai penyedia Anda, masukkan tab ke dalam bidang URL dasar, dan masukkan titik akhir yang ditunjukkan di konsol (defaultnya adalah "http://localhost:8080").
Alternatifnya, Anda dapat menghilangkan beberapa langkah ini dan menjalankan llama.cpp di server jarak jauh dengan spesifikasi lebih tinggi dari mesin lokal Anda, lalu masukkan titik akhir tersebut.
Empat hotkey terikat secara default:
NVDA+shift+i: Muncul menu yang menanyakan apakah akan mendeskripsikan fokus saat ini, objek navigator, kamera fisik, atau seluruh layar dengan AI.
NVDA+shift+u: Menjelaskan konten objek navigator saat ini menggunakan AI.
NVDA+shift+y: Menjelaskan gambar (atau jalur file ke gambar) di clipboard menggunakan AI.
NVDA+shift+j: Menjelaskan posisi wajah Anda dalam bingkai kamera yang dipilih. Jika Anda memiliki beberapa kamera yang terhubung, navigasikan ke menu penjelas konten AI (NVDA+shift+i) dan pilih salah satu yang ingin Anda gunakan dengan item "pilih kamera" di submenu deteksi wajah.
Tiga isyarat tidak terikat:
Jelaskan isi item yang saat ini difokuskan menggunakan AI.
Ambil screenshot, lalu deskripsikan menggunakan AI.
Ambil gambar menggunakan kamera yang dipilih, lalu deskripsikan menggunakan AI.
Jangan ragu untuk menyesuaikannya kapan saja dari dialog masukan isyarat.
Untuk membuat paket tambahan dari sumber, Anda memerlukan:
distribusi Python (disarankan 3.7 atau lebih baru). Periksa Situs Web Python untuk Penginstal Windows. Harap diperhatikan bahwa saat ini, menyiapkan kode sumber NVDA dan menyertakan modul pihak ketiga memerlukan Python 3.7 versi 32-bit.
Scons - Situs Web - versi 4.3.0 atau lebih baru. Anda dapat menginstalnya melalui PIP. pip install scons
Penurunan harga 3.3.0 atau lebih baru. pip install markdown
Kemudian buka terminal pilihan Anda:
git clone https://github.com/cartertemm/AI-content-describer.git cd AI-content-describer scons
Setelah perintah scons
selesai dijalankan, file *.nvda-addon akan ditempatkan di root repositori ini siap untuk pengujian dan rilis.
Jika Anda menambahkan string tambahan yang perlu diterjemahkan, penting untuk membangun kembali file .pot seperti ini:
scons pot
Di mesin windows:
unduh poedit. Ini adalah perangkat lunak yang akan Anda gunakan untuk menerjemahkan setiap pesan dari bahasa Inggris.
unduh file .pot dengan semua stringnya di sini
Buka file yang baru saja Anda unduh di program poedit. Klik "Buat terjemahan baru" di jendela yang muncul, lalu pilih bahasa target.
Telusuri dan ubah isi teks sumber ke dalam bahasa target, lalu tempelkan ke kolom terjemahan. Untuk bantuan tambahan, silakan klik kanan item daftar -> kemunculan kode, lalu naik satu baris untuk membaca komentar yang dimulai dengan "# Penerjemah:". Komentar-komentar ini juga tersedia di satu tempat di file .pot.
Jika sudah, klik file -> simpan atau tekan ctrl+s lalu pilih lokasi penyimpanan file .mo dan .po baru. Ini adalah file yang harus dikirimkan ke email saya atau dilampirkan dalam permintaan penarikan.
Terjemahkan isi readme.md (file ini). Lampirkan juga!
Semuanya sangat dihargai dan akan dihargai. Orang-orang berikut telah mengerjakan addon tersebut.
Mazen: implementasi penurunan harga, kontribusi kode lainnya
Kostenkov-2021: Terjemahan Rusia
Nidza07: Terjemahan Serbia
Heorhii Halas: Terjemahan Ukraina
Umut Korkmaz: Terjemahan Turki
Platinum_Hikari: Terjemahan Perancis
Lukas: Terjemahan Ceko
Michaela: Terjemahan Slovakia
Menghadapi masalah? Kirimkan ke pelacak masalah
Punya saran untuk fitur baru? Buat tiket untuk itu juga, dan kita bisa membicarakan penerapannya. Permintaan penarikan tanpa masalah terkait akan ditinjau, namun kemungkinan akan memakan lebih banyak waktu bagi semua orang, terutama jika saya memutuskan perbaikan atau fungsionalitas baru perlu bekerja secara berbeda dari yang diusulkan.
Terjemahan disambut dengan tangan terbuka. Semakin banyak orang yang dapat mengakses teknologi canggih ini, semakin baik!
Jika Anda tidak memiliki Github, atau memilih untuk tidak menggunakannya, Anda dapat mengirimi saya email - cartertemm (at) gmail (dot) com.
Terima kasih atas dukungannya!