تتيح هذه الوظيفة الإضافية إمكانية الحصول على أوصاف تفصيلية للصور وعناصر تحكم واجهة المستخدم والمحتويات الأخرى التي لا يمكن الوصول إليها بصريًا.
من خلال الاستفادة من إمكانات الوسائط المتعددة لنماذج الذكاء الاصطناعي المتقدمة وخوارزميات رؤية الكمبيوتر، فإننا نهدف إلى تقديم أوصاف المحتوى الأفضل في فئتها وزيادة الاستقلالية بشكل عام. لمزيد من المعلومات حول النماذج الأساسية، راجع القسم المقابل من هذه الوثيقة.
قم بوصف كائن التركيز، أو كائن المستكشف، أو الشاشة بأكملها، أو التقط صورة من الكاميرا المدمجة
وصف أي صورة تم نسخها إلى الحافظة، سواء كانت صورة من بريد إلكتروني أو مسار في مستكشف Windows
وضح ما إذا كان وجه المستخدم موضوعًا في وسط الإطار باستخدام خوارزميات رؤية الكمبيوتر (لا يتطلب الوصول المدفوع لواجهة برمجة التطبيقات)
يدعم العديد من مقدمي الخدمات (OpenAI's GPT4، وGoogle's Gemini، وAnthropic's Claude 3، وllama.cpp)
يدعم مجموعة واسعة من التنسيقات بما في ذلك PNG (.png)، وJPEG (.jpeg و.jpg)، وWEBP (.webp)، وGIF غير المتحركة (.gif)
يقوم بشكل اختياري بتخزين الاستجابات مؤقتًا للحفاظ على حصة واجهة برمجة التطبيقات (API).
للاستخدام المتقدم، قم بتخصيص عدد المطالبات والرموز المميزة لتخصيص المعلومات وفقًا لاحتياجاتك
عرض Markdown للوصول بسهولة إلى المعلومات المنظمة (فقط قم بتضمين "الاستجابة في Markdown" على سبيل المثال في نهاية المطالبات الخاصة بك)
كانت هناك بعض الدوافع الأساسية وراء هذا المشروع.
إن NVDA قادر على التعرف البصري على الحروف (OCR) خارج الصندوق، وهو ما يغير قواعد اللعبة. إذا كنت تحاول إخراج نص من صورة أو مستند PDF، فهذا هو ما تبحث عنه.
ومع ذلك، فإن تقنية التعرف الضوئي على الحروف (OCR) قادرة فقط على تحليل البيانات التي قد تكون نصية. إنه يقصر في النظر في السياق والأشياء والعلاقات المنقولة في تلك الصور. والإنترنت مليء بهم. الشعارات والصور الشخصية والميمات والأيقونات والمخططات والرسوم البيانية والرسوم البيانية الشريطية/الخطية... سمها ما شئت. إنها موجودة في كل مكان، وعادةً لا تكون بتنسيق يمكن لمستخدمي قارئ الشاشة تفسيره. حتى وقت قريب، كان هناك اعتماد ثابت على مؤلفي المحتوى الذين يقدمون أوصافًا بديلة للنص. وفي حين أن هذا لا يزال أمرًا ضروريًا، فإنه من الصعب تغيير حقيقة أن مستوى الجودة العالي هو الاستثناء وليس القاعدة.
الآن، الاحتمالات لا حصر لها تقريبا. ربما يمكنك:
تصور سطح المكتب أو نافذة معينة لفهم موضع الرموز عند تدريب الآخرين
احصل على معلومات تفصيلية حول حالة الألعاب والأجهزة الافتراضية وما إلى ذلك عندما يكون الصوت غير كافٍ أو غير متوفر
معرفة ما يتم عرضه في الرسم البياني
قم بإزالة الغموض عن لقطات الشاشة أو مشاركات الشاشة في Zoom أو Microsoft Teams
تأكد من أن وجهك ينظر بوضوح إلى الكاميرا وأن خلفيتك احترافية قبل تسجيل مقاطع الفيديو أو المشاركة في الاجتماعات عبر الإنترنت
رؤية جي بي تي 4
رؤية جوجل جيميني الاحترافية
كلود 3 (هايكو، سونيت، وأوبوس)
llama.cpp (غير مستقر وبطيء للغاية اعتمادًا على أجهزتك، وتم اختباره للعمل مع نماذج llava-v1.5/1.6 وBakLLaVA وObsidian وMobileVLM 1.7B/3B)
اتبع الإرشادات الواردة أدناه للحصول على كل من هذه العمل.
قم بتنزيل الإصدار الأخير من الإضافة من هذا الرابط. انقر على الملف الموجود على جهاز الكمبيوتر المثبت عليه NVDA، ثم اتبع الإرشادات أدناه للحصول على مفتاح واجهة برمجة التطبيقات (API) من مزود معتمد. إذا لم تكن متأكدًا من الخيار الذي ستستخدمه، فإن إجماع مطوري ومختبري هذا الملحق هو أن Gemini يقدم حاليًا أسعارًا أكثر معقولية، بينما يبدو أن Open-AI يوفر درجة أعلى من الدقة. يعد كلود 3 هايكو الخيار الأرخص والأسرع ولكن الجودة قد تكون ناجحة أو مفقودة. وبطبيعة الحال، تعتمد هذه النتائج بشكل كبير على المهمة المطروحة، لذلك نوصي بتجربة نماذج ومطالبات مختلفة للعثور على ما يعمل بشكل أفضل.
انتقل إلى الصفحة الرئيسية لواجهة برمجة التطبيقات الخاصة بـ open-AI
إذا لم يكن لديك حساب بعد، قم بإنشاء واحد. إذا قمت بذلك، قم بتسجيل الدخول.
في صفحة مفاتيح API، انقر لإنشاء مفتاح سري جديد. انسخه إلى الحافظة الخاصة بك.
قم بتمويل الحساب بما لا يقل عن 1 دولار
في مربع حوار إعدادات NVDA، مرر للأسفل إلى فئة AI Content Descriptioner، ثم اختر "إدارة النماذج (alt+m)"، ثم اختر "GPT4 Vision" كموفر، ثم اضغط على حقل مفتاح API، ثم الصق المفتاح الذي أنشأته للتو. هنا.
في وقت كتابة هذه السطور، تصدر Open-AI أرصدة لحسابات المطورين الجديدة التي يمكن استخدامها لمدة ثلاثة أشهر، وبعد ذلك يتم فقدانها. بعد هذه الفترة، سيكون عليك شراء الاعتمادات. يجب ألا يتجاوز الاستخدام النموذجي 5.00 دولارات شهريًا. كمرجع، تم تطوير النسخة الأصلية من هذه الوظيفة الإضافية مقابل أقل قليلاً من دولار واحد. من الممكن دائمًا تسجيل الدخول إلى حساب OpenAI الخاص بك والنقر على "الاستخدام" للحصول على حصتك.
ستحتاج أولاً إلى إنشاء مشروع مساحة عمل Google بالانتقال إلى Google Cloud Console. تأكد من تسجيل الدخول إلى حساب جوجل الخاص بك.
إنشاء اسم يتراوح بين أربعة إلى ثلاثين حرفًا، مثل "Gemini" أو "NVDA add-on"
انتقل إلى صفحة مفاتيح Google AI studio API
انقر فوق "إنشاء مفتاح API"
في مربع حوار إعدادات NVDA، مرر للأسفل إلى فئة AI Content Descriptioner، ثم اختر "إدارة النماذج (alt+m)"، ثم اختر "Google Gemini" كمزود الخدمة، ثم اضغط على حقل مفتاح API، ثم الصق المفتاح الذي أنشأته للتو. هنا.
تسجيل الدخول إلى وحدة التحكم الأنثروبي.
انقر على ملف التعريف الخاص بك -> مفاتيح API.
انقر فوق إنشاء مفتاح.
أدخل اسمًا للمفتاح، مثل "AIContentDescriber"، ثم انقر على "إنشاء مفتاح" وانسخ القيمة التي تظهر. هذا هو ما ستلصقه في حقل مفتاح واجهة برمجة التطبيقات (API) ضمن فئة Ai Content Describer بمربع حوار إعدادات NVDA -> إدارة النماذج -> Claude 3.
إذا لم تكن قد قمت بذلك بالفعل، فقم بشراء ما لا يقل عن 5 دولارات من الأرصدة ضمن صفحة الخطط الإنسانية.
هذا المزود حاليًا به عربات التي تجرها الدواب إلى حد ما، وقد تكون المسافة المقطوعة الخاصة بك كبيرة جدًا. يجب أن يتم تجربتها فقط من قبل المستخدمين المتقدمين المهتمين بتشغيل النماذج المحلية ذاتية الاستضافة، والأجهزة اللازمة للقيام بذلك.
تحميل llama.cpp. في وقت كتابة هذه السطور، يزيل طلب السحب هذا إمكانات الوسائط المتعددة، لذا ستحتاج إلى استخدام الإصدار الأخير مع دعم لذلك. إذا كنت تعمل على محول رسومات Nvidia مع دعم CUDA، فقم بتنزيل هذه الثنائيات المعدة مسبقًا: llama-b2356-bin-win-cublas-cu12.2.0-x64.zip وcudart-llama-bin-win-cu12.2.0-x64. zip خطوات العمل باستخدام محول رسومات مختلف خارج النطاق، ولكن يمكن العثور عليها في الملف التمهيدي llama.cpp.
قم باستخراج هذين الملفين في نفس المجلد.
حدد التنسيقات الكمية للنماذج التي ترغب في استخدامها من Huggingface. بالنسبة إلى LLaVA 1.6 Vicuna 7B: llava-v1.6-vicuna-7b.Q4_K_M.gguf وmmproj-model-f16.gguf
ضع هذه الملفات في المجلد مع بقية ثنائيات llama.cpp.
من موجه الأوامر، قم بتشغيل خادم llava.cpp الثنائي، وتمرير ملفات .gguf للنموذج وجهاز العرض متعدد الوسائط (كما يلي):
server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf
في مربع حوار إعدادات NVDA، مرر للأسفل إلى فئة AI Content Descriptioner، ثم اختر "إدارة النماذج (alt+m)"، ثم اختر "llama.cpp" كمزود الخدمة، ثم اضغط على حقل عنوان URL الأساسي، ثم أدخل نقطة النهاية الموضحة في وحدة التحكم (الإعداد الافتراضي هو "http://localhost:8080").
وبدلاً من ذلك، يمكنك حذف بعض هذه الخطوات وتشغيل llama.cpp على خادم بعيد بمواصفات أعلى من جهازك المحلي، ثم إدخال نقطة النهاية تلك بدلاً من ذلك.
يتم ربط أربعة مفاتيح تشغيل سريع بشكل افتراضي:
NVDA+shift+i: تظهر قائمة تسألك عما إذا كنت تريد وصف التركيز الحالي أو كائن المتصفح أو الكاميرا الفعلية أو الشاشة بأكملها باستخدام الذكاء الاصطناعي.
NVDA+shift+u: وصف محتويات كائن المتصفح الحالي باستخدام الذكاء الاصطناعي.
NVDA+shift+y: وصف الصورة (أو مسار الملف إلى الصورة) في الحافظة باستخدام الذكاء الاصطناعي.
NVDA+shift+j: قم بوصف موضع وجهك في إطار الكاميرا المحددة. إذا كانت لديك عدة كاميرات متصلة، انتقل إلى قائمة واصف محتوى الذكاء الاصطناعي (NVDA+shift+i) واختر الكاميرا التي ترغب في استخدامها مع عنصر "تحديد كاميرا" في القائمة الفرعية لاكتشاف الوجه.
ثلاث إيماءات غير مقيدة:
وصف محتويات العنصر الذي يتم التركيز عليه حاليًا باستخدام الذكاء الاصطناعي.
التقط لقطة شاشة، ثم قم بوصفها باستخدام الذكاء الاصطناعي.
التقط صورة باستخدام الكاميرا المحددة، ثم قم بوصفها باستخدام الذكاء الاصطناعي.
لا تتردد في تخصيصها في أي وقت من خلال مربع حوار إيماءات الإدخال.
لإنشاء حزمة الوظائف الإضافية من المصدر، ستحتاج إلى:
توزيعة بايثون (يوصى بالإصدار 3.7 أو الأحدث). تحقق من موقع Python الإلكتروني لمثبتات Windows. برجاء ملاحظة أن إعداد الكود المصدري لـ NVDA والوحدات الخارجية المضمنة يتطلب حاليًا إصدار 32 بت من Python 3.7.
Scons - موقع الويب - الإصدار 4.3.0 أو الأحدث. يمكنك تثبيته عبر PIP. pip install scons
تخفيض السعر 3.3.0 أو الأحدث. pip install markdown
ثم افتح المحطة التي تختارها:
git clone https://github.com/cartertemm/AI-content-describer.git cd AI-content-describer scons
بعد الانتهاء من تنفيذ أمر scons
، سيتم وضع ملف *.nvda-addon في جذر هذا المستودع جاهزًا للاختبار والإصدار.
إذا قمت بإضافة سلاسل إضافية تحتاج إلى ترجمتها، فمن المهم إعادة إنشاء ملف .pot كما يلي:
scons pot
على جهاز ويندوز:
تحميل poedit. هذا هو البرنامج الذي ستستخدمه لترجمة كل رسالة من اللغة الإنجليزية.
قم بتنزيل ملف .pot بكل السلاسل هنا
افتح الملف الذي قمت بتنزيله للتو في برنامج poedit. انقر على "إنشاء ترجمة جديدة" في النافذة التي تظهر، ثم حدد اللغة الهدف.
انتقل إلى محتويات النص المصدر وقم بتحويلها إلى اللغة الهدف، ثم الصقها في حقل الترجمة. للحصول على مساعدة إضافية، لا تتردد في النقر بزر الماوس الأيمن فوق عنصر القائمة -> تكرارات التعليمات البرمجية، ثم انتقل إلى أعلى سطر لقراءة التعليق الذي يبدأ بـ "# Translators: ". يتم أيضًا توفير هذه التعليقات في مكان واحد في ملف .pot.
عند الانتهاء، انقر فوق ملف -> حفظ أو اضغط على ctrl+s ثم اختر موقعًا لتخزين ملف .mo و.po الجديد. هذه هي الملفات التي ينبغي إرسالها إلي بالبريد الإلكتروني أو إرفاقها في طلب سحب.
ترجمة محتويات readme.md (هذا الملف). نعلقها أيضا!
الجميع محل تقدير كبير وسيتم الفضل. لقد عمل الأشخاص التاليون على الملحق.
مازن: تنفيذ تخفيض السعر، مساهمات كودية أخرى
كوستينكوف-2021: الترجمة الروسية
Nidza07: الترجمة الصربية
هيورهي هالاس: الترجمة الأوكرانية
أوموت كوركماز: الترجمة التركية
Platinum_Hikari: الترجمة الفرنسية
لوكاس: الترجمة التشيكية
ميكايلا: الترجمة السلوفاكية
تواجه مشكلة؟ أرسله إلى متتبع المشكلة
هل لديك اقتراح لميزة جديدة؟ قم بإنشاء تذكرة لذلك أيضًا، ويمكننا التحدث عن تنفيذها. ستتم مراجعة طلبات السحب التي لا تحتوي على مشكلات مرتبطة بها، ولكن من المحتمل أن تستغرق وقتًا أطول للجميع، خاصة إذا قررت أن الإصلاح الجديد أو الوظيفة الجديدة يجب أن تعمل بشكل مختلف عما تم اقتراحه.
يتم الترحيب بالترجمات بأذرع مفتوحة. كلما زاد عدد الأشخاص الذين يمكنهم الوصول إلى هذه التكنولوجيا القوية، كلما كان ذلك أفضل!
إذا لم يكن لديك Github، أو تفضل عدم استخدامه، يمكنك مراسلتي عبر البريد الإلكتروني - cartertemm (at) gmail (dot) com.
شكرا على الدعم!