이 추가 기능을 사용하면 이미지, 사용자 인터페이스 컨트롤 및 기타 시각적으로 접근할 수 없는 콘텐츠에 대한 자세한 설명을 얻을 수 있습니다.
고급 AI 모델과 컴퓨터 비전 알고리즘의 다중 모드 기능을 활용하여 동급 최고의 콘텐츠 설명을 제공하고 전반적인 독립성을 높이는 것을 목표로 합니다. 기본 모델에 대한 자세한 내용은 이 문서의 해당 섹션을 참조하세요.
초점 개체, 네비게이터 개체, 전체 화면을 설명하거나 온보드 카메라에서 사진을 찍습니다.
이메일의 사진이나 Windows 탐색기의 경로 등 클립보드에 복사된 이미지를 설명하세요.
컴퓨터 비전 알고리즘을 사용하여 사용자의 얼굴이 프레임 중앙에 위치하는지 여부를 나타냅니다. (유료 API 액세스가 필요하지 않음)
여러 공급자 지원(OpenAI의 GPT4, Google의 Gemini, Anthropic의 Claude 3 및 llama.cpp)
PNG(.png), JPEG(.jpeg 및 .jpg), WEBP(.webp), 애니메이션이 아닌 GIF(.gif)를 포함한 다양한 형식을 지원합니다.
API 할당량을 보존하기 위해 선택적으로 응답을 캐시합니다.
고급 사용을 위해 프롬프트와 토큰 수를 사용자 정의하여 필요에 맞게 정보를 맞춤화하세요.
구조화된 정보에 쉽게 접근할 수 있는 마크다운 렌더링(예: 프롬프트 끝에 "마크다운에 응답"을 삽입하기만 하면 됩니다)
이 프로젝트에는 몇 가지 주요 동기가 있었습니다.
NVDA는 획기적인 OCR(광학 문자 인식) 기능을 즉시 수행할 수 있습니다. 이미지나 PDF 문서에서 텍스트를 가져오려는 경우 이것이 바로 당신이 찾고 있는 것입니다.
그러나 OCR은 텍스트일 수 있는 데이터만 분석할 수 있습니다. 이미지에 담긴 맥락, 사물, 관계를 고려하는 능력이 부족합니다. 그리고 인터넷은 그런 것들로 가득 차 있습니다. 로고, 초상화, 밈, 아이콘, 차트, 다이어그램, 막대/선 그래프... 이름을 지정하세요. 이는 어디에나 있으며 일반적으로 화면 판독기 사용자가 해석할 수 있는 형식이 아닙니다. 최근까지 대체 텍스트 설명을 제공하는 콘텐츠 작성자에 대한 의존도는 확고했습니다. 이는 여전히 필수 사항이지만 높은 품질 표준이 규칙이 아니라 예외라는 사실을 바꾸는 것은 어렵습니다.
이제 가능성은 거의 끝이 없습니다. 다음을 수행할 수 있습니다.
다른 사람을 교육할 때 아이콘 배치를 이해하기 위해 데스크탑 또는 특정 창을 시각화합니다.
사운드가 부족하거나 사용할 수 없을 때 게임, 가상 머신 등의 상태에 대한 자세한 정보를 얻습니다.
그래프에 표시되는 내용 파악
Zoom 또는 Microsoft Teams에서 스크린샷이나 화면 공유를 명확하게 설명하세요.
비디오를 녹화하거나 온라인 회의에 참여하기 전에 얼굴이 카메라를 선명하게 바라보고 있는지, 배경이 전문적인지 확인하세요.
GPT4 비전
Google Gemini 프로 비전
클로드 3(하이쿠, 소네트, 오푸스)
llama.cpp(하드웨어에 따라 매우 불안정하고 느림, llava-v1.5/1.6, BakLLaVA, Obsidian 및 MobileVLM 1.7B/3B 모델에서 작동하도록 테스트됨)
각 작업을 수행하려면 아래 제공된 지침을 따르십시오.
이 링크에서 최신 추가 기능 릴리스를 다운로드하세요. NVDA가 설치된 컴퓨터에서 파일을 클릭한 후 아래 지침에 따라 지원되는 공급자로부터 API 키를 받으세요. 어떤 애드온을 사용해야 할지 확실하지 않은 경우, 이 애드온 개발자와 테스터는 현재 Gemini가 더 합리적인 가격을 제공하는 반면 Open-AI는 더 높은 수준의 정확도를 제공하는 것으로 보인다고 합의했습니다. 클로드 3 하이쿠(Claude 3 haiku)는 가장 저렴하고 빠른 옵션이지만 품질이 좋지 않습니다. 물론 이러한 결과는 진행 중인 작업에 따라 크게 달라지므로 다양한 모델과 프롬프트를 실험하여 가장 효과적인 것이 무엇인지 찾는 것이 좋습니다.
open-AI의 API 키 페이지로 이동
아직 계정이 없다면 계정을 만드세요. 그렇다면 로그인하세요.
API 키 페이지에서 클릭하여 새 비밀 키를 생성합니다. 클립보드에 복사하세요.
최소 1달러를 계좌에 입금하세요.
NVDA 설정 대화 상자에서 AI 콘텐츠 설명자 카테고리까지 아래로 스크롤한 다음 "모델 관리(alt+m)"를 선택하고 공급자로 "GPT4 Vision"을 선택한 다음 API 키 필드를 탭하고 방금 생성한 키를 붙여넣습니다. 여기.
이 글을 쓰는 시점에서 Open-AI는 3개월 동안 사용할 수 있는 새로운 개발자 계정에 크레딧을 발급하며 그 이후에는 해당 계정을 잃게 됩니다. 이 기간이 지나면 크레딧을 구매해야 합니다. 일반적인 사용량은 월 $5.00를 초과해서는 안 됩니다. 참고로 이 추가 기능의 원래 버전은 1달러 미만의 가격으로 개발되었습니다. 언제든지 OpenAI 계정에 로그인하고 "사용"을 클릭하여 할당량을 확인할 수 있습니다.
먼저 Google Cloud 콘솔로 이동하여 Google Workspace 프로젝트를 만들어야 합니다. Google 계정에 로그인되어 있는지 확인하세요.
'Gemini' 또는 'NVDA add-on'과 같이 4~30자 사이의 이름을 만드세요.
Google AI Studio API 키 페이지로 이동
"API 키 생성"을 클릭하세요.
NVDA 설정 대화 상자에서 AI 콘텐츠 설명자 카테고리까지 아래로 스크롤한 다음 "모델 관리(alt+m)"를 선택하고 공급자로 "Google Gemini"를 선택한 다음 API 키 필드를 탭하고 방금 생성한 키를 붙여넣습니다. 여기.
Anthropic 콘솔에 로그인하세요.
프로필 -> API 키를 클릭하세요.
키 생성을 클릭합니다.
"AIContentDescriber"와 같은 키 이름을 입력한 다음 "키 만들기"를 클릭하고 표시되는 값을 복사합니다. 이는 NVDA 설정 대화 상자 -> 모델 관리 -> Claude 3의 Ai 콘텐츠 설명자 카테고리 아래 API 키 필드에 붙여넣을 내용입니다.
아직 구매하지 않으셨다면 인류 계획 페이지에서 최소 5달러의 크레딧을 구매하세요.
이 공급자는 현재 다소 버그가 있으며 마일리지가 매우 클 수 있습니다. 로컬 자체 호스팅 모델과 이를 수행할 하드웨어를 실행하는 데 관심이 있는 고급 사용자만 시도해야 합니다.
llama.cpp를 다운로드합니다. 이 글을 쓰는 시점에서 이 풀 요청은 다중 모드 기능을 제거하므로 이를 지원하는 마지막 버전을 사용하는 것이 좋습니다. CUDA를 지원하는 Nvidia 그래픽 어댑터에서 실행 중인 경우 미리 빌드된 바이너리인 llama-b2356-bin-win-cublas-cu12.2.0-x64.zip 및 cudart-llama-bin-win-cu12.2.0-x64를 다운로드하세요. zip 다른 그래픽 어댑터를 사용하는 단계는 범위를 벗어나지만 llama.cpp 추가 정보에서 찾을 수 있습니다.
이 두 파일을 모두 동일한 폴더에 추출합니다.
Huggingface에서 사용하려는 모델의 양자화된 형식을 찾으세요. LLaVA 1.6 Vicuna 7B의 경우: llava-v1.6-vicuna-7b.Q4_K_M.gguf 및 mmproj-model-f16.gguf
이 파일을 나머지 llama.cpp 바이너리와 함께 폴더에 넣으세요.
명령 프롬프트에서 llava.cpp 서버 바이너리를 실행하고 모델 및 멀티모달 프로젝터에 대한 .gguf 파일을 전달합니다(다음과 같이).
server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf
NVDA 설정 대화 상자에서 AI 콘텐츠 설명자 카테고리까지 아래로 스크롤한 다음 "모델 관리(alt+m)"를 선택하고 공급자로 "llama.cpp"를 선택한 다음 기본 URL 필드로 탭을 이동하고 다음과 같은 엔드포인트를 입력하세요. 콘솔(기본값은 "http://localhost:8080")입니다.
또는 이러한 단계 중 일부를 생략하고 로컬 시스템보다 사양이 높은 원격 서버에서 llama.cpp를 실행한 다음 대신 해당 엔드포인트를 입력할 수 있습니다.
기본적으로 4개의 단축키가 바인딩되어 있습니다.
NVDA+shift+i: 현재 초점, 네비게이터 개체, 실제 카메라 또는 전체 화면을 AI로 설명할지 묻는 메뉴 팝업을 표시합니다.
NVDA+shift+u: AI를 사용하여 현재 네비게이터 개체의 내용을 설명합니다.
NVDA+shift+y: AI를 사용하여 클립보드의 이미지(또는 이미지에 대한 파일 경로)를 설명합니다.
NVDA+shift+j: 선택한 카메라 프레임에서 얼굴의 위치를 설명합니다. 여러 대의 카메라가 연결되어 있는 경우 AI 콘텐츠 설명 메뉴(NVDA+shift+i)로 이동하여 얼굴 인식 하위 메뉴의 "카메라 선택" 항목과 함께 사용하려는 카메라를 선택하세요.
세 가지 동작이 바인딩 해제되었습니다.
AI를 이용하여 현재 집중하고 있는 항목의 내용을 설명합니다.
스크린샷을 찍은 후 AI를 사용해 설명해보세요.
선택한 카메라를 사용하여 사진을 찍은 다음 AI를 사용하여 설명합니다.
입력 동작 대화 상자에서 언제든지 주저하지 말고 맞춤 설정하세요.
소스에서 추가 기능 패키지를 생성하려면 다음이 필요합니다.
Python 배포판(3.7 이상 권장) Windows 설치 프로그램에 대한 Python 웹사이트를 확인하세요. 현재 NVDA 소스 코드와 포함된 타사 모듈을 준비하려면 32비트 버전의 Python 3.7이 필요합니다.
Scons - 웹사이트 - 버전 4.3.0 이상. PIP를 통해 설치할 수 있습니다. pip install scons
마크다운 3.3.0 이상. pip install markdown
그런 다음 원하는 터미널을 엽니다.
git clone https://github.com/cartertemm/AI-content-describer.git cd AI-content-describer scons
scons
명령 실행이 완료되면 *.nvda-addon 파일이 테스트 및 릴리스 준비가 된 이 저장소의 루트에 배치됩니다.
번역해야 하는 추가 문자열을 추가하는 경우 다음과 같이 .pot 파일을 다시 작성하는 것이 중요합니다.
scons pot
Windows 머신의 경우:
시인을 다운로드하세요. 이것은 영어로 된 각 메시지를 번역하는 데 사용할 소프트웨어입니다.
여기에서 모든 문자열이 포함된 .pot 파일을 다운로드하세요.
방금 다운로드한 파일을 poedit 프로그램에서 엽니다. 나타나는 창에서 "새 번역 만들기"를 클릭한 다음 대상 언어를 선택하세요.
원본 텍스트의 내용을 살펴보고 대상 언어로 변환한 다음 번역 필드에 붙여넣습니다. 추가 도움이 필요하면 목록 항목 -> 코드 발생을 마우스 오른쪽 버튼으로 클릭한 다음 한 줄 위로 올라가 "# Translators: "로 시작하는 주석을 읽으세요. 이러한 주석은 .pot 파일의 한 위치에서 추가로 사용할 수 있습니다.
완료되면 파일 -> 저장을 클릭하거나 Ctrl+S를 누른 다음 저장할 새 .mo 및 .po 파일의 위치를 선택합니다. 이러한 파일은 나에게 이메일로 보내거나 풀 요청에 첨부해야 합니다.
readme.md(이 파일)의 내용을 번역하세요. 그것도 첨부해!
모두가 높이 평가되며 인정받을 것입니다. 다음 사람들이 애드온 작업을 했습니다.
Mazen: 마크다운 구현, 기타 코드 기여
Kostenkov-2021: 러시아어 번역
Nidza07: 세르비아어 번역
Heorhii Halas: 우크라이나어 번역
Umut Korkmaz: 터키어 번역
Platinum_Hikari: 프랑스어 번역
루카스: 체코어 번역
Michaela: 슬로바키아어 번역
문제에 직면했나요? 이슈 트래커에 제출하세요
새로운 기능에 대한 제안이 있으십니까? 이에 대한 티켓도 생성하면 구현에 대해 이야기할 수 있습니다. 관련 문제가 없는 끌어오기 요청은 검토되지만, 특히 새로운 수정 사항이나 기능이 제안된 것과 다르게 작동해야 한다고 판단하는 경우 모든 사람에게 더 많은 시간이 걸릴 수 있습니다.
번역은 두 팔 벌려 환영합니다. 이 강력한 기술에 접근할 수 있는 사람이 많을수록 좋습니다!
Github이 없거나 사용하고 싶지 않다면 cartertemm (at) gmail (dot) com으로 이메일을 보내주세요.
지원해 주셔서 감사합니다!