장면 언어: 프로그램, 단어, 임베딩으로 장면 표현
arXiv | 프로젝트 페이지
다운코드
이 저장소는 "The Scene Language: Representing Scenes with Programs, Words, and Embeddings" 논문에 제시된 Scene Language를 구현합니다. 텍스트 조건 및 이미지 조건 3D 장면 생성이 가능합니다.
설치
환경
`배쉬
conda create --name sclg python=3.11
콘다 활성화 sclg
pip 미츠바 설치
분할 오류가 발생하면 특정 mitsuba 버전이 필요할 수 있습니다.
예: MacOS의 경우 pip install --force-reinstall mitsuba==3.5.1
pip 설치 unidecode 베개 인류학 변환3d astor ipdb scipy jaxtyping imageio
마인크래프트 렌더러에 필요
pip 설치 spacy
python -m spacy 다운로드 encoreweb_md
pip install --force-reinstall numpy==1.26.4 # 변환 3d와 호환 가능
자식 클론 https://github.com/zzyunzhi/scene-언어.git
CD 장면 언어
pip 설치 -e .
`
언어 모델 API
1. API 키 받기: 공식 문서에 따라 Anthropic API 키를 받으세요.
2.engine/key.py에 키를 추가합니다.
`파이썬
ANTHROPICAPIKEY = 'YOURANTHROPICAPI_KEY'
OPENAIAPIKEY = 'YOUROPENAIAPIKEY' # 선택 사항, LLMPROVIDER='gpt'에 필요
`
3. 언어 모델 전환(선택 사항):engine/constants.py에서 LLM_PROVIDER 설정을 수정하여 다른 언어 모델로 전환할 수 있습니다. 기본값은 Claude 3.5 Sonnet입니다.
텍스트 조건이 적용된 3D 생성
렌더러 : 미츠바
`배쉬
python scripts/run.py --tasks "체스 말 전체 세트가 포함된 체스판"
`
렌더링은 ${PROJROOT}/scripts/outputs/run${timestep}${uuid}/${scenename}${uuid}/${sampleindex}/renderings/*.gif에 저장됩니다.
예제 결과: 원시 출력
렌더러: 마인크래프트
`배쉬
ENGINE_MODE=minecraft python scripts/run.py --tasks "자세한 원통형 중세 탑"
`
생성된 장면은 ${PROJROOT}/scripts/outputs/run${timestep}${uuid}/${scenename}${uuid}/${sampleindex}/renderings/*.json에 JSON 파일로 저장됩니다.
심상:
1. 다음 명령을 실행합니다.
`배쉬
파이썬 뷰어/minecraft/run.py
`
2. 브라우저에서 http://127.0.0.1:5001을 엽니다.
3. 생성된 JSON 파일을 웹페이지로 드래그합니다.
예제 결과: 원시 출력
이미지 조건이 적용된 3D 생성
`배쉬
python scripts/run.py --tasks ./resources/examples/* --cond 이미지 --온도 0.8
`
코드베이스 세부사항
다음 표에는 이 저장소에 정의된 도우미 함수가 DSL(도메인별 언어)에 정의된 표현식에 맞춰 나열되어 있습니다(문서의 표 2 및 5).
| 기능 | DSL 표현 |
|-----------------|----------------|
| ... | ... |
| ... | ... |
코드베이스 개선
현재 코드베이스는 다음 기능을 제공합니다.
1. 텍스트 조건 생성: 텍스트 설명을 기반으로 3D 장면을 생성합니다.
2. 이미지 조건 생성: 입력 이미지를 기반으로 3D 장면을 생성합니다.
향후 업데이트:
추가 작업 및 렌더러에 대한 지원은 향후 업데이트에 추가될 예정입니다.
기여
기능 요청이나 제안이 있거나 결과를 공유하고 싶다면 언제든지 Pull Request를 제출하거나 이메일을 통해 문의해 주세요.
소환
`
@article{zhang2024scene언어,
title={장면 언어: 프로그램, 단어 및 임베딩으로 장면 표현},
저자={Yunzhi Zhang 및 Zizhang Li 및 Matt Zhou 및 Shangzhe Wu 및 Jiajun Wu},
연도={2024},
저널={arXiv 사전 인쇄 arXiv:2410.16770},
}
`
라이센스: Apache-2.0