eDiff-I에서 수행된 것처럼 텍스트 조건화 및 여러 텍스트 임베딩 모델을 포함할 수 있는 유연성에 중점을 두고 Pytorch에서 분류자 자유 지침 구현
이제 텍스트 지침이 모델에 대한 궁극적인 인터페이스라는 것이 분명해졌습니다. 이 저장소는 일부 Python 데코레이터 마법을 활용하여 SOTA 텍스트 조건을 모든 모델에 쉽게 통합할 수 있도록 합니다.
넉넉한 후원을 위한 StabilityAI와 저의 다른 후원자들
? 놀라운 트랜스포머 라이브러리를 위한 Huggingface. 텍스트 조절 모듈은 최신 연구에서 권장하는 대로 T5 임베딩을 사용합니다.
SOTA 오픈 소스 CLIP 모델을 제공하기 위한 OpenCLIP. eDiff 모델은 T5 임베딩과 CLIP 텍스트 임베딩을 결합하여 엄청난 개선을 보여줍니다.
$ pip install classifier-free-guidance-pytorch
import torch
from classifier_free_guidance_pytorch import TextConditioner
text_conditioner = TextConditioner (
model_types = 't5' ,
hidden_dims = ( 256 , 512 ),
hiddens_channel_first = False ,
cond_drop_prob = 0.2 # conditional dropout 20% of the time, must be greater than 0. to unlock classifier free guidance
). cuda ()
# pass in your text as a List[str], and get back a List[callable]
# each callable function receives the hiddens in the dimensions listed at init (hidden_dims)
first_condition_fn , second_condition_fn = text_conditioner ([ 'a dog chasing after a ball' ])
# these hiddens will be in the direct flow of your model, say in a unet
first_hidden = torch . randn ( 1 , 16 , 256 ). cuda ()
second_hidden = torch . randn ( 1 , 32 , 512 ). cuda ()
# conditioned features
first_conditioned = first_condition_fn ( first_hidden )
second_conditioned = second_condition_fn ( second_hidden )
교차 주의 기반 조건화(네트워크의 숨겨진 각 기능은 개별 하위 단어 토큰에 참여할 수 있음)를 사용하려면 대신 AttentionTextConditioner
를 가져오면 됩니다. 휴식도 마찬가지
from classifier_free_guidance_pytorch import AttentionTextConditioner
text_conditioner = AttentionTextConditioner (
model_types = ( 't5' , 'clip' ), # something like in eDiff paper, where they used both T5 and Clip for even better results (Balaji et al.)
hidden_dims = ( 256 , 512 ),
cond_drop_prob = 0.2
이는 네트워크의 텍스트 조건을 최대한 쉽게 만들기 위해 진행 중인 작업입니다.
먼저, 간단한 2계층 네트워크가 있다고 가정해 보겠습니다.
import torch
from torch import nn
class MLP ( nn . Module ):
def __init__ (
self ,
super (). __init__ ()
self . proj_in = nn . Sequential ( nn . Linear ( dim , dim * 2 ), nn . ReLU ())
self . proj_mid = nn . Sequential ( nn . Linear ( dim * 2 , dim ), nn . ReLU ())
self . proj_out = nn . Linear ( dim , 1 )
def forward (
self ,
hiddens1 = self . proj_in ( data )
hiddens2 = self . proj_mid ( hiddens1 )
return self . proj_out ( hiddens2 )
# instantiate model and pass in some data, get (in this case) a binary prediction
model = MLP ( dim = 256 )
data = torch . randn ( 2 , 256 )
pred = model ( data )
텍스트로 숨겨진 레이어( hiddens1
및 hiddens2
)를 조절하고 싶습니다. 여기의 각 배치 요소는 자체적인 자유 텍스트 조건을 갖습니다.
이 저장소를 사용하면 이 작업이 ~3단계로 축소되었습니다.
import torch
from torch import nn
from classifier_free_guidance_pytorch import classifier_free_guidance_class_decorator
@ classifier_free_guidance_class_decorator
class MLP ( nn . Module ):
def __init__ ( self , dim ):
super (). __init__ ()
self . proj_in = nn . Sequential ( nn . Linear ( dim , dim * 2 ), nn . ReLU ())
self . proj_mid = nn . Sequential ( nn . Linear ( dim * 2 , dim ), nn . ReLU ())
self . proj_out = nn . Linear ( dim , 1 )
def forward (
self ,
inp ,
cond_fns # List[Callable] - (1) your forward function now receives a list of conditioning functions, which you invoke on your hidden tensors
cond_hidden1 , cond_hidden2 = cond_fns # conditioning functions are given back in the order of the `hidden_dims` set on the text conditioner
hiddens1 = self . proj_in ( inp )
hiddens1 = cond_hidden1 ( hiddens1 ) # (2) condition the first hidden layer with FiLM
hiddens2 = self . proj_mid ( hiddens1 )
hiddens2 = cond_hidden2 ( hiddens2 ) # condition the second hidden layer with FiLM
return self . proj_out ( hiddens2 )
# instantiate your model - extra keyword arguments will need to be defined, prepended by `text_condition_`
model = MLP (
dim = 256 ,
text_condition_type = 'film' , # can be film, attention, or null (none)
text_condition_model_types = ( 't5' , 'clip' ), # in this example, conditioning on both T5 and OpenCLIP
text_condition_hidden_dims = ( 512 , 256 ), # and pass in the hidden dimensions you would like to condition on. in this case there are two hidden dimensions (dim * 2 and dim, after the first and second projections)
text_condition_cond_drop_prob = 0.25 # conditional dropout probability for classifier free guidance. can be set to 0. if you do not need it and just want the text conditioning
# now you have your input data as well as corresponding free text as List[str]
data = torch . randn ( 2 , 256 )
texts = [ 'a description' , 'another description' ]
# (3) train your model, passing in your list of strings as 'texts'
pred = model ( data , texts = texts )
# after much training, you can now do classifier free guidance by passing in a condition scale of > 1. !
model . eval ()
guided_pred = model ( data , texts = texts , cond_scale = 3. , remove_parallel_component = True ) # cond_scale stands for conditioning scale from classifier free guidance paper
분류자 무료 안내 없이 완전한 필름 컨디셔닝(여기서 사용됨)
필름 컨디셔닝을 위한 분류자 무료 지침 추가
완전한 교차주의 조건화
Make-a-video의 시공간 unet에 대한 스트레스 테스트
