reweight gpt
1.0.0
Альтернатива механизму самообслуживания в архитектуре Трансформера. Он использует обучаемые боковые связи для непосредственного изменения веса входных данных вместо механизма самообслуживания (как показано ниже). Подробнее о методе смотрите в этом видео (с 41:26): https://youtu.be/l-CjXFmcVzY