KoGPT2 FineTuning下载 - KoGPT2 FineTuning源码下载

KoGPT2 FineTuning

Ai源码

1.0.0

下载

KoGPT2-微调

我们使用 KoGPT2，它由 SKT-AI 使用约 20GB 的韩国数据进行预训练。首先，写歌词时，我们对版权过期的精细歌词数据、小说、文章等进行微调，赋予每个数据不同的权重。您还可以接收流派并查看每种音乐流派的歌词学习结果。

此外，Colab 还链接了 Google Drive 和 Dropbox，以便顺利学习。将学习到的中间结果从 Google Drive 移动到 Dropbox 后，从 Google Drive 中删除结果。与此相关的代码

如果使用更改后的版本 2 代码（接收每种音乐流派的 CSV 格式数据集）很难与 KoGPT2-FineTuning 配合使用，请使用版本 1.1。

下面，您可以查看学习各种韩语歌词的结果。我们还将致力于各种其他项目。

样本

数据结构

重量	类型	歌词
1100.0	叙事曲	“你知道我的感受nnn我只是像法老一样看着你茫然地站着nnn我别无选择，只能放弃……”
...

3x200000

微调

 python main.py --epoch=200 --data_file_path=./dataset/lyrics_dataset.csv --save_path=./checkpoint/ --load_path=./checkpoint/genre/KoGPT2_checkpoint_296000.tar --batch_size=1

解析器

 parser . add_argument ( '--epoch' , type = int , default = 200 ,
					help = "epoch 를 통해서 학습 범위를 조절합니다." )
parser . add_argument ( '--save_path' , type = str , default = './checkpoint/' ,
					help = "학습 결과를 저장하는 경로입니다." )
parser . add_argument ( '--load_path' , type = str , default = './checkpoint/Alls/KoGPT2_checkpoint_296000.tar' , 
					help = "학습된 결과를 불러오는 경로입니다." )
parser . add_argument ( '--samples' , type = str , default = "samples/" ,
					help = "생성 결과를 저장할 경로입니다." )
parser . add_argument ( '--data_file_path' , type = str , default = 'dataset/lyrics_dataset.txt' ,
					help = "학습할 데이터를 불러오는 경로입니다." )
parser . add_argument ( '--batch_size' , type = int , default = 8 ,
					help = "batch_size 를 지정합니다." )

使用 Colab

您可以使用 Colab 运行微调代码。

运行时断开连接预防

 function ClickConnect ( ) {
    // 백엔드를 할당하지 못했습니다.
    // GPU이(가) 있는 백엔드를 사용할 수 없습니다. 가속기가 없는 런타임을 사용하시겠습니까?
    // 취소 버튼을 찾아서 클릭
    var buttons = document . querySelectorAll ( "colab-dialog.yes-no-dialog paper-button#cancel" ) ; 
    buttons . forEach ( function ( btn ) {
		btn . click ( ) ;
    } ) ;
    console . log ( "1분 마다 다시 연결" ) ;
    document . querySelector ( "#top-toolbar > colab-connect-button" ) . click ( ) ;
}
setInterval ( ClickConnect , 1000 * 60 ) ;

每 10 分钟清除一次屏幕

 function CleanCurrentOutput ( ) { 
	var btn = document . querySelector ( ".output-icon.clear_outputs_enabled.output-icon-selected[title$='현재 실행 중...'] iron-icon[command=clear-focused-or-selected-outputs]" ) ;
	if ( btn ) {
		console . log ( "10분 마다 출력 지우기" ) ;
		btn . click ( ) ;
	}
} 
setInterval ( CleanCurrentOutput , 1000 * 60 * 10 ) ;

GPU内存检查

 nvidia-smi.exe

发电机

 python generator.py --temperature=1.0 --text_size=1000 --tmp_sent=""

没有抄袭

 python generator.py --temperature=5.0 --text_size=500 --tmp_sent=""

解析器

 parser . add_argument ( '--temperature' , type = float , default = 0.7 ,
					help = "temperature 를 통해서 글의 창의성을 조절합니다." )
parser . add_argument ( '--top_p' , type = float , default = 0.9 ,
					help = "top_p 를 통해서 글의 표현 범위를 조절합니다." )
parser . add_argument ( '--top_k' , type = int , default = 40 ,
					help = "top_k 를 통해서 글의 표현 범위를 조절합니다." )
parser . add_argument ( '--text_size' , type = int , default = 250 ,
					help = "결과물의 길이를 조정합니다." )
parser . add_argument ( '--loops' , type = int , default = - 1 ,
					help = "글을 몇 번 반복할지 지정합니다. -1은 무한반복입니다." )
parser . add_argument ( '--tmp_sent' , type = str , default = "사랑" ,
					help = "글의 시작 문장입니다." )
parser . add_argument ( '--load_path' , type = str , default = "./checkpoint/Alls/KoGPT2_checkpoint_296000.tar" ,
					help = "학습된 결과물을 저장하는 경로입니다." )

使用 Colab

您可以使用 Colab 运行生成器。

张量板

要检查由于学习而发生的变化，请访问张量板并检查损失和文本。

 tensorboard --logdir=runs

损失

文本

引文

 @misc{KoGPT2-FineTuning,
  author = {gyung},
  title = {KoGPT2-FineTuning},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/gyunggyung/KoGPT2-FineTuning}},
}

输出

详细结果可以在样本中找到。有关学习的更多信息可以在相关帖子中找到。

参考

https://github.com/openai/gpt-2
https://github.com/nshepperd/gpt-2
https://github.com/SKT-AI/KoGPT2
https://github.com/asyml/texar-pytorch/tree/master/examples/gpt-2
https://github.com/graykode/gpt-2-Pytorch
https://gist.github.com/thomwolf/1a5a29f6962089e871b94cbd09daf317
https://github.com/shbictai/narrativeKoGPT2
https://github.com/ssut/py-hanspell
https://github.com/likejazz/korean-sentence-splitter

展开

附加信息