codemining treelm
1.0.0
codemining-treelm 包含在樹上工作的語言模型的程式碼。
codemining.ast
包含將 AST 轉換為與語言無關的 TreeNode 的程式碼
codemining.lm
包含 PCFG 和 TSG 的實作以及一些與習慣用法相關的程式碼。
此專案依賴三個內部(maven)模組:
a) codemining-utils b) codemining-core c) codemining-sequencelm
其餘的依賴項在 Maven 依賴項中聲明。
該存儲庫包含與論文相關的程式碼:
@inproceedings{allamanis2014mining,
title={Mining Idioms from Source Code},
author={Allamanis, Miltiadis and Sutton, Charles},
booktitle={Proceedings of the 22nd ACM SIGSOFT International Symposium on Foundations of Software Engineering},
pages={472--483},
year={2014},
organization={ACM}
}
要訓練 Java 版 TSG,請使用codemining.lm.tsg.tui.java.SampleBlockedTSG
中的主類別以及參數
/path/to/folder binaryvariables filterblock 1.0 50
按照「從原始碼中挖掘習語」論文中的方式運行 TSG 培訓。對於其他選項,請探索程式碼。