lm steganography
1.0.0
這是出版品《走向近乎難以察覺的隱寫文本》附帶的程式碼庫。它實現了論文中概述的語言隱寫系統的設計、提出的patient-Huffman
演算法以及我們在論文中用於實證研究的程式碼。
我們研究的隱寫系統假設一個密碼系統可以產生要編碼為隱寫文字的密文。在這項工作中,我們透過控制語言模型的取樣將密文編碼為流暢的隱寫文字。我們專注於提供不可察覺性(隱寫保密性),而密碼安全性則由密碼系統提供。
example.ipynb
包含一個完整的範例,包括加密/解密步驟。core.py
包含隱寫系統編碼/解碼的說明性最小工作範例。GPT-2
(作為 git 子模組包含)和公開發布的GPT-2-117M
語言模型來產生隱寫文字。patient-Huffman
編碼演算法。及其對應的解碼方法。samples/
目錄包含使用patient-Huffman
(不可感知參數為 0.08,隨機位元串長度為 32)產生的 20 個樣本和來自基本語言模型的 20 個樣本。這是為了透過將受控樣本與不受控(標準採樣)樣本進行比較來提供演算法所提供的不可察覺性的主觀感覺。非常歡迎獨立複製!請引起我們的注意,我們將在此處列出它們。我們在提交 ACL 時使用的原始程式碼,請參閱標記為acl-2019
git commit。
這是一個研究原型。請謹慎使用它作為隱私保護工具。
如果您發現此儲存庫或相關論文有用,請引用我們的工作。
Dai, Falcon Z and Cai, Zheng. Towards Near-imperceptible Steganographic Text. Proceedings of ACL. 2019.
@inproceedings { dai-cai-2019-towards ,
title = " Towards Near-imperceptible Steganographic Text " ,
author = " Dai, Falcon Z and Cai, Zheng " ,
booktitle = " Proceedings of Association for Computational Linguistics " ,
month = july,
year = " 2019 " ,
publisher = " Association for Computational Linguistics "
}