LLM4Decompile 다운로드 - LLM4Decompile 소스 코드 다운로드

LLM4Decompile

기타 소스코드

1.0.0

다운로드

LLM4디컴파일

결과 | ? 모델 | 빠른 시작 | HumanEval-디컴파일 | ? 인용 | 종이 | 코랩 | ▶️ 유튜브

리버스 엔지니어링: 대규모 언어 모델을 사용하여 이진 코드 디컴파일

업데이트

[2024-10-17]: 100,000개의 훈련 샘플(최적화 수준당 25,000개)의 하위 집합인 decompile-ghidra-100k를 출시합니다. 단일 A100 40G GPU에서 최대 3.5시간 내에 실행되는 교육 스크립트를 제공합니다. LLM4Decompile의 빠른 복제를 위해 20달러 미만의 총 비용으로 0.26의 재실행률을 달성합니다.
[2024-09-26]: LLM4Decompile-End 및 LLM4Decompile-Ref 모델의 예를 포함하여 LLM4Decompile 모델의 사용법을 보여주기 위해 Colab 노트북을 업데이트합니다.
[2024-09-23]: Yi-Coder-9B를 기반으로 미세 조정된 LLM4Decompile-9B-v2 릴리스는 디컴파일 벤치마크에서 0.6494 의 재실행률을 달성했습니다.
[2024-06-19]: V2 시리즈(LLM4Decompile-Ref) 출시. Ghidra를 기반으로 하는 V2(1.3B-22B)는 Ghidra의 디컴파일된 의사 코드를 개선하기 위해 20억 개의 토큰에 대해 훈련되었습니다. 22B-V2 버전은 6.7B-V1.5보다 40.1% 더 성능이 향상되었습니다. 자세한 내용은 ghidra 폴더를 확인하세요.
[2024-05-13]: V1.5 시리즈 출시(LLM4Decompile-End, LLM을 사용하여 바이너리를 직접 디컴파일함). V1.5는 더 큰 데이터 세트(150억 개 토큰)와 최대 토큰 길이 4,096개로 훈련되어 이전 모델에 비해 놀라운 성능( 100% 이상 개선 )을 제공합니다.
[2024-03-16]: 최적화 수준(O0~O3)에 대한 사전 지식 없이 훈련된 llm4decompile-6.7b-uo 모델을 추가합니다. 평균 재실행성은 약 0.219이며, 우리 모델에서 가장 좋은 성능을 발휘합니다.

에 대한

LLM4Decompile 은 디컴파일 전용의 선구적인 오픈 소스 대규모 언어 모델입니다. 현재 버전은 GCC의 O0에서 O3 최적화 수준에 이르는 Linux x86_64 바이너리를 사람이 읽을 수 있는 C 소스 코드로 디컴파일하는 것을 지원합니다. 우리 팀은 더 광범위한 아키텍처와 구성을 통합하려는 지속적인 노력을 통해 이 도구의 기능을 확장하기 위해 최선을 다하고 있습니다.
LLM4Decompile-End는 바이너리를 직접 디컴파일하는 데 중점을 둡니다. LLM4Decompile-Ref는 Ghidra가 디컴파일한 의사 코드를 개선합니다.

평가

뼈대

컴파일하는 동안 전처리기는 소스 코드(SRC)를 처리하여 주석을 제거하고 매크로 또는 포함을 확장합니다. 정리된 코드는 컴파일러로 전달되어 어셈블리 코드(ASM)로 변환됩니다. 이 ASM은 어셈블러에 의해 이진 코드(0과 1)로 변환됩니다. 링커는 함수 호출을 연결하여 실행 파일을 생성함으로써 프로세스를 마무리합니다. 반면에 디컴파일에는 바이너리 코드를 다시 소스 파일로 변환하는 작업이 포함됩니다. 텍스트 교육을 받은 LLM은 이진 데이터를 직접 처리하는 능력이 부족합니다. 따라서 먼저 Objdump 를 통해 바이너리를 어셈블리 언어(ASM)로 분해해야 합니다. 바이너리 ASM과 디스어셈블된 ASM은 동일하며 상호 변환이 가능하므로 서로 바꿔서 참조할 수 있습니다. 마지막으로, 훈련을 안내하기 위해 디컴파일된 코드와 소스 코드 사이에서 손실이 계산됩니다. 디컴파일된 코드(SRC')의 품질을 평가하기 위해 테스트 어설션(재실행성)을 통해 기능을 테스트합니다.

측정항목

재실행 가능성은 디컴파일된 코드가 제대로 실행되고 사전 정의된 모든 테스트 사례를 통과할 수 있는지 평가합니다.

벤치마크

HumanEval-Decompile 표준 C 라이브러리에만 의존하는 164개의 C 함수 모음입니다.
ExeBench 실제 프로젝트에서 가져온 2,621개의 함수 모음으로, 각 함수는 사용자 정의 함수, 구조 및 매크로를 활용합니다.

결과

모델

LLM4Decompile에는 13억~330억 개의 매개변수 크기를 가진 모델이 포함되어 있으며 이러한 모델을 Hugging Face에서 사용할 수 있도록 만들었습니다.

모델	검문소	크기	재실행성	메모
llm4decompile-1.3b-v1.5	? HF링크	1.3B	27.3%	참고 3
llm4decompile-6.7b-v1.5	? HF링크	6.7B	45.4%	참고 3
llm4decompile-1.3b-v2	? HF링크	1.3B	46.0%	참고 4
llm4decompile-6.7b-v2	? HF링크	6.7B	52.7%	참고 4
llm4decompile-9b-v2	? HF링크	9B	64.9%	참고 4
llm4decompile-22b-v2	? HF링크	22B	63.6%	참고 4

참고 3: V1.5 시리즈는 더 큰 데이터 세트(15B 토큰)와 최대 토큰 크기 4,096으로 훈련되었으며 이전 모델에 비해 놀라운 성능(100% 이상 개선)을 보였습니다.

참고 4: V2 시리즈는 Ghidra를 기반으로 구축되었으며 Ghidra에서 디컴파일된 의사 코드를 개선하기 위해 20억 개의 토큰으로 훈련되었습니다. 자세한 내용은 ghidra 폴더를 확인하세요.

빠른 시작

설정: 아래 스크립트를 사용하여 필요한 환경을 설치하세요.

 git clone https://github.com/albertan017/LLM4Decompile.git
cd LLM4Decompile
conda create -n 'llm4decompile' python=3.9 -y
conda activate llm4decompile
pip install -r requirements.txt

다음은 당사 모델 사용 방법의 예입니다(V1.5용 개정. 이전 모델의 경우 HF에서 해당 모델 페이지를 확인하세요). 참고: "func0"을 디컴파일하려는 함수 이름으로 바꾸세요 .

전처리: C 코드를 바이너리로 컴파일하고 바이너리를 어셈블리 명령어로 분해합니다.

 import subprocess
import os
func_name = 'func0'
OPT = [ "O0" , "O1" , "O2" , "O3" ]
fileName = 'samples/sample' #'path/to/file'
for opt_state in OPT :
    output_file = fileName + '_' + opt_state
    input_file = fileName + '.c'
    compile_command = f'gcc -o { output_file } .o { input_file } - { opt_state } -lm' #compile the code with GCC on Linux
    subprocess . run ( compile_command , shell = True , check = True )
    compile_command = f'objdump -d { output_file } .o > { output_file } .s' #disassemble the binary file into assembly instructions
    subprocess . run ( compile_command , shell = True , check = True )
    
    input_asm = ''
    with open ( output_file + '.s' ) as f : #asm file
        asm = f . read ()
        if '<' + func_name + '>:' not in asm : #IMPORTANT replace func0 with the function name
            raise ValueError ( "compile fails" )
        asm = '<' + func_name + '>:' + asm . split ( '<' + func_name + '>:' )[ - 1 ]. split ( ' n n ' )[ 0 ] #IMPORTANT replace func0 with the function name
        asm_clean = ""
        asm_sp = asm . split ( " n " )
        for tmp in asm_sp :
            if len ( tmp . split ( " t " )) < 3 and '00' in tmp :
                continue
            idx = min (
                len ( tmp . split ( " t " )) - 1 , 2
            )
            tmp_asm = " t " . join ( tmp . split ( " t " )[ idx :])  # remove the binary code
            tmp_asm = tmp_asm . split ( "#" )[ 0 ]. strip ()  # remove the comments
            asm_clean += tmp_asm + " n "
    input_asm = asm_clean . strip ()
    before = f"# This is the assembly code: n " #prompt
    after = " n # What is the source code? n " #prompt
    input_asm_prompt = before + input_asm . strip () + after
    with open ( fileName + '_' + opt_state + '.asm' , 'w' , encoding = 'utf-8' ) as f :
        f . write ( input_asm_prompt )

조립 지침은 다음 형식이어야 합니다.

<FUNCTION_NAME>:n작업n작업n

일반적인 조립 지침은 다음과 같습니다.

 <func0>:
endbr64
lea    (%rdi,%rsi,1),%eax
retq

디컴파일: LLM4Decompile을 사용하여 어셈블리 지침을 C로 변환합니다.

 from transformers import AutoTokenizer , AutoModelForCausalLM
import torch

model_path = 'LLM4Binary/llm4decompile-6.7b-v1.5' # V1.5 Model
tokenizer = AutoTokenizer . from_pretrained ( model_path )
model = AutoModelForCausalLM . from_pretrained ( model_path , torch_dtype = torch . bfloat16 ). cuda ()

with open ( fileName + '_' + OPT [ 0 ] + '.asm' , 'r' ) as f : #optimization level O0
    asm_func = f . read ()
inputs = tokenizer ( asm_func , return_tensors = "pt" ). to ( model . device )
with torch . no_grad ():
    outputs = model . generate ( ** inputs , max_new_tokens = 2048 ) ### max length to 4096, max new tokens should be below the range
c_func_decompile = tokenizer . decode ( outputs [ 0 ][ len ( inputs [ 0 ]): - 1 ])

with open ( fileName + '.c' , 'r' ) as f : #original file
    func = f . read ()

print ( f'original function: n { func } ' ) # Note we only decompile one function, where the original file may contain multiple functions
print ( f'decompiled function: n { c_func_decompile } ' )

HumanEval-디컴파일

데이터는 JSON 목록 형식을 사용하여 llm4decompile/decompile-eval/decompile-eval-executable-gcc-obj.json 에 저장됩니다. 164*4(O0, O1, O2, O3) 샘플이 있으며 각각 5개의 키가 있습니다.

task_id : 문제의 ID를 나타냅니다.
type : 최적화 단계로 [O0, O1, O2, O3] 중 하나입니다.
c_func : HumanEval 문제에 대한 C 솔루션입니다.
c_test : C 테스트 어설션.
input_asm_prompt : 프롬프트가 포함된 어셈블리 지침은 전처리 예제에서와 같이 파생될 수 있습니다.

평가 스크립트를 확인하세요.

진행 중

정리 프로세스가 포함된 더 큰 훈련 데이터 세트. (완료:2024.05.13)
널리 사용되는 언어/플랫폼 및 설정을 지원합니다.
실행 가능한 바이너리를 지원합니다. (완료:2024.05.13)
디컴파일 도구(예: Ghidra, Rizin)와의 통합

특허

이 코드 저장소는 MIT 및 DeepSeek 라이선스에 따라 라이선스가 부여됩니다.

소환

 @misc{tan2024llm4decompile,
      title={LLM4Decompile: Decompiling Binary Code with Large Language Models}, 
      author={Hanzhuo Tan and Qi Luo and Jing Li and Yuqun Zhang},
      year={2024},
      eprint={2403.05286},
      archivePrefix={arXiv},
      primaryClass={cs.PL}
}