Descarga LLM4Decompile - Descarga del código fuente de LLM4Decompile

LLM4Decompile

Otro código fuente

1.0.0

Descargar

LLM4Descompilar

Ingeniería inversa: descompilación de código binario con modelos de lenguaje grandes

Actualizaciones

[2024-10-17]: Lanzamiento decompile-ghidra-100k, un subconjunto de 100.000 muestras de entrenamiento (25.000 por nivel de optimización). Proporcionamos un script de capacitación que se ejecuta en aproximadamente 3,5 horas en una única GPU A100 40G. Logra una tasa de reejecutabilidad de 0,26, con un costo total de menos de $20 para una replicación rápida de LLM4Decompile.
[2024-09-26]: Actualice un cuaderno de Colab para demostrar el uso del modelo LLM4Decompile, incluidos ejemplos para los modelos LLM4Decompile-End y LLM4Decompile-Ref.
[23 de septiembre de 2024]: La versión LLM4Decompile-9B-v2, ajustada en función de Yi-Coder-9B, logró una tasa de reejecutabilidad de 0,6494 en el punto de referencia de Decompile.
[2024-06-19]: Lanzamiento de la serie V2 (LLM4Decompile-Ref). V2 (1.3B-22B), basado en Ghidra , está entrenado en 2 mil millones de tokens para refinar el pseudocódigo descompilado de Ghidra. La versión 22B-V2 supera a la 6.7B-V1.5 en un 40,1% adicional. Consulte la carpeta de ghidra para obtener más detalles.
[2024-05-13]: Versión V1.5 de la serie (LLM4Decompile-End, descompila binario directamente usando LLM). V1.5 está entrenado con un conjunto de datos más grande (15 mil millones de tokens) y una longitud máxima de tokens de 4096 , con un rendimiento notable (más del 100 % de mejora ) en comparación con el modelo anterior.
[2024-03-16]: Agregue el modelo llm4decompile-6.7b-uo que se entrena sin conocimiento previo de los niveles de optimización (O0 ~ O3), la reejecutabilidad promedio es de alrededor de 0,219 y tiene el mejor rendimiento en nuestros modelos.

Acerca de

LLM4Decompile es el modelo pionero de lenguaje grande de código abierto dedicado a la descompilación. Su versión actual admite la descompilación de archivos binarios de Linux x86_64, que van desde los niveles de optimización O0 a O3 de GCC, en código fuente C legible por humanos. Nuestro equipo está comprometido a ampliar las capacidades de esta herramienta, con esfuerzos continuos para incorporar una gama más amplia de arquitecturas y configuraciones.
LLM4Decompile-End se centra en descompilar el binario directamente. LLM4Decompile-Ref refina el pseudocódigo descompilado por Ghidra.

Evaluación

Estructura

imagen

Durante la compilación, el preprocesador procesa el código fuente (SRC) para eliminar comentarios y expandir macros o inclusiones. Luego, el código limpio se envía al compilador, que lo convierte en código ensamblador (ASM). Este ASM es transformado en código binario (0s y 1s) por el Ensamblador. El vinculador finaliza el proceso vinculando llamadas a funciones para crear un archivo ejecutable. La descompilación, por otro lado, implica convertir el código binario nuevamente en un archivo fuente. Los LLM, al estar capacitados en texto, carecen de la capacidad de procesar datos binarios directamente. Por lo tanto, Objdump debe desensamblar primero los archivos binarios en lenguaje ensamblador (ASM). Cabe señalar que el ASM binario y desensamblado son equivalentes, se pueden interconvertir y, por lo tanto, nos referimos a ellos indistintamente. Finalmente, se calcula la pérdida entre el código descompilado y el código fuente para guiar el entrenamiento. Para evaluar la calidad del código descompilado (SRC'), se prueba su funcionalidad mediante afirmaciones de prueba (reejecutabilidad).

Métrica

La reejecutabilidad evalúa si el código descompilado puede ejecutarse correctamente y pasar todos los casos de prueba predefinidos.

Puntos de referencia

HumanEval-Decompile Una colección de 164 funciones C que dependen exclusivamente de bibliotecas C estándar .
ExeBench Una colección de 2621 funciones extraídas de proyectos reales , cada una de las cuales utiliza funciones, estructuras y macros definidas por el usuario.

Resultados

resultados

imagen

Modelos

Nuestro LLM4Decompile incluye modelos con tamaños entre 1,3 mil millones y 33 mil millones de parámetros, y hemos puesto estos modelos a disposición en Hugging Face.

Modelo	Control	Tamaño	Reejecutabilidad	Nota
llm4decompile-1.3b-v1.5	? Enlace HF	1.3B	27,3%	Nota 3
llm4decompile-6.7b-v1.5	? Enlace HF	6,7 mil millones	45,4%	Nota 3
llm4decompile-1.3b-v2	? Enlace HF	1.3B	46,0%	Nota 4
llm4decompile-6.7b-v2	? Enlace HF	6,7 mil millones	52,7%	Nota 4
llm4decompile-9b-v2	? Enlace HF	9B	64,9%	Nota 4
llm4decompile-22b-v2	? Enlace HF	22B	63,6%	Nota 4

Nota 3: La serie V1.5 está entrenada con un conjunto de datos más grande (15 mil millones de tokens) y un tamaño máximo de token de 4096, con un rendimiento notable (más del 100 % de mejora) en comparación con el modelo anterior.

Nota 4: La serie V2 se basa en Ghidra y se entrena con 2 mil millones de tokens para refinar el pseudocódigo descompilado de Ghidra. Consulte la carpeta de ghidra para obtener más detalles.

Inicio rápido

Configuración: utilice el siguiente script para instalar el entorno necesario.

 git clone https://github.com/albertan017/LLM4Decompile.git
cd LLM4Decompile
conda create -n 'llm4decompile' python=3.9 -y
conda activate llm4decompile
pip install -r requirements.txt

Aquí hay un ejemplo de cómo usar nuestro modelo (Revisado para V1.5. Para modelos anteriores, consulte la página del modelo correspondiente en HF). Nota: Reemplace "func0" con el nombre de la función que desea descompilar .

Preprocesamiento: compile el código C en binario y desmonte el binario en instrucciones de ensamblaje.

 import subprocess
import os
func_name = 'func0'
OPT = [ "O0" , "O1" , "O2" , "O3" ]
fileName = 'samples/sample' #'path/to/file'
for opt_state in OPT :
    output_file = fileName + '_' + opt_state
    input_file = fileName + '.c'
    compile_command = f'gcc -o { output_file } .o { input_file } - { opt_state } -lm' #compile the code with GCC on Linux
    subprocess . run ( compile_command , shell = True , check = True )
    compile_command = f'objdump -d { output_file } .o > { output_file } .s' #disassemble the binary file into assembly instructions
    subprocess . run ( compile_command , shell = True , check = True )
    
    input_asm = ''
    with open ( output_file + '.s' ) as f : #asm file
        asm = f . read ()
        if '<' + func_name + '>:' not in asm : #IMPORTANT replace func0 with the function name
            raise ValueError ( "compile fails" )
        asm = '<' + func_name + '>:' + asm . split ( '<' + func_name + '>:' )[ - 1 ]. split ( ' n n ' )[ 0 ] #IMPORTANT replace func0 with the function name
        asm_clean = ""
        asm_sp = asm . split ( " n " )
        for tmp in asm_sp :
            if len ( tmp . split ( " t " )) < 3 and '00' in tmp :
                continue
            idx = min (
                len ( tmp . split ( " t " )) - 1 , 2
            )
            tmp_asm = " t " . join ( tmp . split ( " t " )[ idx :])  # remove the binary code
            tmp_asm = tmp_asm . split ( "#" )[ 0 ]. strip ()  # remove the comments
            asm_clean += tmp_asm + " n "
    input_asm = asm_clean . strip ()
    before = f"# This is the assembly code: n " #prompt
    after = " n # What is the source code? n " #prompt
    input_asm_prompt = before + input_asm . strip () + after
    with open ( fileName + '_' + opt_state + '.asm' , 'w' , encoding = 'utf-8' ) as f :
        f . write ( input_asm_prompt )

Las instrucciones de montaje deben tener el formato:

<NOMBRE_FUNCCIÓN>:nOPERACIONESnOPERACIONESn

Las instrucciones de montaje típicas pueden verse así:

 <func0>:
endbr64
lea    (%rdi,%rsi,1),%eax
retq

Descompilación: utilice LLM4Decompile para traducir las instrucciones de ensamblaje a C:

 from transformers import AutoTokenizer , AutoModelForCausalLM
import torch

model_path = 'LLM4Binary/llm4decompile-6.7b-v1.5' # V1.5 Model
tokenizer = AutoTokenizer . from_pretrained ( model_path )
model = AutoModelForCausalLM . from_pretrained ( model_path , torch_dtype = torch . bfloat16 ). cuda ()

with open ( fileName + '_' + OPT [ 0 ] + '.asm' , 'r' ) as f : #optimization level O0
    asm_func = f . read ()
inputs = tokenizer ( asm_func , return_tensors = "pt" ). to ( model . device )
with torch . no_grad ():
    outputs = model . generate ( ** inputs , max_new_tokens = 2048 ) ### max length to 4096, max new tokens should be below the range
c_func_decompile = tokenizer . decode ( outputs [ 0 ][ len ( inputs [ 0 ]): - 1 ])

with open ( fileName + '.c' , 'r' ) as f : #original file
    func = f . read ()

print ( f'original function: n { func } ' ) # Note we only decompile one function, where the original file may contain multiple functions
print ( f'decompiled function: n { c_func_decompile } ' )

HumanEval-Descompilar

Los datos se almacenan en llm4decompile/decompile-eval/decompile-eval-executable-gcc-obj.json , utilizando el formato de lista JSON. Hay 164*4 (O0, O1, O2, O3) muestras, cada una con cinco claves:

task_id : indica el ID del problema.
type : la etapa de optimización es una de [O0, O1, O2, O3].
c_func : solución C para el problema HumanEval.
c_test : afirmaciones de prueba C.
input_asm_prompt : instrucciones de ensamblaje con indicaciones, se pueden derivar como en nuestro ejemplo de preprocesamiento.

Por favor consulte los guiones de evaluación.

En curso

Conjunto de datos de entrenamiento más grande con el proceso de limpieza. (hecho: 2024.05.13)
Soporte para idiomas/plataformas y configuraciones populares.
Soporte para binarios ejecutables. (hecho: 2024.05.13)
Integración con herramientas de descompilación (por ejemplo, Ghidra, Rizin)

Licencia

Este repositorio de código tiene la licencia MIT y DeepSeek.

Citación

 @misc{tan2024llm4decompile,
      title={LLM4Decompile: Decompiling Binary Code with Large Language Models}, 
      author={Hanzhuo Tan and Qi Luo and Jing Li and Yuqun Zhang},
      year={2024},
      eprint={2403.05286},
      archivePrefix={arXiv},
      primaryClass={cs.PL}
}

Historia de las estrellas

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-02
tamaño 9MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo