Unduh nom - Unduh Kode Sumber nom

nom

Kode sumber lainnya

Unduh

nom, makan data byte byte

NOM adalah perpustakaan parser Combinators yang ditulis dalam karat. Tujuannya adalah untuk menyediakan alat untuk membangun parser yang aman tanpa mengurangi kecepatan atau konsumsi memori. Untuk itu, ia menggunakan pengetikan dan keamanan memori yang kuat dari Rust untuk menghasilkan parser yang cepat dan benar, dan menyediakan fungsi, makro, dan sifat untuk mengabstraksikan sebagian besar pipa rentan kesalahan.

NOM akan dengan senang hati mengeluarkan byte dari file Anda :)

Contoh
Dokumentasi
Mengapa Menggunakan Nom?
- Parser format biner
- Parser format teks
- Parser bahasa pemrograman
- Format streaming
Parser Combinators
Fitur teknis
Persyaratan versi karat
Instalasi
Proyek terkait
Parsers ditulis dengan nom
Kontributor

Contoh

Hexadecimal Color Parser:

 use nom :: {
  bytes :: complete :: { tag , take_while_m_n } ,
  combinator :: map_res ,
  sequence :: Tuple ,
  IResult ,
  Parser ,
} ;

# [ derive ( Debug , PartialEq ) ]
pub struct Color {
  pub red : u8 ,
  pub green : u8 ,
  pub blue : u8 ,
}

fn from_hex ( input : & str ) -> Result < u8 , std :: num :: ParseIntError > {
  u8 :: from_str_radix ( input , 16 )
}

fn is_hex_digit ( c : char ) -> bool {
  c . is_digit ( 16 )
}

fn hex_primary ( input : & str ) -> IResult < & str , u8 > {
  map_res (
    take_while_m_n ( 2 , 2 , is_hex_digit ) ,
    from_hex
  ) . parse ( input )
}

fn hex_color ( input : & str ) -> IResult < & str , Color > {
  let ( input , _ ) = tag ( "#" ) ( input ) ? ;
  let ( input , ( red , green , blue ) ) = ( hex_primary , hex_primary , hex_primary ) . parse ( input ) ? ;
  Ok ( ( input , Color { red , green , blue } ) )
}

fn main ( ) {
  println ! ( "{:?}" , hex_color ( "#2F14DF" ) )
}

# [ test ]
fn parse_color ( ) {
  assert_eq ! (
    hex_color ( "#2F14DF" ) ,
    Ok ( (
      "" ,
      Color {
        red: 47 ,
        green: 20 ,
        blue: 223 ,
      }
    ) )
  ) ;
}

Dokumentasi

Dokumentasi referensi
The Nominomicon: Panduan untuk Menggunakan Nom
Berbagai dokumen dan tutorial desain
Daftar kombinator dan perilaku mereka

Jika Anda membutuhkan bantuan untuk mengembangkan parser Anda, silakan ping geal di IRC (Libera, Geeknode, OFTC), kunjungi #nom-parsers di Libera IRC, atau di ruang obrolan gitter.

Mengapa menggunakan nom

Jika Anda ingin menulis:

Parser format biner

NOM dirancang untuk menguraikan format biner dengan benar sejak awal. Dibandingkan dengan parser C tulisan tangan biasa, parser nom sama cepatnya, bebas dari kerentanan buffer overflow, dan menangani pola umum untuk Anda:

Tlv
Parsing level bit
Penampil heksadesimal dalam makro debugging untuk analisis data yang mudah
Parser streaming untuk format jaringan dan file besar

Contoh Proyek:

FLV Parser
Parser Matroska
parser tar

Parser format teks

Sementara NOM dibuat untuk format biner pada awalnya, itu segera tumbuh dengan baik dengan format teks. Dari format berbasis garis seperti CSV, hingga format bersarang yang lebih kompleks seperti JSON, NOM dapat mengelolanya, dan memberi Anda alat yang berguna:

Perbandingan Kasus Tidak Sensitif Cepat
Pengenal untuk string yang melarikan diri
Ekspresi reguler dapat tertanam dalam parser nom untuk mewakili pola karakter yang kompleks secara ringkas
Perawatan khusus telah diberikan untuk mengelola karakter non ASCII dengan benar

Contoh Proyek:

HTTP Proxy
Toml Parser

Parser bahasa pemrograman

Sementara pemrograman parser bahasa biasanya ditulis secara manual untuk lebih banyak fleksibilitas dan kinerja, NOM dapat (dan telah berhasil) digunakan sebagai parser pembuatan prototipe untuk suatu bahasa.

NOM akan membuat Anda memulai dengan cepat dengan tipe kesalahan khusus yang kuat, yang dapat Anda manfaatkan dengan NOM_LOCATE untuk menentukan garis dan kolom kesalahan yang tepat. Tidak perlu untuk fase tokenizing, lexing, dan parsing terpisah: NOM dapat secara otomatis menangani penguraian whitespace, dan membangun AST di tempatnya.

Contoh Proyek:

PHP VM
Bahasa naungan xshade

Format streaming

Sementara banyak format (dan kode yang menangani mereka) berasumsi bahwa mereka dapat sesuai dengan data lengkap dalam memori, ada format yang kita hanya mendapatkan bagian dari data sekaligus, seperti format jaringan, atau file besar. NOM telah dirancang untuk perilaku yang benar dengan data parsial: jika tidak ada cukup data untuk memutuskan, NOM akan memberi tahu Anda bahwa itu membutuhkan lebih banyak daripada secara diam -diam mengembalikan hasil yang salah. Apakah data Anda sepenuhnya atau dalam potongan, hasilnya harus sama.

Ini memungkinkan Anda untuk membangun mesin negara yang kuat dan deterministik untuk protokol Anda.

Contoh Proyek:

HTTP Proxy
Menggunakan Nom dengan Generator

Parser Combinators

Parser Combinator adalah pendekatan untuk parser yang sangat berbeda dari perangkat lunak seperti Lex dan YACC. Alih -alih menulis tata bahasa dalam file terpisah dan menghasilkan kode yang sesuai, Anda menggunakan fungsi yang sangat kecil dengan tujuan yang sangat spesifik, seperti "ambil 5 byte", atau "mengenali kata 'http'", dan merakitnya dalam pola yang bermakna seperti " Kenali 'http', lalu ruang, lalu versi ". Kode yang dihasilkan kecil, dan terlihat seperti tata bahasa yang akan Anda tulis dengan pendekatan parser lainnya.

Ini memiliki beberapa keunggulan:

Parsernya kecil dan mudah ditulis
Komponen parsers mudah digunakan kembali (jika cukup umum, silakan tambahkan mereka ke nom!)
Komponen parsers mudah diuji secara terpisah (tes unit dan tes berbasis properti)
Kode kombinasi parser terlihat dekat dengan tata bahasa yang akan Anda tulis
Anda dapat membangun parser parsial, khusus untuk data yang Anda butuhkan saat ini, dan mengabaikan sisanya

Fitur teknis

Parsers nom adalah untuk:

Berorientasi byte : Jenis dasarnya adalah &[u8] dan parser akan bekerja sebanyak mungkin pada irisan array byte (tetapi tidak terbatas pada mereka)
Bit-Oriented : NOM dapat mengatasi irisan byte sebagai aliran bit
Berorientasi String : Jenis kombinator yang sama dapat diterapkan pada string UTF-8 juga
nol-copy : Jika parser mengembalikan subset dari data inputnya, ia akan mengembalikan sepotong input itu, tanpa menyalin
Streaming : NOM dapat bekerja pada data parsial dan mendeteksi saat membutuhkan lebih banyak data untuk menghasilkan hasil yang benar
Kesalahan Deskriptif : Parser dapat mengumpulkan daftar kode kesalahan dengan pointer ke irisan input yang terburuk. Daftar kesalahan tersebut dapat dicocokkan dengan pola untuk memberikan pesan yang bermanfaat.
Jenis Kesalahan Kustom : Anda dapat memberikan jenis tertentu untuk meningkatkan kesalahan yang dikembalikan oleh parser
Parsing yang aman : NOM memanfaatkan penanganan memori yang aman Rust dan tipe -tipe yang kuat, dan parser secara rutin disebabkan dan diuji dengan data dunia nyata. Sejauh ini, satu -satunya kekurangan yang ditemukan dengan fuzzing adalah dalam kode yang ditulis di luar nom
Kecepatan : tolok ukur telah menunjukkan bahwa parser nom sering mengungguli banyak perpustakaan parser kombinator seperti parsec dan attoparsec, beberapa mesin ekspresi reguler dan bahkan tanda tangan tulisan tangan

Beberapa tolok ukur tersedia di GitHub.

Persyaratan Versi Karat (MSRV)

Seri 7,0 NOM mendukung RustC Versi 1.56 atau lebih besar .

Kebijakan saat ini adalah bahwa ini hanya akan diperbarui dalam rilis NOM utama berikutnya.

Instalasi

NOM tersedia di Crates.io dan dapat dimasukkan dalam proyek yang diaktifkan kargo Anda seperti ini:

[ dependencies ]
nom = " 7 "

Ada beberapa fitur kompilasi:

alloc : (diaktifkan secara default) Jika dinonaktifkan, NOM dapat bekerja di no_std BUILD tanpa alokasi memori. Jika diaktifkan, kombinator yang mengalokasikan (seperti many0 ) akan tersedia
std : (diaktifkan secara default, aktifkan alloc juga) jika dinonaktifkan, NOM dapat bekerja di no_std builds

Anda dapat mengonfigurasi fitur -fitur seperti ini:

[ dependencies . nom ]
version = " 7 "
default-features = false
features = [ " alloc " ]

Proyek terkait

Dapatkan info baris dan kolom dalam jenis input NOM
Menggunakan nom sebagai lexer dan parser

Parsers ditulis dengan nom

Berikut adalah daftar proyek yang diketahui (tidak lengkap) menggunakan NOM:

Text file formats: Ceph Crush, Cronenberg, Email, XFS Runtime Stats, CSV, FASTA, FASTQ, INI, ISO 8601 dates, libconfig-like configuration file format, Web archive, PDB, proto files, Fountain screenplay markup, vimwiki & vimwiki_macros, Bahasa kconfig, template askama
Bahasa Pemrograman: PHP, Kalkulator Dasar, GLSL, LUA, Python, SQL, ELM, Systemverilog, Turtle, CSML, WASM, Pseudocode, Filter untuk Meilisearch, Potterscript
Format Definisi Antarmuka: Thrift
Format Audio, Video dan Gambar: GIF, MagicAvoxel .vox, MIDI, SWF, Wave, Matroska (MKV), Exif/Metadata Parser untuk JPEG/Heif/Heic/MOV/MP4
Format Dokumen: Tar, GZ, GDSII
Format kriptografi: x.509
Format Protokol Jaringan: Bencode, D-Bus, DHCP, HTTP, URI, IMAP (ALT), IRC, PCAP-NG, PCAP, PCAP + PCAPNG, IKEV2, NTP, SNMP, Kerberos V5, DER, TLS, IPFIX / NetFFLOW V10 , GTP, SIP, SMTP, Prometheus
Spesifikasi Bahasa: BNF
Format Misc: Game Boy Rom, Fit Ant, Nomor Versi, Telcordia/Bellcore SR-4731 Sor OTDR File, Log Biner MySQL, URI, Furigana, Hasil Wordle, NBT

Ingin membuat parser baru menggunakan nom ? Daftar format yang belum diimplementasikan tersedia di sini.

Ingin menambahkan parser Anda di sini? Buat permintaan tarik untuk itu!