Téléchargement nom - Téléchargement du code source nom

nom

Autre code source

Télécharger

nom, manger des données octet par octet

Nom est une bibliothèque de combinateurs d'analyseurs écrits en rouille. Son objectif est de fournir des outils pour construire des analyseurs sûrs sans compromettre la vitesse ou la consommation de mémoire. À cette fin, il utilise largement la forte sécurité de la rouille et la sécurité de la mémoire pour produire des analyseurs rapides et corrects, et fournit des fonctions, des macros et des traits pour résumer la majeure partie de la plomberie sujette aux erreurs.

Nom retirera joyeusement un octet de vos fichiers :)

Exemple
Documentation
Pourquoi utiliser NOM?
- Analyseurs de format binaire
- Analyseurs de format de texte
- PROGRAMMATION DES PLAGES DE LANGUE
- Formats de streaming
Combinateurs d'analyseurs
Caractéristiques techniques
Exigences de la version de la rouille
Installation
Projets connexes
Analyseurs écrits avec nom
Contributeurs

Exemple

Analyseur de couleur hexadécimale:

 use nom :: {
  bytes :: complete :: { tag , take_while_m_n } ,
  combinator :: map_res ,
  sequence :: Tuple ,
  IResult ,
  Parser ,
} ;

# [ derive ( Debug , PartialEq ) ]
pub struct Color {
  pub red : u8 ,
  pub green : u8 ,
  pub blue : u8 ,
}

fn from_hex ( input : & str ) -> Result < u8 , std :: num :: ParseIntError > {
  u8 :: from_str_radix ( input , 16 )
}

fn is_hex_digit ( c : char ) -> bool {
  c . is_digit ( 16 )
}

fn hex_primary ( input : & str ) -> IResult < & str , u8 > {
  map_res (
    take_while_m_n ( 2 , 2 , is_hex_digit ) ,
    from_hex
  ) . parse ( input )
}

fn hex_color ( input : & str ) -> IResult < & str , Color > {
  let ( input , _ ) = tag ( "#" ) ( input ) ? ;
  let ( input , ( red , green , blue ) ) = ( hex_primary , hex_primary , hex_primary ) . parse ( input ) ? ;
  Ok ( ( input , Color { red , green , blue } ) )
}

fn main ( ) {
  println ! ( "{:?}" , hex_color ( "#2F14DF" ) )
}

# [ test ]
fn parse_color ( ) {
  assert_eq ! (
    hex_color ( "#2F14DF" ) ,
    Ok ( (
      "" ,
      Color {
        red: 47 ,
        green: 20 ,
        blue: 223 ,
      }
    ) )
  ) ;
}

Documentation

Documentation de référence
Le nominomicon: un guide pour utiliser le nom
Divers documents de conception et tutoriels
Liste des combinateurs et leur comportement

Si vous avez besoin d'aide pour développer vos analyseurs, veuillez ping geal sur IRC (Libera, GeekNode, Oftc), allez chez #nom-parsers sur Libera IRC ou sur la salle de chat Gitter.

Pourquoi utiliser NOM

Si vous voulez écrire:

Analyseurs de format binaire

NOM a été conçu pour analyser correctement les formats binaires depuis le début. Par rapport aux analyseurs C manuscrits habituels, les analyseurs NOM sont tout aussi rapides, exempts de vulnérabilités de débordement de tampon et gèrent les modèles communs pour vous:

TLV
Analyse de niveau bits
Visionneuse hexadécimale dans les macros de débogage pour une analyse des données faciles
Streaming Analyse pour les formats réseau et les fichiers énormes

Exemples de projets:

Analyseur FLV
Analyseur de matroska
analyseur de goudron

Analyseurs de format de texte

Bien que NOM ait été fait pour le format binaire au début, il s'est vite connu du travail aussi bien avec les formats de texte. Des formats en ligne comme CSV, aux formats plus complexes et imbriqués tels que JSON, NOM peuvent le gérer et vous fournit des outils utiles:

Comparaison insensible à cas rapide
Reconnours pour les cordes échappées
Des expressions régulières peuvent être intégrées dans des analyseurs de nom pour représenter succinctement les modèles de caractère complexes
Des soins spéciaux ont été donnés à gérer correctement les caractères non ASCII

Exemples de projets:

Proxy http
Animal d'analyse

PROGRAMMATION DES PLAGES DE LANGUE

Bien que les analyseurs de langage de programmation soient généralement écrits manuellement pour plus de flexibilité et de performances, le nom peut être (et a été utilisé avec succès) comme analyseur de prototypage pour une langue.

NOM vous permettra de démarrer rapidement avec de puissants types d'erreur personnalisés, que vous pouvez exploiter avec NOM_LOCE pour identifier la ligne et la colonne exactes de l'erreur. Pas besoin de phases séparées de tokenisage, de lexing et d'analyse: NOM peut gérer automatiquement l'analyse des espaces blancs et construire un AST en place.

Exemples de projets:

VM PHP
Langue d'ombrage Xshade

Formats de streaming

Alors que de nombreux formats (et le code qui les gère) supposent qu'ils peuvent s'adapter aux données complètes en mémoire, il existe des formats pour lesquels nous n'obtenons qu'une partie des données à la fois, comme des formats de réseau ou des fichiers énormes. Le nom a été conçu pour un comportement correct avec des données partielles: s'il n'y a pas suffisamment de données pour décider, NOM vous dira qu'il a besoin de plus au lieu de renvoyer silencieusement un mauvais résultat. Que vos données soient entièrement ou en morceaux, le résultat devrait être le même.

Il vous permet de construire des machines d'État puissantes et déterministes pour vos protocoles.

Exemples de projets:

Proxy http
Utilisation de NOM avec des générateurs

Combinateurs d'analyseurs

Les combinateurs d'analyseurs sont une approche des analyseurs qui est très différent de logiciels comme Lex et YACC. Au lieu d'écrire la grammaire dans un fichier séparé et de générer le code correspondant, vous utilisez de très petites fonctions avec un objectif très spécifique, comme "prendre 5 octets", ou "reconnaître le mot" http "", et les assembler dans des modèles significatifs comme " Reconnaissez 'http', puis un espace, puis une version ". Le code résultant est petit et ressemble à la grammaire que vous auriez écrite avec d'autres approches d'analyse.

Cela présente quelques avantages:

Les analyseurs sont petits et faciles à écrire
Les composants des analyseurs sont faciles à réutiliser (s'ils sont assez généraux, veuillez les ajouter à NOM!)
Les composants des analyseurs sont faciles à tester séparément (tests unitaires et tests basés sur la propriété)
Le code de combinaison d'analyse regarde près de la grammaire que vous auriez écrite
Vous pouvez construire des analyseurs partiels, spécifiques aux données dont vous avez besoin pour le moment, et ignorer le reste

Caractéristiques techniques

Les analyseurs de nom sont pour:

Orienté octet : le type de base est &[u8] et les analyseurs fonctionneront autant que possible sur les tranches de tableau d'octets (mais sans s'y limiter)
axé sur les bits : le nom peut aborder une tranche d'octets en tant que flux un peu
orienté vers la chaîne : le même type de combinateurs peut également s'appliquer sur les chaînes UTF-8
Zero-copy : Si un analyseur renvoie un sous-ensemble de ses données d'entrée, il renverra une tranche de cette entrée, sans copier
Streaming : NOM peut fonctionner sur des données partielles et détecter quand elle a besoin de plus de données pour produire un résultat correct
Erreurs descriptives : les analyseurs peuvent agréger une liste de codes d'erreur avec des pointeurs vers la tranche d'entrée incriminée. Ces listes d'erreurs peuvent être appariées pour fournir des messages utiles.
Types d'erreur personnalisés : vous pouvez fournir un type spécifique pour améliorer les erreurs renvoyées par les analyseurs
Analyse sûre : le nom exploite la gestion de la mémoire sûre de Rust et les types puissants, et les analyseurs sont systématiquement floues et testés avec des données réelles. Jusqu'à présent, les seuls défauts trouvés par Fuzzing étaient dans le code écrit en dehors de NOM
VITESSE : Les références ont montré que les analyseurs NOM surpassent souvent de nombreuses bibliothèques de combinateurs d'analyseurs comme Parsec et Atoparsec, certains moteurs d'expression réguliers et même les analyseurs C manuscrits

Certains repères sont disponibles sur GitHub.

Exigences de la version de la rouille (MSRV)

La série 7.0 de NOM prend en charge RustC version 1.56 ou plus .

La politique actuelle est que cela ne sera mis à jour que lors de la prochaine version majeure du nom.

Installation

NOM est disponible sur Crates.io et peut être inclus dans votre projet compatible avec cargaison comme celui-ci:

[ dependencies ]
nom = " 7 "

Il existe quelques caractéristiques de compilation:

alloc : (activé par défaut) Si désactivé, NOM peut fonctionner dans les builds no_std sans allocateurs de mémoire. S'il est activé, les combinateurs qui allacent (comme many0 ) seront disponibles
std : (activé par défaut, active aussi alloc ) Si désactivé, le nom peut fonctionner dans les versions no_std

Vous pouvez configurer ces fonctionnalités comme celle-ci:

[ dependencies . nom ]
version = " 7 "
default-features = false
features = [ " alloc " ]

Projets connexes

Obtenez des informations sur la ligne et la colonne dans le type d'entrée du nom
Utilisation de NOM comme Lexer et Parser

Analyseurs écrits avec nom

Voici une liste (non exhaustive) de projets connus utilisant NOM:

Formats de fichiers texte: Ceph Crush, Cronenberg, Email, XFS Runtime Stats, CSV, Fasta, FastQ, INI, ISO 8601 Dates, Format de fichiers de configuration de type LibConfig, archive Web, PDB, Fichiers Proto, Sécréat de fontaine, Vimwiki & vimwiki_Macros, Fountain Scénario Langue Kconfig, modèles Askama
Langages de programmation: PHP, calculatrice de base, GLSL, LUA, Python, SQL, ELM, Systemverilog, Turtle, CSML, WASM, Pseudocode, filtre pour MeiliSearch, Potterscript
Formats de définition de l'interface: Thrift
Formats audio, vidéo et image: GIF, MagicAvoxel .Vox, MIDI, SWF, Wave, Matroska (MKV), Analyser EXIF / Metadata pour JPEG / HEIF / HEIC / MOV / MP4
Formats de documents: Tar, GZ, GDSII
Formats cryptographiques: x.509
Formats de protocole réseau: Bencode, D-Bus, DHCP, HTTP, URI, IMAP (ALT), IRC, PCAP-NG, PCAP, PCAP + PCAPNG, IKEV2, NTP, SNMP, KERBEROS V5, DER, TLS, IPFIX / NETFLOW V10 , GTP, SIP, SMTP, Prométhée
Spécifications de la langue: BNF
Formats Misc: Game Boy Rom, Ant Fit, numéros de version, fichiers Telcordia / Bellcore SR-4731 Sor OTDR, journal binaire MySQL, URI, Furiganana, Résultat de Bordle, NBT

Vous voulez créer un nouvel analyseur en utilisant nom ? Une liste de formats non implémentés est disponible ici.

Vous voulez ajouter votre analyseur ici? Créez une demande de traction pour cela!