nom Download - nom -Quellcode -Download

nom

Anderer Quellcode

Herunterladen

nom, Essdaten -Byte nach Byte

Nom ist eine Parser -Kombinatorbibliothek in Rost. Sein Ziel ist es, Tools bereitzustellen, um sichere Parsers zu erstellen, ohne die Geschwindigkeit oder den Speicherverbrauch zu beeinträchtigen. Zu diesem Zweck verwendet es ausführlich die starke Schreib- und Speichersicherheit von Rost, um schnelle und korrekte Parser zu erzeugen, und bietet Funktionen, Makros und Merkmale, um den größten Teil des fehleranfälligsten Sanitärs abstrahieren.

Nom wird gerne ein Byte aus Ihren Dateien herausnehmen :)

Beispiel
Dokumentation
Warum NOM verwenden?
- Binärformat -Parser
- Textformat -Parser
- Programmiersprache Parser
- Streaming -Formate
Parser -Kombinatoren
Technische Funktionen
Anforderungen an Rostversion
Installation
Verwandte Projekte
Parser mit NOM geschrieben
Mitwirkende

Beispiel

Hexadezimaler Farbparser:

 use nom :: {
  bytes :: complete :: { tag , take_while_m_n } ,
  combinator :: map_res ,
  sequence :: Tuple ,
  IResult ,
  Parser ,
} ;

# [ derive ( Debug , PartialEq ) ]
pub struct Color {
  pub red : u8 ,
  pub green : u8 ,
  pub blue : u8 ,
}

fn from_hex ( input : & str ) -> Result < u8 , std :: num :: ParseIntError > {
  u8 :: from_str_radix ( input , 16 )
}

fn is_hex_digit ( c : char ) -> bool {
  c . is_digit ( 16 )
}

fn hex_primary ( input : & str ) -> IResult < & str , u8 > {
  map_res (
    take_while_m_n ( 2 , 2 , is_hex_digit ) ,
    from_hex
  ) . parse ( input )
}

fn hex_color ( input : & str ) -> IResult < & str , Color > {
  let ( input , _ ) = tag ( "#" ) ( input ) ? ;
  let ( input , ( red , green , blue ) ) = ( hex_primary , hex_primary , hex_primary ) . parse ( input ) ? ;
  Ok ( ( input , Color { red , green , blue } ) )
}

fn main ( ) {
  println ! ( "{:?}" , hex_color ( "#2F14DF" ) )
}

# [ test ]
fn parse_color ( ) {
  assert_eq ! (
    hex_color ( "#2F14DF" ) ,
    Ok ( (
      "" ,
      Color {
        red: 47 ,
        green: 20 ,
        blue: 223 ,
      }
    ) )
  ) ;
}

Dokumentation

Referenzdokumentation
Der Nominomicon: eine Anleitung zur Verwendung von NOM
Verschiedene Entwurfsdokumente und Tutorials
Liste der Kombinatoren und ihr Verhalten

Wenn Sie Hilfe bei der Entwicklung Ihrer Parser benötigen, pingen Sie geal auf IRC (Libera, Geeknode, Oftc), finden Sie zu #nom-parsers auf Libera IRC oder im Gitter-Chatraum.

Warum nom benutzen?

Wenn Sie schreiben möchten:

Binärformat -Parser

NOM wurde entwickelt, um Binärformate von Anfang an ordnungsgemäß zu analysieren. Im Vergleich zu den üblichen handgeschriebenen C -Parsers sind NOM -Parsers genauso schnell, frei von Pufferüberlaufschwachstellen und verarbeiten gemeinsame Muster für Sie:

Tlv
Bit -Level -Parsen
Hexadezimaler Betrachter in den Debugging -Makros für einfache Datenanalysen
Streaming von Parsers für Netzwerkformate und riesige Dateien

Beispielprojekte:

FLV -Parser
Matroska -Parser
Teer Parser

Textformat -Parser

Während Nom zunächst für ein binäres Format gemacht wurde, wurde es bald so gut mit Textformaten. Von leitebasierten Formaten wie CSV bis hin zu komplexeren, verschachtelten Formaten wie JSON kann NOM es verwalten und bietet Ihnen nützliche Tools:

Schneller Fall unempfindlicher Vergleich
Erkenner für entkommene Saiten
Regelmäßige Ausdrücke können in NOM -Parsers eingebettet werden, um komplexe Charaktermuster kurz und bündig darzustellen
Besondere Sorgfalt wurde für die ordnungsgemäße Verwaltung von Nicht -ASCII -Zeichen gewährt

Beispielprojekte:

HTTP -Proxy
Toml Parser

Programmiersprache Parser

Während die Programmiersprache Parser in der Regel für mehr Flexibilität und Leistung manuell geschrieben werden, kann NOM (und wurde erfolgreich) als Prototyping -Parser für eine Sprache verwendet.

NOM wird Sie schnell mit leistungsstarken benutzerdefinierten Fehlertypen beginnen, die Sie mit NOM_Locate nutzen können, um die genaue Zeile und Spalte des Fehlers zu bestimmen. Keine Notwendigkeit für separate Token-, Lexing- und Parsen -Phasen: NOM kann automatisch das Analysieren von Whitespace verarbeiten und ein AST an Ort und Stelle konstruieren.

Beispielprojekte:

PHP VM
XShade Shading Sprache

Streaming -Formate

Während viele Formate (und der Code, der sie bearbeitet) annehmen, dass sie die vollständigen Daten in den Speicher anpassen können, gibt es Formate, für die wir nur einen Teil der Daten gleichzeitig erhalten, z. B. Netzwerkformate oder riesige Dateien. NOM wurde für ein korrektes Verhalten mit Teildaten ausgelegt: Wenn nicht genügend Daten zur Entscheidung sind, wird NOM Ihnen mitgeteilt, dass es mehr benötigt, anstatt ein falsches Ergebnis stillschweigend zurückzugeben. Unabhängig davon, ob Ihre Daten vollständig oder in Stücken kommen, sollte das Ergebnis das gleiche sein.

Es ermöglicht Ihnen, leistungsstarke, deterministische Zustandsmaschinen für Ihre Protokolle zu erstellen.

Beispielprojekte:

HTTP -Proxy
NOM mit Generatoren verwenden

Parser -Kombinatoren

Parser -Kombinatoren sind ein Ansatz für Parsers, der sich sehr von Software wie Lex und YACC unterscheidet. Anstatt die Grammatik in eine separate Datei zu schreiben und den entsprechenden Code zu generieren, verwenden Sie sehr kleine Funktionen mit sehr spezifischem Zweck, z. Erkennen Sie 'http', dann einen Raum, dann eine Version ". Der resultierende Code ist klein und sieht aus wie die Grammatik, die Sie mit anderen Parser -Ansätzen geschrieben hätten.

Dies hat einige Vorteile:

Die Parser sind klein und leicht zu schreiben
Die Parser -Komponenten sind leicht wiederzuverwenden (wenn sie allgemein genug sind, fügen Sie sie zu nom!)
Die Parser-Komponenten sind einfach separat zu testen (Unit-Tests und Eigentumstests).
Der Parser -Kombinationscode sieht nahe an der Grammatik, die Sie geschrieben hätten
Sie können teilweise Parser erstellen, die für die Daten spezifisch sind, die Sie derzeit benötigen, und den Rest ignorieren

Technische Funktionen

Nom -Parsers sind für:

Byte-orientiert : Der Basistyp ist &[u8] und Parser werden in Byte-Array-Scheiben so viel wie möglich arbeiten (sind jedoch nicht auf sie beschränkt)
Bitorientiert : NOM kann eine Byte-Scheibe als ein bisschen Stream ansprechen
String-orientiert : Die gleiche Art von Kombinatoren kann auch auf UTF-8-Zeichenfolgen angewendet werden
Zero-Copy : Wenn ein Parser eine Teilmenge seiner Eingabedaten zurückgibt, gibt er eine Scheibe dieses Eingangs zurück, ohne zu kopieren
Streaming : NOM kann an Teildaten arbeiten und erkennen, wann mehr Daten erforderlich sind, um ein korrektes Ergebnis zu erzielen
Beschreibende Fehler : Die Parser können eine Liste von Fehlercodes mit Zeigern auf die belastete Eingabescheibe zusammenfassen. Diese Fehlerlisten können Muster angepasst werden, um nützliche Nachrichten bereitzustellen.
Benutzerdefinierte Fehlertypen : Sie können einen bestimmten Typ zur Verbesserung der von Parsers zurückgegebenen Fehler bereitstellen
Safe Parsing : Nom nutzt Rusts sichere Speicherhandhabung und leistungsstarke Typen, und Parser werden routinemäßig mit Daten der realen Welt versetzt und getestet. Bisher wurden die einzigen Fehler, die durch Fuzzing gefunden wurden, im Code, der außerhalb von NOM geschrieben wurde
Geschwindigkeit : Benchmarks haben gezeigt, dass NOM -Parsers viele Parser -Kombinatorbibliotheken wie Parsec und Attoparsec, einige regelmäßige Ausdrucksmotoren und sogar handgeschriebene C -Parsers häufig übertreffen

Einige Benchmarks sind auf Github erhältlich.

Anforderungen an Rostversion (MSRV)

Die 7.0 -Serie von NOM unterstützt RustC Version 1.56 oder mehr .

Die aktuelle Richtlinie ist, dass dies nur in der nächsten großen NOM -Veröffentlichung aktualisiert wird.

Installation

NOM ist auf crate.io erhältlich und kann in Ihrem von Fracht fähigen Projekt wie folgt aufgenommen werden:

[ dependencies ]
nom = " 7 "

Es gibt einige Zusammenstellungsfunktionen:

alloc : (standardmäßig aktiviert) Wenn NOM deaktiviert ist, kann NOM in no_std -Builds ohne Speicherballokatoren arbeiten. Wenn dies aktiviert ist, sind Kombinatoren, die (wie many0 ) zuweisen
std : (standardmäßig aktiviert, auch alloc aktiviert) Wenn deaktiviert wird, kann NOM in no_std -Builds arbeiten

Sie können diese Funktionen wie diese konfigurieren:

[ dependencies . nom ]
version = " 7 "
default-features = false
features = [ " alloc " ]

Parser mit NOM geschrieben

Hier ist eine (nicht erschöpfende) Liste bekannter Projekte mit NOM:

Textdateiformate: Ceph Crush, Cronenberg, E-Mail, XFS-Laufzeitstatistiken, CSV, Fasta, Fastq, INI, ISO 8601-Daten, Libconfig-ähnliche Konfigurationsdateiformat, Webarchiv, PDB, Proto-Dateien, Fountain Drehbuch Markup, Vimwiki & Vimwiki_Macros,, Kconfig -Sprache, Askama -Vorlagen
Programmiersprachen: PHP, Basic Calculator, GLSL, Lua, Python, SQL, ELM, Systemverilog, Turtle, CSML, WASM, Pseudocode, Filter für Meilisearch, PotterScript
Schnittstellendefinitionsformate: Sparsamkeit
Audio-, Video- und Bildformate: GIF, Magicavoxel .vox, MIDI, SWF, Welle, Matroska (MKV), EXIF/Metadata -Parser für JPEG/HEIF/HEIC/MOV/MP4
Dokumentformate: Tar, GZ, GDSII
Kryptografische Formate: x.509
Netzwerkprotokollformate: Bencode, D-Bus, DHCP, HTTP, URI, IMAP (ALT), IRC, PCAP-NG, PCAP, PCAP + PCAPNG, IKEV2, NTP, SNMP, Kerberos V5, Der, TLS, iPfix / Netflow V10 , GTP, SIP, SMTP, Prometheus
Sprachspezifikationen: BNF
Verschiedene Formate: Game Boy ROM, Ant Fit, Versionsnummern, Telekordien/Bellcore SR-4731 SOR OTDR-Dateien, MySQL Binary Log, URI, Furigana, Wurmergebnis, NBT

Möchten Sie einen neuen Parser mit nom erstellen? Hier finden Sie eine Liste der noch nicht implementierten Formate.

Möchten Sie Ihren Parser hier hinzufügen? Erstellen Sie eine Pull -Anfrage dafür!