hardf Download - hardf Quellcode herunterladen

Der hardf -Turtle-, N-Triples-, N-Quads-, TriG- und N3-Parser für PHP

hardf ist eine PHP 7.1+-Bibliothek, mit der Sie Linked Data (RDF) verarbeiten können. Es bietet:

Parsen von Tripeln/Quads aus Turtle, TriG, N-Triples, N-Quads und Notation3 (N3)
Schreiben von Triples/Quads in Turtle, TriG, N-Triples und N-Quads

Sowohl der Parser als auch der Serializer unterstützen Streaming .

Diese Bibliothek ist eine Portierung von N3.js auf PHP

Dreifache Vertretung

Wir verwenden die dreifache Darstellung in PHP, portiert aus der NodeJS N3.js-Bibliothek. Weitere Informationen finden Sie unter https://github.com/rdfjs/N3.js/tree/v0.10.0#triple-representation

Wir haben uns bewusst auf die Leistung konzentriert und nicht auf die Entwicklerfreundlichkeit. Wir haben diese dreifache Darstellung daher mithilfe assoziativer Arrays anstelle von PHP-Objekten implementiert. Somit ist dasselbe, was für N3.js gilt, jetzt ein Array. Z.B:

 <?php
$ triple = [
    ' subject ' =>   ' http://example.org/cartoons#Tom ' ,
    ' predicate ' => ' http://www.w3.org/1999/02/22-rdf-syntax-ns#type ' ,
    ' object ' =>    ' http://example.org/cartoons#Cat ' ,
    ' graph ' =>     ' http://example.org/mycartoon ' , #optional
    ];

Codieren Sie Literale wie folgt (ähnlich wie N3.js)

 ' "Tom"@en-gb ' // lowercase language
'" 1 "^^http: //www.w3.org/2001/XMLSchema#integer' // no angular brackets <>

Bibliotheksfunktionen

Installieren Sie diese Bibliothek mit Composer:

composer require pietercolpaert/ hardf

Schreiben

 use pietercolpaert  hardf  TriGWriter ;

Eine Klasse, die instanziiert werden sollte und TriG oder Turtle schreiben kann

Beispielanwendung:

 $ writer = new TriGWriter ([
    " prefixes " => [
        " schema " => " http://schema.org/ " ,
        " dct " => " http://purl.org/dc/terms/ " ,
        " geo " => " http://www.w3.org/2003/01/geo/wgs84_pos# " ,
        " rdf " => " http://www.w3.org/1999/02/22-rdf-syntax-ns# " ,
        " rdfs " => " http://www.w3.org/2000/01/rdf-schema# "
        ],
    " format " => " n-quads " //Other possible values: n-quads, trig or turtle
]);

$ writer -> addPrefix ( " ex " , " http://example.org/ " );
$ writer -> addTriple ( " schema:Person " , " dct:title " , "" Person " @en " , " http://example.org/#test " );
$ writer -> addTriple ( " schema:Person " , " schema:label " , "" Person " @en " , " http://example.org/#test " );
$ writer -> addTriple ( " ex:1 " , " dct:title " , "" Person1 " @en " , " http://example.org/#test " );
$ writer -> addTriple ( " ex:1 " , " http://www.w3.org/1999/02/22-rdf-syntax-ns#type " , " schema:Person " , " http://example.org/#test " );
$ writer -> addTriple ( " ex:2 " , " dct:title " , "" Person2 " @en " , " http://example.org/#test " );
$ writer -> addTriple ( " schema:Person " , " dct:title " , "" Person " @en " , " http://example.org/#test2 " );
echo $ writer -> end ();

Alle Methoden

 //The method names should speak for themselves:
$ writer = new TriGWriter ([ " prefixes " : [ /* ... */ ]]);
$ writer -> addTriple ( $ subject , $ predicate , $ object , $ graphl );
$ writer -> addTriples ( $ triples );
$ writer -> addPrefix ( $ prefix , $ iri );
$ writer -> addPrefixes ( $ prefixes );
//Creates blank node($predicate and/or $object are optional)
$ writer -> blank ( $ predicate , $ object );
//Creates rdf:list with $elements
$ list = $ writer -> addList ( $ elements );

//Returns the current output it is already able to create and clear the internal memory use (useful for streaming)
$ out .= $ writer -> read ();
//Alternatively, you can listen for new chunks through a callback:
$ writer -> setReadCallback ( function ( $ output ) { echo $ output });

//Call this at the end. The return value will be the full triple output, or the rest of the output such as closing dots and brackets, unless a callback was set.
$ out .= $ writer -> end ();
//OR
$ writer -> end ();

Parsing

Neben TriG analysiert die TriGParser-Klasse auch Turtle, N-Triples, N-Quads und die W3C Team Submission N3

Alle Methoden

 $ parser = new TriGParser ( $ options , $ tripleCallback , $ prefixCallback );
$ parser -> setTripleCallback ( $ function );
$ parser -> setPrefixCallback ( $ function );
$ parser -> parse ( $ input , $ tripleCallback , $ prefixCallback );
$ parser -> parseChunk ( $ input );
$ parser -> end ();

Grundlegende Beispiele für kleine Dateien

Rückgabewerte verwenden und diese an einen Writer übergeben:

hardfTriGParser; use pietercolpaert hardf TriGWriter; $parser = new TriGParser(["format" => "n-quads"]); //also parser n-triples, n3, turtle and trig. Format is optional $writer = new TriGWriter(); $triples = $parser->parse("<A> <B> <C> <G> ."); $writer->addTriples($triples); echo $writer->end();">

 use pietercolpaert  hardf  TriGParser ;
use pietercolpaert  hardf  TriGWriter ;
$ parser = new TriGParser ([ " format " => " n-quads " ]); //also parser n-triples, n3, turtle and trig. Format is optional
$ writer = new TriGWriter ();
$ triples = $ parser -> parse ( " <A> <B> <C> <G> . " );
$ writer -> addTriples ( $ triples );
echo $ writer -> end ();

Rückrufe verwenden und diese an einen Autor übergeben:

 $ parser = new TriGParser ();
$ writer = new TriGWriter ([ " format " => " trig " ]);
$ parser -> parse ( " <http://A> <https://B> <http://C> <http://G> . <A2> <https://B2> <http://C2> <http://G3> . " , function ( $ e , $ triple ) use ( $ writer ) {
    if (! isset ( $ e ) && isset ( $ triple )) {
        $ writer -> addTriple ( $ triple );
        echo $ writer -> read (); //write out what we have so far
    } else if (! isset ( $ triple ))      // flags the end of the file
        echo $ writer -> end ();  //write the end
    else
        echo " Error occured: " . $ e ;
});

Beispiel für die Verwendung von Chunks und das Beibehalten von Präfixen

Wenn Sie eine große Datei analysieren müssen, müssen Sie nur Teile analysieren und diese bereits verarbeiten. Das können Sie wie folgt machen:

 $ writer = new TriGWriter ([ " format " => " n-quads " ]);
$ tripleCallback = function ( $ error , $ triple ) use ( $ writer ) {
    if ( isset ( $ error ))
        throw $ error ;
    else if ( isset ( $ triple )) {
        $ writer -> write ();
        echo $ writer -> read ();
    else if ( isset ( $ error )) {
        throw $ error ;
    } else {
        echo $ writer -> end ();
    }
};
$ prefixCallback = function ( $ prefix , $ iri ) use (& $ writer ) {
    $ writer -> addPrefix ( $ prefix , $ iri );
};
$ parser = new TriGParser ([ " format " => " trig " ], $ tripleCallback , $ prefixCallback );
$ parser -> parseChunk ( $ chunk );
$ parser -> parseChunk ( $ chunk );
$ parser -> parseChunk ( $ chunk );
$ parser -> end (); //Needs to be called

Parser-Optionen

format Eingabeformat (Groß-/Kleinschreibung wird nicht beachtet)
- Wenn sie nicht bereitgestellt werden oder mit den folgenden Optionen nicht übereinstimmen, können alle Turtle-, TriG-, N-Triples- oder N-Quads-Eingaben geparst werden (jedoch NICHT die N3).
- turtle - Schildkröte
- trig - TriG
- enthält triple , z. B. triple , ntriples , N-Triples – N-Triples
- enthält quad , z. B. quad , nquads , N-Quads – N-Quads
- enthält n3 , zB n3 - N3
blankNodePrefix (standardmäßig b0_ ) Präfix, das bei leeren Knotennamen erzwungen wird, z. B. TriGWriter(["blankNodePrefix" => 'foo']) analysiert _:bar als _:foobar .
documentIRI legt den Basis-URI fest, der zum Auflösen relativer URIs verwendet wird (gilt nicht, wenn format n-Triples oder n-Quads angibt)
lexer ermöglicht die Verwendung einer eigenen Lexer-Klasse. Ein Lexer muss die folgenden öffentlichen Methoden bereitstellen:
- tokenize(string $input, bool $finalize = true): array<array{'subject': string, 'predicate': string, 'object': string, 'graph': string}>
- tokenizeChunk(string $input): array<array{'subject': string, 'predicate': string, 'object': string, 'graph': string}>
- end(): array<array{'subject': string, 'predicate': string, 'object': string, 'graph': string}>
explicitQuantifiers - [...]

Leere Dokumentenbasis IRI

Einige Turtle- und N3-Dokumente verwenden möglicherweise die IRI-Syntax relativ zur Basis-IRI (siehe hier und hier), z

 <> <someProperty> "some value" .

Um solche Dokumente richtig zu analysieren, muss der Dokumentenbasis-IRI bekannt sein. Andernfalls könnten wir leere IRIs erhalten (z. B. für den Betreff im obigen Beispiel).

Manchmal ist der Basis-IRI im Dokument kodiert, z

 @base <http://some.base/iri/> .
<> <someProperty> "some value" .

aber manchmal fehlt es. In einem solchen Fall verlangt die Turtle-Spezifikation, dass wir Abschnitt 5.1.1 des RFC3986 befolgen, der besagt, dass, wenn der Basis-IRI nicht im Dokument gekapselt ist, davon ausgegangen werden sollte, dass es sich um den Dokumentenabruf-URI handelt (z. B. die URL, von der Sie das Dokument heruntergeladen haben). von oder ein in eine URL umgewandelter Dateipfad). Leider kann dies vom hardf -Parser nicht erraten werden und muss von Ihnen mithilfe der Option zur Erstellung documentIRI Parsers bereitgestellt werden, z

parser = new TriGParser ([ " documentIRI " => " http://some.base/iri/ " ]);

Um es kurz subject/predicate/object on line X can not be parsed without knowing the the document base IRI.(...) documentIRI Sie in Zeile

Dienstprogramm

 use pietercolpaert  hardf  Util ;

Eine statische Klasse mit einigen hilfreichen Funktionen zur Handhabung unserer spezifischen Dreifachdarstellung. Es hilft Ihnen, Literale und IRIs zu erstellen und auszuwerten und Präfixe zu erweitern.

 $ bool = isIRI ( $ term );
$ bool = isLiteral ( $ term );
$ bool = isBlank ( $ term );
$ bool = isDefaultGraph ( $ term );
$ bool = inDefaultGraph ( $ triple );
$ value = getLiteralValue ( $ literal );
$ literalType = getLiteralType ( $ literal );
$ lang = getLiteralLanguage ( $ literal );
$ bool = isPrefixedName ( $ term );
$ expanded = expandPrefixedName ( $ prefixedName , $ prefixes );
$ iri = createIRI ( $ iri );
$ literalObject = createLiteral ( $ value , $ modifier = null );

Weitere Informationen finden Sie in der Dokumentation unter https://github.com/RubenVerborgh/N3.js#utility.

Zwei ausführbare Dateien

Als Beispielimplementierung bieten wir auch zwei einfache Tools in bin/ an: einen Validator und einen Übersetzer. Versuchen Sie zum Beispiel:

curl -H " accept: application/trig " http://fragments.dbpedia.org/2015/en | php bin/validator.php trig
curl -H " accept: application/trig " http://fragments.dbpedia.org/2015/en | php bin/convert.php trig n-triples

Leistung

Wir haben die Leistung zweier Turtle-Dateien verglichen und sie mit der EasyRDF-Bibliothek in PHP, der N3.js-Bibliothek für NodeJS und mit hardf analysiert. Das waren die Ergebnisse:

#triples	Rahmen	Zeit (ms)	Speicher (MB)
1.866	hardf ohne Opcache	27.6	0,722
1.866	hardf mit Opcache	24.5	0,380
1.866	EasyRDF ohne Opcache	5.166,5	2.772
1.866	EasyRDF mit Opcache	5.176,2	2.421
1.866	ARC2 mit Opcache	71.9	1.966
1.866	N3.js	24.0	28.xxx
3.896.560	hardf ohne Opcache	40.017,7	0,722
3.896.560	hardf mit Opcache	33.155,3	0,380
3.896.560	N3.js	7.004,0	59.xxx
3.896.560	ARC2 mit Opcache	203.152,6	3.570.808

Lizenz, Status und Beiträge

Das Urheberrecht der hardf -Bibliothek liegt bei Ruben Verborgh und Pieter Colpaert und sie wird unter der MIT-Lizenz veröffentlicht.

Beiträge sind willkommen und Fehlerberichte oder Pull-Requests sind immer hilfreich. Wenn Sie planen, eine größere Funktion zu implementieren, besprechen Sie dies am besten zunächst, indem Sie ein Problem einreichen.

Expandieren