Cette extension fournit plusieurs fonctionnalités utiles pour les utilisateurs d'OpenFine qui souhaitent modifier (données structurées de) fichiers multimédias (images, vidéos, pdfs ...) sur Wikimedia Commons . Pour plus d'informations, la documentation et les how-tos sur OpenRefine pour Wikimedia Commons, voir https://commons.wikimedia.org/wiki/Commons:OpenRefine .
Caractéristiques incluses dans cette extension:
Démarrez un projet OpenRefine en chargeant des noms de fichiers à partir d'une ou plusieurs catégories Wikimedia Commons (y compris la profondeur de catégorie)
Ajouter des colonnes avec des catégories communes et / ou des M-ID de chaque nom de fichier
Les noms de fichiers seront déjà réconciliés lors du démarrage du projet
Quelques commandes GREL dédiées permettent le traitement et l'extraction de base de Wikitext: extractFromTemplate
et value.extractCategories
(Dans la version 0.1.1 de cette extension et ultérieure) Prise en charge de base pour les prévisualistes miniatures des fichiers de fichiers Wikimedia Commons existants. Les vignettes sont affichées pour certains types / extensions de fichiers (mais pas tous). Il y a actuellement une prise en charge miniature pour les fichiers JPEG, GIF, PNG, DJVU, PDF, SVG, WebM et OGV.
Il fonctionne avec OpenRefine 3.6.x et versions ultérieures d'OpenRefine . Il n'est pas compatible avec OpenRefine 3.5.x ou plus tôt. (OpenRefine prend en charge l'édition Wikimedia Commons de la version 3.6; ce n'est pas possible dans les versions antérieures.)
Cette prolongation a été publiée pour la première fois en octobre 2022. Il a été financé par une subvention de projet Wikimedia.
Téléchargez le fichier .zip de la dernière version de cette extension. Décompressez ce fichier et placez le dossier dézippé dans votre dossier OpenRefine Extensions. En savoir plus sur l'installation d'extensions dans le manuel d'utilisation d'OpenRefine.
Lorsque cette extension est installée correctement, vous verrez maintenant l'option supplémentaire «Wikimedia Commons» lors du démarrage d'un nouveau projet dans OpenRefine.
Après avoir installé cette extension, cliquez sur l'option «Wikimedia Commons» pour démarrer un nouveau projet dans OpenRefine. Vous serez invité à ajouter une ou plusieurs catégories Wikimedia Commons.
Il n'est pas nécessaire de taper la catégorie: préfixe.
Vous pouvez spécifier la profondeur de catégorie en tapant ou en sélectionnant un nombre dans le champ de saisie après chaque catégorie. La profondeur 0
signifie uniquement les fichiers du niveau de catégorie actuel; La profondeur 1
récupérera les fichiers d'un niveau de sous-catégorie vers le bas, etc.
Ensuite, dans l'écran de prévisualisation du projet ( Configure parsing options
), vous pouvez également choisir d'inclure également une colonne avec les catégories M-ID (IDM MediAnfo Unique MediAnfo) et / ou Commons.
Les noms de fichiers seront déjà réconciliés au début de votre projet.
Lorsque vous chargez des catégories plus grandes (des milliers de fichiers) dans un nouveau projet, OpenRefine commencera lentement et vous donnera un avertissement de mémoire. C'est un problème connu. Attendez un peu; Le projet finira par commencer. L'extension Commons a été testée avec un projet de plus de 450 000 fichiers.
L'extension Wikimedia Commons permet également deux commandes GREL dédiées, qui aident à extraire des informations spécifiques du Wikitext des fichiers Wikimedia Commons. (Grel, General Affine Expression Language, est un langage de script dédié utilisé dans OpenRefine pour de nombreuses opérations de données flexibles. Pour une référence générale sur l'utilisation de Grel dans OpenRefine, voir https://docs.openrefine.org/manual/grelfunctions.)
Tout d'abord, récupérez le wikitext à partir d'une liste de fichiers Commons dans votre projet. Dans le menu de colonne de la colonne des noms de fichiers réconciliés, sélectionnez Edit column
> Add column from reconciled values...
et sélectionnez Wikitext
dans la fenêtre de dialogue résultante.
À partir de cette nouvelle colonne avec Wikitext, vous pouvez désormais extraire des valeurs et des catégories comme décrit ci-dessous. Commencez par sélectionner Edit column
> Add column based on this column...
dans le menu de la colonne. Dans la fenêtre de dialogue suivante, vous pouvez utiliser diverses commandes GREL spécifiques:
extractFromTemplate
Utilisez la syntaxe suivante:
extractFromTemplate(value, "BHL", "source")[0]
où vous remplacez BHL
par le nom du modèle (sans supports bouclés) et source
par le paramètre à partir duquel vous souhaitez extraire la valeur. Cette syntaxe Grel renverra la première valeur (et généralement la seule) dudit paramètre, par exemple https://www.flickr.com/photos/biodivlibrary/10329116385
.
value.extractCategories
Utilisez la syntaxe suivante:
value.extractCategories().join('#')
Cette syntaxe Grel renverra toutes les catégories mentionnées dans le wikitext, séparées par le caractère #
, que vous pouvez ensuite utiliser pour diviser davantage la cellule résultante au besoin.
Courir
mvn package
Cela crée un fichier zip dans le dossier target
, qui peut ensuite être installé dans OpenRefine.
Pour éviter d'avoir à décompresser l'extension dans le répertoire correspondant chaque fois que vous souhaitez le tester, vous pouvez également utiliser une autre configuration: créez simplement un lien symbolique à partir de votre dossier d'extensions dans OpenRefine à la copie locale de ce référentiel. Avec cette configuration, vous n'avez pas besoin d'exécuter mvn package
lors des modifications à l'extension, mais vous allez toujours le compiler avec mvn compile
si vous apportez des modifications aux fichiers Java et redémarrez OpenRefine si vous apportez des modifications à des fichiers.
Assurez-vous que vous êtes sur la branche master
et c'est à jour ( git pull
)
Ouvrez pom.xml
et définissez la version sur le numéro de version souhaité, tel que <version>0.1.0</version>
Engager et pousser ces changements vers le maître
Ajouter une balise GIT correspondante, avec git tag -a v0.1.0 -m "Version 0.1.0"
(Lorsque vous travaillez depuis GitHub Desktop, vous pouvez suivre ce processus et ajouter manuellement la balise v0.1.0
avec la Version 0.1.0
)
Poussez la balise vers GitHub: git push --tags
(dans GitHub Desktop, il suffit de pousser à nouveau)
Créez une nouvelle version sur GitHub sur https://github.com/openrefine/commonsextension/releases/new, fournissant un titre de version (tel que "Commons Extension 0.1.0") et une description des fonctionnalités de cette version.
Ouvrez pom.xml
et définissez la version sur le numéro de version prochain attendu, suivi de -SNAPSHOT
. Par exemple, si vous venez de publier 0.1.0, vous pouvez définir <version>0.1.1-SNAPSHOT</version>
Engager et pousser ces changements.