Esta extensión proporciona varias funcionalidades útiles para los usuarios de Openrefine que desean editar (datos estructurados de) archivos multimedia (imágenes, videos, pdfs ...) en Wikimedia Commons . Para obtener más información, documentación y cómo abreRefine para Wikimedia Commons, consulte https://commons.wikimedia.org/wiki/commons:openrefine .
Características incluidas en esta extensión:
Inicie un proyecto de OpenRefine cargando nombres de archivo de una o más categorías de Wikimedia Commons (incluida la profundidad de la categoría)
Agregue columnas con categorías de bienes comunes y/o ID de cada nombre de archivo
Los nombres de los archivos ya se reconciliarán al comenzar el proyecto
Algunos comandos de grel dedicados permiten el procesamiento básico y la extracción de wikitext: extractFromTemplate
y value.extractCategories
(En la versión 0.1.1 de esta extensión y posterior) soporte básico para las vistas previas de la miniatura de archivos de los archivos Wikimedia Commons existentes. Las miniaturas se muestran para algunos (pero no todos) tipos/extensiones de archivos. Actualmente hay soporte para miniatura para los archivos JPEG, GIF, PNG, DJVU, PDF, SVG, WEBM y OGV.
Funciona con Openrefine 3.6.x y versiones posteriores de Openrefine . No es compatible con Openrefine 3.5.x o anterior. (OpenRefine admite editar Wikimedia Commons de la versión 3.6; esto no es posible en versiones anteriores).
Esta extensión se lanzó por primera vez en octubre de 2022. Ha sido financiado por una subvención del Proyecto Wikimedia.
Descargue el archivo .zip de la última versión de esta extensión. Descomprima este archivo y coloque la carpeta descomprimida en su carpeta de Extensiones de Openrefine. Lea más sobre la instalación de extensiones en el manual de usuario de Openrefine.
Cuando esta extensión se instale correctamente, ahora verá la opción adicional 'Wikimedia Commons' al comenzar un nuevo proyecto en Openrefine.
Después de instalar esta extensión, haga clic en la opción 'Wikimedia Commons' para iniciar un nuevo proyecto en Openrefine. Se le pedirá que agregue una o más categorías de Wikimedia Commons.
No hay necesidad de escribir la categoría: prefijo.
Puede especificar la profundidad de la categoría escribiendo o seleccionando un número en el campo de entrada después de cada categoría. Profundidad 0
significa solo archivos desde el nivel de categoría actual; profundidad 1
recuperará archivos de un nivel de subcategoría hacia abajo, etc.
A continuación, en la pantalla de vista previa del proyecto ( Configure parsing options
), puede elegir también incluir una columna con el ID M-ID de cada archivo (identificador único de MediaInfo) y/o las categorías de bienes comunes.
Los nombres de los archivos ya se reconciliarán cuando comience su proyecto.
Cuando carga categorías más grandes (miles de archivos) en un nuevo proyecto, Openrefine comenzará lentamente y le dará una advertencia de memoria. Este es un problema conocido. Espera un poco; El proyecto eventualmente comenzará. La extensión de Commons ha sido probada con un proyecto de más de 450,000 archivos.
La extensión de Wikimedia Commons también permite dos comandos Grel dedicados, que ayudan a extraer información específica del wikitext de los archivos Wikimedia Commons. (Grel, Language General Refine Expression Language, es un lenguaje de secuencias de comandos dedicado utilizado en Openrefine para muchas operaciones de datos flexibles. Para una referencia general sobre el uso de grel en abreRefine, consulte https://docs.openrefine.org/manual/grelfunctions.)
En primer lugar, recupere el wikitext de una lista de archivos comunes en su proyecto. En el menú de columna de la columna de nombres de archivo reconciliados, seleccione Edit column
> Add column from reconciled values...
y seleccione Wikitext
en la ventana de diálogo resultante.
De esta nueva columna con Wikitext, ahora puede extraer valores y categorías como se describe a continuación. Comience por seleccionar Edit column
> Add column based on this column...
en el menú de la columna. En la siguiente ventana de diálogo, puede usar varios comandos grel específicos:
extractFromTemplate
Use la siguiente sintaxis:
extractFromTemplate(value, "BHL", "source")[0]
Donde reemplaza BHL
con el nombre de la plantilla (sin soportes rizados) y source
con el parámetro del que desea extraer el valor. Esta sintaxis grel devolverá el primer (y generalmente el único) valor de dicho parámetro, por ejemplo, https://www.flickr.com/photos/biodivlibrary/10329116385
.
value.extractCategories
Use la siguiente sintaxis:
value.extractCategories().join('#')
Esta sintaxis grel devolverá todas las categorías mencionadas en el wikitext, separadas por el carácter #
, que luego puede usar para dividir la celda resultante según sea necesario.
Correr
mvn package
Esto crea un archivo zip en la carpeta target
, que luego se puede instalar en OpenRefine.
Para evitar tener que descifrar la extensión en el directorio correspondiente cada vez que desee probarlo, también puede usar otra configuración: simplemente cree un enlace simbólico desde su carpeta de extensiones en Openrefine a la copia local de este repositorio. Con esta configuración, no necesita ejecutar mvn package
al hacer cambios en la extensión, pero aún así lo compilará con mvn compile
si está realizando cambios en los archivos Java y reiniciará OpenRefine si realiza cambios en cualquier archivo.
Asegúrese de estar en la rama master
y está actualizado ( git pull
)
Abra pom.xml
y establezca la versión en el número de versión deseado, como <version>0.1.0</version>
Comprometer y empujar esos cambios al maestro
Agregue una etiqueta GIT correspondiente, con git tag -a v0.1.0 -m "Version 0.1.0"
(cuando trabaje desde GitHub Desktop, puede seguir este proceso y agregar manualmente la etiqueta v0.1.0
con la descripción Version 0.1.0
)
Empuje la etiqueta a GitHub: git push --tags
(en el escritorio de Github, simplemente empuje nuevamente)
Cree una nueva versión en GitHub en https://github.com/openrefine/commonsextension/releases/new, proporcionando un título de lanzamiento (como "Commons Extension 0.1.0") y una descripción de las características en esta versión.
Abra pom.xml
y establezca la versión en el número de versión siguiente esperado, seguido de -SNAPSHOT
. Por ejemplo, si acaba de lanzar 0.1.0, podría establecer <version>0.1.1-SNAPSHOT</version>
Cometer y empujar esos cambios.