Это расширение предоставляет несколько полезных функций для пользователей OpenRefine, которые хотят редактировать (структурированные данные) медиа -файлов (изображения, видео, PDFS ...) на Wikimedia Commons . Для получения дополнительной информации, документации и как TOS о OpenRefine для Wikimedia Commons, см. Https://commons.wikimedia.org/wiki/commons:openrefine .
Особенности, включенные в это расширение:
Запустите проект OpenRefine, загрузив имена файлов из одной или нескольких категорий Wikimedia Commons (включая глубину категории)
Добавить столбцы с категориями Commons и/или M-ID от каждого имени файла
Имена файлов уже будут согласованы при запуске проекта
Несколько выделенных команд GLEL позволяют базовую обработку и извлечение Wikitext: extractFromTemplate
и value.extractCategories
(В этом расширении выпуска 0,1.1 и позже) Основная поддержка для файлов миниатюр предварительных просмотров существующих файлов Wikimedia Commons. Миниатюры отображаются для некоторых (но не всех) типов/расширений. В настоящее время существует поддержка миниатюры файлов JPEG, GIF, PNG, DJVU, PDF, SVG, WEBM и OGV.
Он работает с OpenRefine 3.6.x и более поздними версиями OpenRefine . Он не совместим с OpenRefine 3.5.x или раньше. (OpenRefine поддерживает редактирование Wikimedia Commons из версии 3.6; это невозможно в более ранних версиях.)
Это продление было впервые выпущено в октябре 2022 года. Он был профинансирован за счет гранта проекта Wikimedia.
Загрузите файл .zip последнего выпуска этого расширения. Разанизируйте этот файл и поместите папку с неказрированной в папке OpenRefine Extensions. Узнайте больше об установке расширений в руководстве пользователя OpenRefine.
Когда это расширение будет установлено правильно, вы теперь увидите дополнительную опцию «Wikimedia Commons» при запуске нового проекта в OpenRefine.
После установки этого расширения нажмите на опцию «Wikimedia Commons», чтобы запустить новый проект в OpenRefine. Вам будет предложено добавить одну или несколько категорий Wikimedia Commons.
Там нет необходимости вводить категорию: префикс.
Вы можете указать глубину категории, набрав или выбрав число в поле ввода после каждой категории. Глубина 0
означает только файлы с текущего уровня категории; Глубина 1
будет извлекать файлы с одного уровня подкатегории вниз и т. Д.
Далее, на экране предварительного просмотра проекта ( Configure parsing options
) вы можете также включить столбец с помощью Mi-ID каждого файла (уникальный идентификатор MediaInfo) и/или категории Commons.
Имена файлов уже будут согласованы при запуске вашего проекта.
Когда вы загружаете более крупные категории (тысячи файлов) в новый проект, OpenRefine начнется медленно и даст вам предупреждение о памяти. Это известная проблема. Подожди немного; Проект в конечном итоге начнется. Расширение Commons было протестировано с помощью проекта более 450 000 файлов.
Расширение Wikimedia Commons также обеспечивает две специальные команды Grel, которые помогают извлечь конкретную информацию из файлов Wikitext of Wikimedia Commons. (Grel, общий язык выражения выражения, является выделенным языком сценариев, используемым в OpenRefine для многих гибких операций данных. Общий ссылки по использованию Grel в OpenRefine см. В Https://docs.openrefine.org/manual/greffuctions.)
Во -первых, верните Wikitext из списка файлов Commons в вашем проекте. В меню столбца столбца «Согласованные имена файлов» выберите Edit column
»> Add column from reconciled values...
и выберите Wikitext
в результирующем диалоговом окне.
Из этого нового столбца с Wikitext вы теперь можете извлекать значения и категории, как описано ниже. Начните с выбора Edit column
> Add column based on this column...
в меню столбца». В следующем диалоговом окне вы можете использовать различные конкретные команды Grel:
extractFromTemplate
Используйте следующий синтаксис:
extractFromTemplate(value, "BHL", "source")[0]
где вы заменяете BHL
на имя шаблона (без вьющихся кронштейнов) и source
с параметром, из которого вы хотите извлечь значение. Этот синтаксис Grel вернет первое (и обычно единственное) значение указанного параметра, например, https://www.flickr.com/photos/biodivlibrary/10329116385
.
value.extractCategories
Используйте следующий синтаксис:
value.extractCategories().join('#')
Этот синтаксис Grel вернет все категории, упомянутые в Wikitext, разделенные символом #
, который затем вы можете использовать для дальнейшего разделения полученной ячейки по мере необходимости.
Бегать
mvn package
Это создает zip -файл в target
папке, который затем может быть установлен в OpenRefine.
Чтобы избежать необходимости разкапливания расширения в соответствующем каталоге каждый раз, когда вы хотите его проверить, вы также можете использовать другую настройку: просто создайте символическую ссылку из папки расширений в OpenRefine для локальной копии этого хранилища. При этой настройке вам не нужно запускать mvn package
при внесении изменений в расширение, но вы все равно будете компилировать его с mvn compile
если вы вносите изменения в файлы Java, и перезапустите OpenRefine, если вы вносите изменения в любые файлы.
Убедитесь, что вы находитесь на master
ветви, и это актуально ( git pull
)
Откройте pom.xml
и установите версию на нужный номер версии, такой как <version>0.1.0</version>
Совершить и подтолкнуть эти изменения в мастер
Добавьте соответствующий тег GIT, с git tag -a v0.1.0 -m "Version 0.1.0"
(при работе с настольного компьютера GitHub вы можете следовать этому процессу и вручную добавить тег v0.1.0
с описанием Version 0.1.0
)
Нажмите метку на GitHub: git push --tags
(в рабочем столе Github, просто нажмите снова)
Создайте новый релиз на GitHub по адресу https://github.com/openrefine/commonsextension/releases/new, предоставляя заголовок выпуска (например, «Расширение Commons 0.1.0») и описание функций в этом выпуске.
Откройте pom.xml
и установите версию на ожидаемый номер следующей версии, за которым следует -SNAPSHOT
. Например, если вы только что выпустили 0,1.0, вы можете установить <version>0.1.1-SNAPSHOT</version>
Совершать и протолкнуть эти изменения.