penelope Скачать - penelope скачать исходный код

penelope

Другой исходный код

v3.1.3

Скачать

Пенелопа

Penelope — это многофункциональный инструмент для создания, редактирования и конвертации словарей, особенно для устройств чтения электронных книг.

Версия: 3.1.3
Дата: 2016-09-23
Разработчик: Альберто Петтарин
Лицензия: Лицензия MIT (MIT)
Контакт: нажмите здесь

В текущей версии вы можете:

конвертировать словарь из/в следующие форматы:
- Bookeen Cybook Odyssey (R/W)
- CSV (Чтение/Запись)
- EPUB (только W)
- MOBI (только Kindle, W)
- Кобо (только индекс R, только W без шифрования/необфускации)
- StarDict (Чтение/Запись)
- XML (Чтение/Запись)
объединить несколько словарей одного типа в один словарь
объединить несколько определений одного и того же главного слова
сортировать по заголовку и/или по определению
определите свой собственный синтаксический анализатор ввода для объединения/сортировки/редактирования определений
определите свою собственную функцию сопоставления (только формат вывода bookeen )
выведите файл EPUB, содержащий словарь (например, чтобы справиться с отсутствием функции поиска в вашей читалке)
вывести словарь MOBI (Kindle)

Важное обновление

2016-04-17 К сожалению, я больше не могу позволить себе тратить время на работу над «Пенелопой», поскольку другие мои проекты FLOSS занимают 100% моего времени FLOSS, и мне все еще нужно платить за аренду и счета, проводить время с семьей и друзьями и т. д. ., как и любой другой. Поэтому я не буду работать над проблемами или запросами на включение, пожалуйста, не ждите, что они вообще будут рассмотрены . Я активно ищу других разработчиков, которые возьмут на себя этот проект . (Это уведомление следует удалить, когда произойдет переключение.) Если вам нужно преобразовать словарь, а текущая версия Penelope вам не подходит, возможно, вам стоит взглянуть на PyGlossary . Мои самые искренние извинения за неудобства.

Установка

Использование пункта

Откройте консоль и введите:
```
$ [sudo] pip install penelope
```
Вот и все! Просто запустите без аргументов (или с -h или --help ), чтобы получить руководство:
```
$ penelope
```

Эта процедура установит lxml и marisa-trie . Возможно, вам придется установить dictzip (выход StarDict) и kindlegen (выход MOBI) отдельно, см. ниже.

Из исходного кода

Получите исходный код:
- клонируйте этот репозиторий с помощью git :
```
$ git clone https://github.com/pettarin/penelope.git
```
- или скачайте последнюю версию и распакуйте ее где-нибудь,
- или загрузите текущий главный ZIP-файл и распакуйте его где-нибудь.
Откройте консоль и войдите в каталог penelope (клонированный):
```
$ cd /path/to/penelope
```
Вот и все! Просто запустите без аргументов (или с -h или --help ), чтобы получить руководство:
```
$ python -m penelope
```

Эта процедура не приведет к установке каких-либо зависимостей: вам придется сделать это вручную, см. ниже.

Зависимости

Python версии 2.7.x или 3.4.x (или выше)
для написания словарей StarDict: исполняемый файл dictzip , доступный в вашем $PATH или указанный с помощью --dictzip-path :
```
$ [sudo] apt-get install dictzip
```
для чтения/записи словарей Kobo: модуль Python marisa-trie :
```
$ [sudo] pip install marisa-trie
```
или исполняемые файлы MARISA, доступные в вашем $PATH или указанные с помощью --marisa-bin-path
для написания словарей MOBI Kindle: исполняемый файл kindlegen, доступный в вашем $PATH или указанный с помощью --kindlegen-path
для чтения/записи XML-словарей: модуль Python lxml :
```
$ [sudo] pip install lxml
```

Использование

 usage: 
  $ penelope -h
  $ penelope -i INPUT_FILE -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]
  $ penelope -i IN1,IN2[,IN3...] -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]

description:
  Convert dictionary file(s) with file name prefix INPUT_FILE from format INPUT_FORMAT to format OUTPUT_FORMAT, saving it as OUTPUT_FILE.
  The dictionary is from LANGUAGE_FROM to LANGUAGE_TO, possibly the same.
  You can merge several dictionaries (with the same format), by providing a list of comma-separated prefixes, as shown by the third synopsis above.

optional arguments:
  -h, --help            show this help message and exit
  -d, --debug           enable debug mode (default: False)
  -f LANGUAGE_FROM, --language-from LANGUAGE_FROM
                        from language (ISO 639-1 code)
  -i INPUT_FILE, --input-file INPUT_FILE
                        input file name prefix(es). Multiple prefixes must be
                        comma-separated.
  -j INPUT_FORMAT, --input-format INPUT_FORMAT
                        from format (values: bookeen|csv|kobo|stardict|xml)
  -k, --keep            keep temporary files (default: False)
  -o OUTPUT_FILE, --output-file OUTPUT_FILE
                        output file name
  -p OUTPUT_FORMAT, --output-format OUTPUT_FORMAT
                        to format (values:
                        bookeen|csv|epub|kobo|mobi|stardict|xml)
  -t LANGUAGE_TO, --language-to LANGUAGE_TO
                        to language (ISO 639-1 code)
  -v, --version         print version and exit
  --author AUTHOR       author string
  --copyright COPYRIGHT
                        copyright string
  --cover-path COVER_PATH
                        path of the cover image file
  --description DESCRIPTION
                        description string
  --email EMAIL         email string
  --identifier IDENTIFIER
                        identifier string
  --license LICENSE     license string
  --title TITLE         title string
  --website WEBSITE     website string
  --year YEAR           year string
  --apply-css APPLY_CSS
                        apply the given CSS file (epub and mobi output only)
  --bookeen-collation-function BOOKEEN_COLLATION_FUNCTION
                        use the specified collation function
  --bookeen-install-file
                        create *.install file (default: False)
  --csv-fs CSV_FS       CSV field separator (default: ',')
  --csv-ignore-first-line
                        ignore the first line of the input CSV file(s)
                        (default: False)
  --csv-ls CSV_LS       CSV line separator (default: 'n')
  --dictzip-path DICTZIP_PATH
                        path to dictzip executable
  --epub-no-compress    do not create the compressed container (epub output
                        only, default: False)
  --escape-strings      escape HTML strings (default: False)
  --flatten-synonyms    flatten synonyms, creating a new entry with
                        headword=synonym and using the definition of the
                        original headword (default: False)
  --group-by-prefix-function GROUP_BY_PREFIX_FUNCTION
                        compute the prefix of headwords using the given prefix
                        function file
  --group-by-prefix-length GROUP_BY_PREFIX_LENGTH
                        group headwords by prefix of given length (default: 2)
  --group-by-prefix-merge-across-first
                        merge headword groups even when the first character
                        changes (default: False)
  --group-by-prefix-merge-min-size GROUP_BY_PREFIX_MERGE_MIN_SIZE
                        merge headword groups until the given minimum number
                        of headwords is reached (default: 0, meaning no merge
                        will take place)
  --ignore-case         ignore headword case, all headwords will be lowercased
                        (default: False)
  --ignore-synonyms     ignore synonyms, not reading/writing them if present
                        (default: False)
  --include-index-page  include an index page (epub and mobi output only,
                        default: False)
  --input-file-encoding INPUT_FILE_ENCODING
                        use the specified encoding for reading the raw
                        contents of input file(s) (default: 'utf-8')
  --input-parser INPUT_PARSER
                        use the specified parser function after reading the
                        raw contents of input file(s)
  --kindlegen-path KINDLEGEN_PATH
                        path to kindlegen executable
  --marisa-bin-path MARISA_BIN_PATH
                        path to MARISA bin directory
  --marisa-index-size MARISA_INDEX_SIZE
                        maximum size of the MARISA index (default: 1000000)
  --merge-definitions   merge definitions for the same headword (default:
                        False)
  --merge-separator MERGE_SEPARATOR
                        add this string between merged definitions (default: '
                        | ')
  --mobi-no-kindlegen   do not run kindlegen, keep .opf and .html files
                        (default: False)
  --no-definitions      do not output definitions for EPUB and MOBI formats
                        (default: False)
  --sd-ignore-sametypesequence
                        ignore the value of sametypesequence in StarDict .ifo
                        files (default: False)
  --sd-no-dictzip       do not compress the .dict file in StarDict files
                        (default: False)
  --sort-after          sort after merging/flattening (default: False)
  --sort-before         sort before merging/flattening (default: False)
  --sort-by-definition  sort by definition (default: False)
  --sort-by-headword    sort by headword (default: False)
  --sort-ignore-case    ignore case when sorting (default: False)
  --sort-reverse        reverse the sort order (default: False)

examples:

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip
    Convert en->it dictionary dict.csv (in CSV format) into output.zip (in StarDict format)

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip --merge-definitions
    As above, but also merge definitions

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword
    Merge CSV dictionaries d1, d2, and d3 into output.csv, sorting by headword

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-ignore-case
    As above, but ignore case for sorting

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-reverse
    As above, but reverse the order

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv
    Convert en->it dictionary dict.zip (in StarDict format) into output.csv (in CSV format)

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --ignore-synonyms
    As above, but do not read the .syn synonym file if present

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --flatten-synonyms
    As above, but flatten synonyms

  $ penelope -i dict.zip -j stardict -f en -t it -p bookeen -o output
    Convert dict.zip into output.dict.idx and output.dict for Bookeen devices

  $ penelope -i dict.zip -j stardict -f en -t it -p kobo -o dicthtml-en-it
    Convert dict.zip into dicthtml-en-it.zip for Kobo devices

  $ penelope -i dict.csv -j csv -f en -t it -p mobi -o output.mobi --cover-path mycover.png --title "My English->Italian Dictionary"
    Convert dict.csv into a MOBI (Kindle) dictionary, using the specified cover image and title

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub
    Convert dict.xml into an EPUB dictionary

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub --epub-output-definitions
    As above, but also output definitions

Коды языков ISO 639-1 можно найти здесь.

Установка словарей

Устройства Bookeen Odyssey

Например, предположим, что вы хотите использовать словарь IT -> EN.

На своем компьютере создайте/загрузите файлы словарей IT -> EN it-en.dict и it-en.dict.idx .
Подключите устройство Odyssey к компьютеру с помощью USB-кабеля.
Используя файловый менеджер, скопируйте два файла it-en.dict и it-en.dict.idx со своего компьютера в каталог Dictionaries/ на вашем устройстве Odyssey.
Перезагрузите свою Одиссею, откройте книгу на итальянском языке и выберите слово: должно появиться определение на английском языке. (Для этого теста выберите обычное слово, чтобы быть уверенным, что оно присутствует в словаре!)

Обратите внимание, что словарное программное обеспечение Bookeen выберет словарь для использования, прочитав метаданные dc:language вашей электронной книги. Убедитесь, что ваши электронные книги содержат правильные метаданные dc:language , иначе правильный словарь может быть не загружен.

Кобо устройства

На момент написания этой статьи (16 февраля 2016 г.) устройства Kobo загружали словари только в том случае, если файлы имеют имена официальных словарей Kobo, а именно:

dicthtml.zip (EN)
dicthtml-de.zip (DE), dicthtml-de-en.zip (DE -> EN), dicthtml-en-de.zip (EN -> DE),
dicthtml-es.zip (ES), dicthtml-es-en.zip (ES -> EN), dicthtml-en-es.zip (EN -> ES),
dicthtml-fr.zip (FR), dicthtml-fr-en.zip (FR -> EN), dicthtml-en-fr.zip (EN -> FR),
dicthtml-it.zip (IT), dicthtml-it-en.zip (IT -> EN), dicthtml-en-it.zip (EN -> IT),
dicthtml-nl.zip (Нидерланды)
dicthtml-ja.zip (JA), dicthtml-en-ja.zip (EN -> JA),
dicthtml-pt.zip (PT), dicthtml-pt-en.zip (PT -> EN), dicthtml-en-pt.zip (EN -> PT)

(см. эту ветку MobileRead)

Следовательно, если вы хотите установить собственный словарь, созданный с помощью Penelope, вы должны перезаписать один из официальных словарей Kobo, фактически теряя возможность использования последнего.

Например, предположим, что вы хотите использовать польский словарь ( dicthtml-pl.zip ), но не заинтересованы в использовании официального португальского словаря ( dicthtml-pt.zip ).

На своем компьютере создайте/загрузите польский словарь dicthtml-pl.zip .
На вашем устройстве Kobo зайдите в настройки и активируйте португальский словарь.
Подключите устройство Kobo к компьютеру с помощью USB-кабеля.
Используя файловый менеджер, скопируйте dicthtml-pl.zip со своего компьютера в каталог .kobo/dict/ на вашем устройстве Kobo. (Обратите внимание, что .kobo — это скрытый каталог: вам может потребоваться включить параметр «показывать скрытые файлы/каталоги» вашего файлового менеджера.)
Переименуйте dicthtml-pl.zip в dicthtml-pt.zip .
Перезагрузите Kobo, откройте книгу на польском языке и выберите слово: должно появиться определение. (Для этого теста выберите обычное слово, чтобы быть уверенным, что оно присутствует в словаре!)

Обратите внимание: если вы обновите прошивку вашего Kobo, пользовательские словари могут быть перезаписаны официальными. Следовательно, храните резервную копию ваших пользовательских словарей в надежном месте, например, на своем ПК или на SD-карте.

Вы можете найти список пользовательских словарей, в основном созданных с помощью Penelope, в этой теме MobileRead.

Лицензия

Пенелопа выпускается под лицензией MIT начиная с версии 2.0.0 (30 июня 2014 г.).

Предыдущие версии, размещенные на Google Code, были выпущены под лицензией GNU GPL 3.

Ограничения и недостающие функции

У Bookeen нет официальной документации по формату словаря (он был реконструирован), YMMV.
У Kobo нет официальной документации по формату словаря (он был реконструирован), YMMV.
Чтение словарей Kobo поддерживается частично (индекс читается, определения нет, так как они зашифрованы/запутаны)
Чтение словарей EPUB (3) не поддерживается; часть письма нуждается в доработке/рефакторинге
Чтение словарей PRC/MOBI (Kindle) не поддерживается.
Существуют некоторые ограничения на чтение файлов StarDict (см. комментарии в format_stardict.py ).
Документация не полная
Модульные тесты отсутствуют

Спонсоры

Декабрь 2015 г .: IngleseXpress.it, «Благодарим за помощь в публикации для Kindle il Dizionario Inglese-Italiano della Pronuncia Scritta Samplificata!»

Благодарности

Большое спасибо:

uwelovesdonna за идеи по улучшению кода и за настройку многих страниц вики проекта;
Йенсу Садовски за указание на ошибку с именами файлов в Юникоде и за предложение использовать multiset dict() вместо set dict() ;
oldnat за указание на ошибку в Windows и Python 3;
Вольфгангу Миллеру-Райхлингу за предоставленный код для чтения словарей CSV;
branok за идею и исходный код немецкой функции сортировки;
приятель , за предложение передать -l переключиться на MARISA_BUILD ;
Лукасу Брюкнеру за предложение использовать экранирование & < > при выводе в формате XML;
Стефану Лихтенхагену за предложение принудительно использовать кодировку UTF-8 в Python 3;
niconavarrete за указание на зависимость от $CWD (проблема №1), решенную в версии 2.0.1;
elchamaco за предоставление словаря StarDict с файлом .syn для тестирования.