Penélope es una multiherramienta para crear, editar y convertir diccionarios, especialmente para dispositivos eReader.
Con la versión actual puedes:
bookeen
)Abra una consola y escriba:
$ [sudo] pip install penelope
¡Eso es todo! Simplemente ejecute sin argumentos (o con -h
o --help
) para obtener el manual:
$ penelope
Este procedimiento instalará lxml
y marisa-trie
. Es posible que necesites instalar dictzip
(salida StarDict) y kindlegen
(salida MOBI) por separado, ver más abajo.
Obtenga el código fuente:
clona este repositorio con git
:
$ git clone https://github.com/pettarin/penelope.git
o descargar la última versión y descomprimirla en algún lugar,
o descargue el ZIP maestro actual y descomprímalo en algún lugar.
Abra una consola e ingrese al directorio penelope
(clonado):
$ cd /path/to/penelope
¡Eso es todo! Simplemente ejecute sin argumentos (o con -h
o --help
) para obtener el manual:
$ python -m penelope
Este procedimiento no instalará ninguna dependencia: deberá hacerlo manualmente, consulte a continuación.
Python, versión 2.7.x o 3.4.x (o superior)
para escribir diccionarios StarDict: el ejecutable dictzip
, disponible en su $PATH
o especificado con --dictzip-path
:
$ [sudo] apt-get install dictzip
leer/escribir diccionarios Kobo: el módulo Python marisa-trie
:
$ [sudo] pip install marisa-trie
o ejecutables de MARISA disponibles en su $PATH
o especificados con --marisa-bin-path
para escribir diccionarios MOBI Kindle: el ejecutable kindlegen, disponible en su $PATH
o especificado con --kindlegen-path
para leer/escribir diccionarios XML: el módulo Python lxml
:
$ [sudo] pip install lxml
usage:
$ penelope -h
$ penelope -i INPUT_FILE -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]
$ penelope -i IN1,IN2[,IN3...] -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]
description:
Convert dictionary file(s) with file name prefix INPUT_FILE from format INPUT_FORMAT to format OUTPUT_FORMAT, saving it as OUTPUT_FILE.
The dictionary is from LANGUAGE_FROM to LANGUAGE_TO, possibly the same.
You can merge several dictionaries (with the same format), by providing a list of comma-separated prefixes, as shown by the third synopsis above.
optional arguments:
-h, --help show this help message and exit
-d, --debug enable debug mode (default: False)
-f LANGUAGE_FROM, --language-from LANGUAGE_FROM
from language (ISO 639-1 code)
-i INPUT_FILE, --input-file INPUT_FILE
input file name prefix(es). Multiple prefixes must be
comma-separated.
-j INPUT_FORMAT, --input-format INPUT_FORMAT
from format (values: bookeen|csv|kobo|stardict|xml)
-k, --keep keep temporary files (default: False)
-o OUTPUT_FILE, --output-file OUTPUT_FILE
output file name
-p OUTPUT_FORMAT, --output-format OUTPUT_FORMAT
to format (values:
bookeen|csv|epub|kobo|mobi|stardict|xml)
-t LANGUAGE_TO, --language-to LANGUAGE_TO
to language (ISO 639-1 code)
-v, --version print version and exit
--author AUTHOR author string
--copyright COPYRIGHT
copyright string
--cover-path COVER_PATH
path of the cover image file
--description DESCRIPTION
description string
--email EMAIL email string
--identifier IDENTIFIER
identifier string
--license LICENSE license string
--title TITLE title string
--website WEBSITE website string
--year YEAR year string
--apply-css APPLY_CSS
apply the given CSS file (epub and mobi output only)
--bookeen-collation-function BOOKEEN_COLLATION_FUNCTION
use the specified collation function
--bookeen-install-file
create *.install file (default: False)
--csv-fs CSV_FS CSV field separator (default: ',')
--csv-ignore-first-line
ignore the first line of the input CSV file(s)
(default: False)
--csv-ls CSV_LS CSV line separator (default: 'n')
--dictzip-path DICTZIP_PATH
path to dictzip executable
--epub-no-compress do not create the compressed container (epub output
only, default: False)
--escape-strings escape HTML strings (default: False)
--flatten-synonyms flatten synonyms, creating a new entry with
headword=synonym and using the definition of the
original headword (default: False)
--group-by-prefix-function GROUP_BY_PREFIX_FUNCTION
compute the prefix of headwords using the given prefix
function file
--group-by-prefix-length GROUP_BY_PREFIX_LENGTH
group headwords by prefix of given length (default: 2)
--group-by-prefix-merge-across-first
merge headword groups even when the first character
changes (default: False)
--group-by-prefix-merge-min-size GROUP_BY_PREFIX_MERGE_MIN_SIZE
merge headword groups until the given minimum number
of headwords is reached (default: 0, meaning no merge
will take place)
--ignore-case ignore headword case, all headwords will be lowercased
(default: False)
--ignore-synonyms ignore synonyms, not reading/writing them if present
(default: False)
--include-index-page include an index page (epub and mobi output only,
default: False)
--input-file-encoding INPUT_FILE_ENCODING
use the specified encoding for reading the raw
contents of input file(s) (default: 'utf-8')
--input-parser INPUT_PARSER
use the specified parser function after reading the
raw contents of input file(s)
--kindlegen-path KINDLEGEN_PATH
path to kindlegen executable
--marisa-bin-path MARISA_BIN_PATH
path to MARISA bin directory
--marisa-index-size MARISA_INDEX_SIZE
maximum size of the MARISA index (default: 1000000)
--merge-definitions merge definitions for the same headword (default:
False)
--merge-separator MERGE_SEPARATOR
add this string between merged definitions (default: '
| ')
--mobi-no-kindlegen do not run kindlegen, keep .opf and .html files
(default: False)
--no-definitions do not output definitions for EPUB and MOBI formats
(default: False)
--sd-ignore-sametypesequence
ignore the value of sametypesequence in StarDict .ifo
files (default: False)
--sd-no-dictzip do not compress the .dict file in StarDict files
(default: False)
--sort-after sort after merging/flattening (default: False)
--sort-before sort before merging/flattening (default: False)
--sort-by-definition sort by definition (default: False)
--sort-by-headword sort by headword (default: False)
--sort-ignore-case ignore case when sorting (default: False)
--sort-reverse reverse the sort order (default: False)
examples:
$ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip
Convert en->it dictionary dict.csv (in CSV format) into output.zip (in StarDict format)
$ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip --merge-definitions
As above, but also merge definitions
$ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword
Merge CSV dictionaries d1, d2, and d3 into output.csv, sorting by headword
$ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-ignore-case
As above, but ignore case for sorting
$ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-reverse
As above, but reverse the order
$ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv
Convert en->it dictionary dict.zip (in StarDict format) into output.csv (in CSV format)
$ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --ignore-synonyms
As above, but do not read the .syn synonym file if present
$ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --flatten-synonyms
As above, but flatten synonyms
$ penelope -i dict.zip -j stardict -f en -t it -p bookeen -o output
Convert dict.zip into output.dict.idx and output.dict for Bookeen devices
$ penelope -i dict.zip -j stardict -f en -t it -p kobo -o dicthtml-en-it
Convert dict.zip into dicthtml-en-it.zip for Kobo devices
$ penelope -i dict.csv -j csv -f en -t it -p mobi -o output.mobi --cover-path mycover.png --title "My English->Italian Dictionary"
Convert dict.csv into a MOBI (Kindle) dictionary, using the specified cover image and title
$ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub
Convert dict.xml into an EPUB dictionary
$ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub --epub-output-definitions
As above, but also output definitions
Puede encontrar códigos de idioma ISO 639-1 aquí.
Por ejemplo, supongamos que desea utilizar un diccionario IT -> EN.
it-en.dict
y it-en.dict.idx
.it-en.dict
y it-en.dict.idx
desde su PC al directorio Dictionaries/
de su dispositivo Odyssey. Tenga en cuenta que el software de diccionario Bookeen seleccionará el diccionario que se utilizará leyendo los metadatos dc:language
de su libro electrónico. Asegúrese de que sus libros electrónicos tengan los metadatos dc:language
adecuados; de lo contrario, es posible que no se cargue el diccionario correcto.
Al momento de escribir este artículo (16 de febrero de 2016), los dispositivos Kobo cargarán diccionarios solo si los archivos tienen el nombre de un diccionario oficial de Kobo, que son:
dicthtml.zip
(ES)dicthtml-de.zip
(DE), dicthtml-de-en.zip
(DE -> EN), dicthtml-en-de.zip
(EN -> DE),dicthtml-es.zip
(ES), dicthtml-es-en.zip
(ES -> EN), dicthtml-en-es.zip
(EN -> ES),dicthtml-fr.zip
(FR), dicthtml-fr-en.zip
(FR -> EN), dicthtml-en-fr.zip
(EN -> FR),dicthtml-it.zip
(IT), dicthtml-it-en.zip
(IT -> EN), dicthtml-en-it.zip
(EN -> IT),dicthtml-nl.zip
(NL)dicthtml-ja.zip
(JA), dicthtml-en-ja.zip
(EN -> JA),dicthtml-pt.zip
(PT), dicthtml-pt-en.zip
(PT -> EN), dicthtml-en-pt.zip
(EN -> PT)(ver este hilo de MobileRead)
Por lo tanto, si desea instalar un diccionario personalizado producido con Penelope, debe optar por sobrescribir uno de los diccionarios oficiales de Kobo, perdiendo efectivamente la posibilidad de utilizar este último.
Por ejemplo, supongamos que desea utilizar un diccionario polaco ( dicthtml-pl.zip
), pero no está interesado en utilizar el diccionario oficial de portugués ( dicthtml-pt.zip
).
dicthtml-pl.zip
.dicthtml-pl.zip
desde tu PC al directorio .kobo/dict/
de tu dispositivo Kobo. (Tenga en cuenta que .kobo
es un directorio oculto: es posible que deba habilitar la configuración "mostrar archivos/directorios ocultos" de su administrador de archivos).dicthtml-pl.zip
a dicthtml-pt.zip
.Ten en cuenta que si actualizas el firmware de tu Kobo, es posible que los diccionarios personalizados se sobrescriban con los oficiales. Por lo tanto, guarde una copia de seguridad de sus diccionarios personalizados en un lugar seguro, por ejemplo, su PC o una tarjeta SD.
Puede encontrar una lista de diccionarios personalizados, en su mayoría hechos con Penélope, en este hilo de MobileRead.
Penélope se publica bajo la licencia MIT desde la versión 2.0.0 (30/06/2014).
Las versiones anteriores, alojadas en Google Code, se publicaron bajo la licencia GNU GPL 3.
format_stardict.py
).Muchas gracias a:
dict()
en lugar de set dict()
;-l
cambiar a MARISA_BUILD
;& < >
al generar en formato XML;.syn
para realizar pruebas.