penelope Descargar - penelope Descarga del código fuente

penelope

Otro código fuente

v3.1.3

Descargar

Penélope

Penélope es una multiherramienta para crear, editar y convertir diccionarios, especialmente para dispositivos eReader.

Versión: 3.1.3
Fecha: 2016-09-23
Desarrollador: Alberto Pettarin
Licencia: la Licencia MIT (MIT)
Contacto: haga clic aquí

Con la versión actual puedes:

convertir un diccionario desde/hacia los siguientes formatos:
- Bookeen Cybook Odyssey (R/W)
- CSV (R/W)
- EPUB (solo W)
- MOBI (solo Kindle, W)
- Kobo (solo índice R, solo W sin cifrar/sin ofuscar)
- StarDict (R/W)
- XML (R/W)
fusionar varios diccionarios del mismo tipo en un solo diccionario
fusionar varias definiciones para el mismo término
ordenar por palabra clave y/o por definición
defina su propio analizador de entrada para fusionar/ordenar/editar definiciones
defina su propia función de clasificación (solo formato de salida bookeen )
generar un archivo EPUB que contenga el diccionario (por ejemplo, para hacer frente a la falta de una función de búsqueda en su eReader)
generar un diccionario MOBI (Kindle)

Actualización importante

2016-04-17 Lamentablemente, ya no puedo darme el lujo de dedicar tiempo a trabajar en Penélope, ya que mis otros proyectos FLOSS consumen el 100% de mi tiempo FLOSS y todavía tengo que pagar el alquiler y las facturas, pasar tiempo con familiares y amigos, etc. ., como cualquier otra persona. Por lo tanto, no trabajaré en problemas ni solicitudes de extracción; no espere que se resuelvan en absoluto . Estoy buscando activamente otros desarrolladores para hacerse cargo de este proyecto . (Este aviso debe eliminarse cuando se produzca el cambio). Si necesita convertir un diccionario y la versión actual de Penélope no le funciona, es posible que desee echar un vistazo a PyGlossary . Mis más sinceras disculpas por las molestias.

Instalación

Usando pepita

Abra una consola y escriba:
```
$ [sudo] pip install penelope
```
¡Eso es todo! Simplemente ejecute sin argumentos (o con -h o --help ) para obtener el manual:
```
$ penelope
```

Este procedimiento instalará lxml y marisa-trie . Es posible que necesites instalar dictzip (salida StarDict) y kindlegen (salida MOBI) por separado, ver más abajo.

Del código fuente

Obtenga el código fuente:
- clona este repositorio con git :
```
$ git clone https://github.com/pettarin/penelope.git
```
- o descargar la última versión y descomprimirla en algún lugar,
- o descargue el ZIP maestro actual y descomprímalo en algún lugar.
Abra una consola e ingrese al directorio penelope (clonado):
```
$ cd /path/to/penelope
```
¡Eso es todo! Simplemente ejecute sin argumentos (o con -h o --help ) para obtener el manual:
```
$ python -m penelope
```

Este procedimiento no instalará ninguna dependencia: deberá hacerlo manualmente, consulte a continuación.

Dependencias

Python, versión 2.7.x o 3.4.x (o superior)
para escribir diccionarios StarDict: el ejecutable dictzip , disponible en su $PATH o especificado con --dictzip-path :
```
$ [sudo] apt-get install dictzip
```
leer/escribir diccionarios Kobo: el módulo Python marisa-trie :
```
$ [sudo] pip install marisa-trie
```
o ejecutables de MARISA disponibles en su $PATH o especificados con --marisa-bin-path
para escribir diccionarios MOBI Kindle: el ejecutable kindlegen, disponible en su $PATH o especificado con --kindlegen-path
para leer/escribir diccionarios XML: el módulo Python lxml :
```
$ [sudo] pip install lxml
```

Uso

 usage: 
  $ penelope -h
  $ penelope -i INPUT_FILE -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]
  $ penelope -i IN1,IN2[,IN3...] -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]

description:
  Convert dictionary file(s) with file name prefix INPUT_FILE from format INPUT_FORMAT to format OUTPUT_FORMAT, saving it as OUTPUT_FILE.
  The dictionary is from LANGUAGE_FROM to LANGUAGE_TO, possibly the same.
  You can merge several dictionaries (with the same format), by providing a list of comma-separated prefixes, as shown by the third synopsis above.

optional arguments:
  -h, --help            show this help message and exit
  -d, --debug           enable debug mode (default: False)
  -f LANGUAGE_FROM, --language-from LANGUAGE_FROM
                        from language (ISO 639-1 code)
  -i INPUT_FILE, --input-file INPUT_FILE
                        input file name prefix(es). Multiple prefixes must be
                        comma-separated.
  -j INPUT_FORMAT, --input-format INPUT_FORMAT
                        from format (values: bookeen|csv|kobo|stardict|xml)
  -k, --keep            keep temporary files (default: False)
  -o OUTPUT_FILE, --output-file OUTPUT_FILE
                        output file name
  -p OUTPUT_FORMAT, --output-format OUTPUT_FORMAT
                        to format (values:
                        bookeen|csv|epub|kobo|mobi|stardict|xml)
  -t LANGUAGE_TO, --language-to LANGUAGE_TO
                        to language (ISO 639-1 code)
  -v, --version         print version and exit
  --author AUTHOR       author string
  --copyright COPYRIGHT
                        copyright string
  --cover-path COVER_PATH
                        path of the cover image file
  --description DESCRIPTION
                        description string
  --email EMAIL         email string
  --identifier IDENTIFIER
                        identifier string
  --license LICENSE     license string
  --title TITLE         title string
  --website WEBSITE     website string
  --year YEAR           year string
  --apply-css APPLY_CSS
                        apply the given CSS file (epub and mobi output only)
  --bookeen-collation-function BOOKEEN_COLLATION_FUNCTION
                        use the specified collation function
  --bookeen-install-file
                        create *.install file (default: False)
  --csv-fs CSV_FS       CSV field separator (default: ',')
  --csv-ignore-first-line
                        ignore the first line of the input CSV file(s)
                        (default: False)
  --csv-ls CSV_LS       CSV line separator (default: 'n')
  --dictzip-path DICTZIP_PATH
                        path to dictzip executable
  --epub-no-compress    do not create the compressed container (epub output
                        only, default: False)
  --escape-strings      escape HTML strings (default: False)
  --flatten-synonyms    flatten synonyms, creating a new entry with
                        headword=synonym and using the definition of the
                        original headword (default: False)
  --group-by-prefix-function GROUP_BY_PREFIX_FUNCTION
                        compute the prefix of headwords using the given prefix
                        function file
  --group-by-prefix-length GROUP_BY_PREFIX_LENGTH
                        group headwords by prefix of given length (default: 2)
  --group-by-prefix-merge-across-first
                        merge headword groups even when the first character
                        changes (default: False)
  --group-by-prefix-merge-min-size GROUP_BY_PREFIX_MERGE_MIN_SIZE
                        merge headword groups until the given minimum number
                        of headwords is reached (default: 0, meaning no merge
                        will take place)
  --ignore-case         ignore headword case, all headwords will be lowercased
                        (default: False)
  --ignore-synonyms     ignore synonyms, not reading/writing them if present
                        (default: False)
  --include-index-page  include an index page (epub and mobi output only,
                        default: False)
  --input-file-encoding INPUT_FILE_ENCODING
                        use the specified encoding for reading the raw
                        contents of input file(s) (default: 'utf-8')
  --input-parser INPUT_PARSER
                        use the specified parser function after reading the
                        raw contents of input file(s)
  --kindlegen-path KINDLEGEN_PATH
                        path to kindlegen executable
  --marisa-bin-path MARISA_BIN_PATH
                        path to MARISA bin directory
  --marisa-index-size MARISA_INDEX_SIZE
                        maximum size of the MARISA index (default: 1000000)
  --merge-definitions   merge definitions for the same headword (default:
                        False)
  --merge-separator MERGE_SEPARATOR
                        add this string between merged definitions (default: '
                        | ')
  --mobi-no-kindlegen   do not run kindlegen, keep .opf and .html files
                        (default: False)
  --no-definitions      do not output definitions for EPUB and MOBI formats
                        (default: False)
  --sd-ignore-sametypesequence
                        ignore the value of sametypesequence in StarDict .ifo
                        files (default: False)
  --sd-no-dictzip       do not compress the .dict file in StarDict files
                        (default: False)
  --sort-after          sort after merging/flattening (default: False)
  --sort-before         sort before merging/flattening (default: False)
  --sort-by-definition  sort by definition (default: False)
  --sort-by-headword    sort by headword (default: False)
  --sort-ignore-case    ignore case when sorting (default: False)
  --sort-reverse        reverse the sort order (default: False)

examples:

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip
    Convert en->it dictionary dict.csv (in CSV format) into output.zip (in StarDict format)

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip --merge-definitions
    As above, but also merge definitions

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword
    Merge CSV dictionaries d1, d2, and d3 into output.csv, sorting by headword

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-ignore-case
    As above, but ignore case for sorting

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-reverse
    As above, but reverse the order

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv
    Convert en->it dictionary dict.zip (in StarDict format) into output.csv (in CSV format)

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --ignore-synonyms
    As above, but do not read the .syn synonym file if present

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --flatten-synonyms
    As above, but flatten synonyms

  $ penelope -i dict.zip -j stardict -f en -t it -p bookeen -o output
    Convert dict.zip into output.dict.idx and output.dict for Bookeen devices

  $ penelope -i dict.zip -j stardict -f en -t it -p kobo -o dicthtml-en-it
    Convert dict.zip into dicthtml-en-it.zip for Kobo devices

  $ penelope -i dict.csv -j csv -f en -t it -p mobi -o output.mobi --cover-path mycover.png --title "My English->Italian Dictionary"
    Convert dict.csv into a MOBI (Kindle) dictionary, using the specified cover image and title

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub
    Convert dict.xml into an EPUB dictionary

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub --epub-output-definitions
    As above, but also output definitions

Puede encontrar códigos de idioma ISO 639-1 aquí.

Instalación de los diccionarios

Dispositivos Bookeen Odyssey

Por ejemplo, supongamos que desea utilizar un diccionario IT -> EN.

En su PC, genere/descargue los archivos del diccionario IT -> EN it-en.dict y it-en.dict.idx .
Conecte su dispositivo Odyssey a su PC mediante el cable USB.
Usando su administrador de archivos, copie los dos archivos it-en.dict y it-en.dict.idx desde su PC al directorio Dictionaries/ de su dispositivo Odyssey.
Reinicia tu Odyssey, abre un libro en italiano y selecciona una palabra: debería aparecer la definición en inglés. (Para esta prueba, seleccione una palabra común para asegurarse de que esté presente en el diccionario).

Tenga en cuenta que el software de diccionario Bookeen seleccionará el diccionario que se utilizará leyendo los metadatos dc:language de su libro electrónico. Asegúrese de que sus libros electrónicos tengan los metadatos dc:language adecuados; de lo contrario, es posible que no se cargue el diccionario correcto.

Dispositivos Kobo

Al momento de escribir este artículo (16 de febrero de 2016), los dispositivos Kobo cargarán diccionarios solo si los archivos tienen el nombre de un diccionario oficial de Kobo, que son:

dicthtml.zip (ES)
dicthtml-de.zip (DE), dicthtml-de-en.zip (DE -> EN), dicthtml-en-de.zip (EN -> DE),
dicthtml-es.zip (ES), dicthtml-es-en.zip (ES -> EN), dicthtml-en-es.zip (EN -> ES),
dicthtml-fr.zip (FR), dicthtml-fr-en.zip (FR -> EN), dicthtml-en-fr.zip (EN -> FR),
dicthtml-it.zip (IT), dicthtml-it-en.zip (IT -> EN), dicthtml-en-it.zip (EN -> IT),
dicthtml-nl.zip (NL)
dicthtml-ja.zip (JA), dicthtml-en-ja.zip (EN -> JA),
dicthtml-pt.zip (PT), dicthtml-pt-en.zip (PT -> EN), dicthtml-en-pt.zip (EN -> PT)

(ver este hilo de MobileRead)

Por lo tanto, si desea instalar un diccionario personalizado producido con Penelope, debe optar por sobrescribir uno de los diccionarios oficiales de Kobo, perdiendo efectivamente la posibilidad de utilizar este último.

Por ejemplo, supongamos que desea utilizar un diccionario polaco ( dicthtml-pl.zip ), pero no está interesado en utilizar el diccionario oficial de portugués ( dicthtml-pt.zip ).

En su PC, cree/descargue el diccionario polaco dicthtml-pl.zip .
En tu dispositivo Kobo, ve a los ajustes y activa el diccionario de portugués.
Conecte su dispositivo Kobo a su PC mediante el cable USB.
Usando tu administrador de archivos, copia dicthtml-pl.zip desde tu PC al directorio .kobo/dict/ de tu dispositivo Kobo. (Tenga en cuenta que .kobo es un directorio oculto: es posible que deba habilitar la configuración "mostrar archivos/directorios ocultos" de su administrador de archivos).
Cambie el nombre dicthtml-pl.zip a dicthtml-pt.zip .
Reinicia tu Kobo, abre un libro en polaco y selecciona una palabra: debería aparecer la definición. (Para esta prueba, seleccione una palabra común para asegurarse de que esté presente en el diccionario).

Ten en cuenta que si actualizas el firmware de tu Kobo, es posible que los diccionarios personalizados se sobrescriban con los oficiales. Por lo tanto, guarde una copia de seguridad de sus diccionarios personalizados en un lugar seguro, por ejemplo, su PC o una tarjeta SD.

Puede encontrar una lista de diccionarios personalizados, en su mayoría hechos con Penélope, en este hilo de MobileRead.

Licencia

Penélope se publica bajo la licencia MIT desde la versión 2.0.0 (30/06/2014).

Las versiones anteriores, alojadas en Google Code, se publicaron bajo la licencia GNU GPL 3.

Limitaciones y funciones faltantes

Bookeen no tiene documentación oficial para su formato de diccionario (ha sido sometido a ingeniería inversa), YMMV
Kobo no tiene documentación oficial para su formato de diccionario (ha sido sometido a ingeniería inversa), YMMV
La lectura de diccionarios Kobo es parcialmente compatible (se lee el índice, no las definiciones, ya que están cifradas/ofuscadas)
No se admite la lectura de diccionarios EPUB (3); la parte de escritura necesita pulirse/refactorizarse
No se admite la lectura de diccionarios PRC/MOBI (Kindle)
Existen algunas limitaciones en los archivos StarDict que se pueden leer (consulte los comentarios en format_stardict.py ).
La documentación no está completa.
Faltan pruebas unitarias

Patrocinadores

Diciembre de 2015 : IngleseXpress.it, "Gracias por averci aiutato a pubblicare per Kindle il Dizionario Inglese-Italiano della Pronuncia Scritta Semplificata!"

Expresiones de gratitud

Muchas gracias a:

uwelovesdonna por contribuir con ideas para mejorar el código y configurar muchas páginas de la wiki del proyecto;
Jens Sadowski por señalar un error con los nombres de archivos Unicode y por sugerir el uso de multiset dict() en lugar de set dict() ;
oldnat por señalar un error en Windows y Python 3;
Wolfgang Miller-Reichling por proporcionar el código para leer diccionarios CSV;
Branok por proporcionar la idea y el código inicial para la función de intercalación en alemán;
amigo por sugerir pasar -l cambiar a MARISA_BUILD ;
Lukas Brückner por sugerir escapar & < > al generar en formato XML;
Stephan Lichtenhagen por sugerir forzar la codificación UTF-8 en Python 3;
niconavarrete por señalar la dependencia de $CWD (problema n.° 1), resuelta en v2.0.1;
elchamaco por proporcionar un diccionario StarDict con un archivo .syn para realizar pruebas.

Expandir

Información adicional

Versión v3.1.3
Tipo Otro código fuente
Fecha de actualización 2024-12-19
tamaño 58.75KB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
Sunamu

Otro código fuente

Release 2.2.0
MySchedule.py

Otro código fuente

Updates to the fetching of week codes
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo