penelope Télécharger - penelope Téléchargement du code source

penelope

Autre code source

v3.1.3

Télécharger

Pénélope

Penelope est un multi-outil permettant de créer, d'éditer et de convertir des dictionnaires, notamment pour les appareils eReader.

Version : 3.1.3
Dates : 2016-09-23
Développeur: Alberto Pettarin
Licence : la Licence MIT (MIT)
Contact : cliquez ici

Avec la version actuelle, vous pouvez :

convertir un dictionnaire depuis/vers les formats suivants :
- Bookeen Cybook Odyssée (R/W)
- CSV (L/E)
- EPUB (W uniquement)
- MOBI (Kindle, W uniquement)
- Kobo (index R uniquement, W non crypté/non obscurci uniquement)
- StarDict (R/W)
- XML (L/E)
fusionner plusieurs dictionnaires du même type en un seul dictionnaire
fusionner plusieurs définitions pour une même vedette
trier par mot-clé et/ou par définition
définissez votre propre analyseur d'entrée pour fusionner/trier/modifier les définitions
définissez votre propre fonction de classement (format de sortie bookeen uniquement)
sortir un fichier EPUB contenant le dictionnaire (par exemple, pour faire face à l'absence de fonction de recherche de votre liseuse)
générer un dictionnaire MOBI (Kindle)

Mise à jour importante

2016-04-17 Malheureusement, je ne peux plus me permettre de consacrer du temps à travailler sur Penelope, car mes autres projets FLOSS prennent 100 % de mon temps FLOSS, et je dois toujours payer le loyer et les factures, passer du temps avec ma famille et mes amis, etc. ., comme tout le monde. Par conséquent, je ne travaillerai pas sur les problèmes ou les demandes d'extraction, ne vous attendez pas du tout à ce qu'ils soient traités . Je recherche activement d'autres développeurs pour reprendre ce projet . (Cet avis doit être supprimé lorsque le changement a lieu.) Si vous devez convertir un dictionnaire et que la version actuelle de Penelope ne fonctionne pas pour vous, vous voudrez peut-être jeter un œil à PyGlossary . Mes plus sincères excuses pour la gêne occasionnée.

Installation

Utiliser pip

Ouvrez une console et tapez :
```
$ [sudo] pip install penelope
```
C'est ça! Exécutez simplement sans arguments (ou avec -h ou --help ) pour obtenir le manuel :
```
$ penelope
```

Cette procédure installera lxml et marisa-trie . Vous devrez peut-être installer dictzip (sortie StarDict) et kindlegen (sortie MOBI) séparément, voir ci-dessous.

À partir du code source

Récupérez le code source :
- clonez ce dépôt avec git :
```
$ git clone https://github.com/pettarin/penelope.git
```
- ou téléchargez la dernière version et décompressez-la quelque part,
- ou téléchargez le ZIP principal actuel et décompressez-le quelque part.
Ouvrez une console et entrez dans le répertoire penelope (cloné) :
```
$ cd /path/to/penelope
```
C'est ça! Exécutez simplement sans arguments (ou avec -h ou --help ) pour obtenir le manuel :
```
$ python -m penelope
```

Cette procédure n'installera aucune dépendance : vous devrez le faire manuellement, voir ci-dessous.

Dépendances

Python, version 2.7.x ou 3.4.x (ou supérieure)
pour écrire des dictionnaires StarDict : l'exécutable dictzip , disponible dans votre $PATH ou spécifié avec --dictzip-path :
```
$ [sudo] apt-get install dictzip
```
pour lire/écrire des dictionnaires Kobo : le module Python marisa-trie :
```
$ [sudo] pip install marisa-trie
```
ou exécutables MARISA disponibles dans votre $PATH ou spécifiés avec --marisa-bin-path
pour écrire des dictionnaires Kindle MOBI : l'exécutable kindlegen, disponible dans votre $PATH ou spécifié avec --kindlegen-path
pour lire/écrire des dictionnaires XML : le module Python lxml :
```
$ [sudo] pip install lxml
```

Usage

 usage: 
  $ penelope -h
  $ penelope -i INPUT_FILE -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]
  $ penelope -i IN1,IN2[,IN3...] -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]

description:
  Convert dictionary file(s) with file name prefix INPUT_FILE from format INPUT_FORMAT to format OUTPUT_FORMAT, saving it as OUTPUT_FILE.
  The dictionary is from LANGUAGE_FROM to LANGUAGE_TO, possibly the same.
  You can merge several dictionaries (with the same format), by providing a list of comma-separated prefixes, as shown by the third synopsis above.

optional arguments:
  -h, --help            show this help message and exit
  -d, --debug           enable debug mode (default: False)
  -f LANGUAGE_FROM, --language-from LANGUAGE_FROM
                        from language (ISO 639-1 code)
  -i INPUT_FILE, --input-file INPUT_FILE
                        input file name prefix(es). Multiple prefixes must be
                        comma-separated.
  -j INPUT_FORMAT, --input-format INPUT_FORMAT
                        from format (values: bookeen|csv|kobo|stardict|xml)
  -k, --keep            keep temporary files (default: False)
  -o OUTPUT_FILE, --output-file OUTPUT_FILE
                        output file name
  -p OUTPUT_FORMAT, --output-format OUTPUT_FORMAT
                        to format (values:
                        bookeen|csv|epub|kobo|mobi|stardict|xml)
  -t LANGUAGE_TO, --language-to LANGUAGE_TO
                        to language (ISO 639-1 code)
  -v, --version         print version and exit
  --author AUTHOR       author string
  --copyright COPYRIGHT
                        copyright string
  --cover-path COVER_PATH
                        path of the cover image file
  --description DESCRIPTION
                        description string
  --email EMAIL         email string
  --identifier IDENTIFIER
                        identifier string
  --license LICENSE     license string
  --title TITLE         title string
  --website WEBSITE     website string
  --year YEAR           year string
  --apply-css APPLY_CSS
                        apply the given CSS file (epub and mobi output only)
  --bookeen-collation-function BOOKEEN_COLLATION_FUNCTION
                        use the specified collation function
  --bookeen-install-file
                        create *.install file (default: False)
  --csv-fs CSV_FS       CSV field separator (default: ',')
  --csv-ignore-first-line
                        ignore the first line of the input CSV file(s)
                        (default: False)
  --csv-ls CSV_LS       CSV line separator (default: 'n')
  --dictzip-path DICTZIP_PATH
                        path to dictzip executable
  --epub-no-compress    do not create the compressed container (epub output
                        only, default: False)
  --escape-strings      escape HTML strings (default: False)
  --flatten-synonyms    flatten synonyms, creating a new entry with
                        headword=synonym and using the definition of the
                        original headword (default: False)
  --group-by-prefix-function GROUP_BY_PREFIX_FUNCTION
                        compute the prefix of headwords using the given prefix
                        function file
  --group-by-prefix-length GROUP_BY_PREFIX_LENGTH
                        group headwords by prefix of given length (default: 2)
  --group-by-prefix-merge-across-first
                        merge headword groups even when the first character
                        changes (default: False)
  --group-by-prefix-merge-min-size GROUP_BY_PREFIX_MERGE_MIN_SIZE
                        merge headword groups until the given minimum number
                        of headwords is reached (default: 0, meaning no merge
                        will take place)
  --ignore-case         ignore headword case, all headwords will be lowercased
                        (default: False)
  --ignore-synonyms     ignore synonyms, not reading/writing them if present
                        (default: False)
  --include-index-page  include an index page (epub and mobi output only,
                        default: False)
  --input-file-encoding INPUT_FILE_ENCODING
                        use the specified encoding for reading the raw
                        contents of input file(s) (default: 'utf-8')
  --input-parser INPUT_PARSER
                        use the specified parser function after reading the
                        raw contents of input file(s)
  --kindlegen-path KINDLEGEN_PATH
                        path to kindlegen executable
  --marisa-bin-path MARISA_BIN_PATH
                        path to MARISA bin directory
  --marisa-index-size MARISA_INDEX_SIZE
                        maximum size of the MARISA index (default: 1000000)
  --merge-definitions   merge definitions for the same headword (default:
                        False)
  --merge-separator MERGE_SEPARATOR
                        add this string between merged definitions (default: '
                        | ')
  --mobi-no-kindlegen   do not run kindlegen, keep .opf and .html files
                        (default: False)
  --no-definitions      do not output definitions for EPUB and MOBI formats
                        (default: False)
  --sd-ignore-sametypesequence
                        ignore the value of sametypesequence in StarDict .ifo
                        files (default: False)
  --sd-no-dictzip       do not compress the .dict file in StarDict files
                        (default: False)
  --sort-after          sort after merging/flattening (default: False)
  --sort-before         sort before merging/flattening (default: False)
  --sort-by-definition  sort by definition (default: False)
  --sort-by-headword    sort by headword (default: False)
  --sort-ignore-case    ignore case when sorting (default: False)
  --sort-reverse        reverse the sort order (default: False)

examples:

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip
    Convert en->it dictionary dict.csv (in CSV format) into output.zip (in StarDict format)

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip --merge-definitions
    As above, but also merge definitions

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword
    Merge CSV dictionaries d1, d2, and d3 into output.csv, sorting by headword

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-ignore-case
    As above, but ignore case for sorting

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-reverse
    As above, but reverse the order

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv
    Convert en->it dictionary dict.zip (in StarDict format) into output.csv (in CSV format)

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --ignore-synonyms
    As above, but do not read the .syn synonym file if present

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --flatten-synonyms
    As above, but flatten synonyms

  $ penelope -i dict.zip -j stardict -f en -t it -p bookeen -o output
    Convert dict.zip into output.dict.idx and output.dict for Bookeen devices

  $ penelope -i dict.zip -j stardict -f en -t it -p kobo -o dicthtml-en-it
    Convert dict.zip into dicthtml-en-it.zip for Kobo devices

  $ penelope -i dict.csv -j csv -f en -t it -p mobi -o output.mobi --cover-path mycover.png --title "My English->Italian Dictionary"
    Convert dict.csv into a MOBI (Kindle) dictionary, using the specified cover image and title

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub
    Convert dict.xml into an EPUB dictionary

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub --epub-output-definitions
    As above, but also output definitions

Vous pouvez trouver les codes de langue ISO 639-1 ici.

Installation des dictionnaires

Appareils Bookeen Odyssée

Par exemple, supposons que vous souhaitiez utiliser un dictionnaire IT -> EN.

Sur votre PC, produisez/téléchargez les fichiers du dictionnaire IT -> EN it-en.dict et it-en.dict.idx .
Connectez votre appareil Odyssey à votre PC via le câble USB.
À l'aide de votre gestionnaire de fichiers, copiez les deux fichiers it-en.dict et it-en.dict.idx de votre PC dans le répertoire Dictionaries/ de votre appareil Odyssey.
Redémarrez votre Odyssey, ouvrez un livre en italien et sélectionnez un mot : la définition en anglais devrait apparaître. (Pour ce test, sélectionnez un mot courant afin d'être sûr qu'il est présent dans le dictionnaire !)

Notez que le logiciel de dictionnaire Bookeen sélectionnera le dictionnaire à utiliser en lisant les métadonnées dc:language de votre eBook. Assurez-vous que vos eBooks disposent des métadonnées dc:language appropriées, sinon le bon dictionnaire risque de ne pas être chargé.

Appareils Kobo

Au moment d'écrire ces lignes (16/02/2016), les appareils Kobo chargeront des dictionnaires uniquement si les fichiers portent le nom d'un dictionnaire Kobo officiel, à savoir :

dicthtml.zip (FR)
dicthtml-de.zip (DE), dicthtml-de-en.zip (DE -> EN), dicthtml-en-de.zip (EN -> DE),
dicthtml-es.zip (ES), dicthtml-es-en.zip (ES -> EN), dicthtml-en-es.zip (EN -> ES),
dicthtml-fr.zip (FR), dicthtml-fr-en.zip (FR -> EN), dicthtml-en-fr.zip (EN -> FR),
dicthtml-it.zip (IT), dicthtml-it-en.zip (IT -> EN), dicthtml-en-it.zip (EN -> IT),
dicthtml-nl.zip (NL)
dicthtml-ja.zip (JA), dicthtml-en-ja.zip (EN -> JA),
dicthtml-pt.zip (PT), dicthtml-pt-en.zip (PT -> EN), dicthtml-en-pt.zip (EN -> PT)

(voir ce fil de discussion MobileRead)

Par conséquent, si vous souhaitez installer un dictionnaire personnalisé produit avec Penelope, vous devez choisir d'écraser l'un des dictionnaires officiels Kobo, perdant ainsi la possibilité d'utiliser ce dernier.

Par exemple, supposons que vous souhaitiez utiliser un dictionnaire polonais ( dicthtml-pl.zip ), alors que vous ne souhaitez pas utiliser le dictionnaire portugais officiel ( dicthtml-pt.zip ).

Sur votre PC, créez/téléchargez le dictionnaire polonais dicthtml-pl.zip .
Dans votre appareil Kobo, accédez aux paramètres et activez le dictionnaire portugais.
Connectez votre appareil Kobo à votre PC via le câble USB.
À l'aide de votre gestionnaire de fichiers, copiez dicthtml-pl.zip depuis votre PC dans le répertoire .kobo/dict/ de votre appareil Kobo. (Notez que .kobo est un répertoire caché : vous devrez peut-être activer le paramètre « afficher les fichiers/répertoires cachés » de votre gestionnaire de fichiers.)
Renommez dicthtml-pl.zip en dicthtml-pt.zip .
Redémarrez votre Kobo, ouvrez un livre en polonais et sélectionnez un mot : la définition devrait apparaître. (Pour ce test, sélectionnez un mot courant afin d'être sûr qu'il est présent dans le dictionnaire !)

Notez que si vous mettez à jour le firmware de votre Kobo, les dictionnaires personnalisés peuvent être écrasés par les dictionnaires officiels. Par conséquent, conservez une copie de sauvegarde de vos dictionnaires personnalisés dans un endroit sûr, par exemple votre PC ou une carte SD.

Vous pouvez trouver une liste de dictionnaires personnalisés, principalement réalisés avec Penelope, dans ce fil de discussion MobileRead.

Licence

Penelope est publié sous licence MIT depuis la version 2.0.0 (30/06/2014).

Les versions précédentes, hébergées par Google Code, ont été publiées sous la licence GNU GPL 3.

Limitations et fonctionnalités manquantes

Bookeen n'a pas de documentation officielle pour son format de dictionnaire (il a fait l'objet d'une ingénierie inverse), YMMV
Kobo n'a pas de documentation officielle pour son format de dictionnaire (il a fait l'objet d'une ingénierie inverse), YMMV
La lecture des dictionnaires Kobo est partiellement prise en charge (l'index est lu, les définitions ne le sont pas, car elles sont cryptées/obscurcies)
La lecture des dictionnaires EPUB (3) n'est pas prise en charge ; la partie écriture a besoin d'être polie/refactorisée
La lecture des dictionnaires PRC/MOBI (Kindle) n'est pas prise en charge
Il existe certaines limitations sur les fichiers StarDict qui peuvent être lus (voir les commentaires dans format_stardict.py )
La documentation n'est pas complète
Il manque des tests unitaires

Commanditaires

Décembre 2015 : IngleseXpress.it, "Grazie per averci aiutato a publicblicare per Kindle il Dizionario Inglese-Italiano della Pronuncia Scritta Semplificata!"

Remerciements

Un grand merci à :

uwelovesdonna pour ses idées visant à améliorer le code et pour la mise en place de nombreuses pages du wiki du projet ;
Jens Sadowski pour avoir signalé un bug avec les noms de fichiers Unicode et pour avoir suggéré d'utiliser multiset dict() au lieu de set dict() ;
oldnat pour avoir signalé un bug sous Windows et Python 3 ;
Wolfgang Miller-Reichling pour avoir fourni le code de lecture des dictionnaires CSV ;
branok pour avoir fourni l'idée et le code initial de la fonction de classement allemand ;
mon pote pour avoir suggéré de passer -l switch vers MARISA_BUILD ;
Lukas Brückner pour avoir suggéré d'échapper & < > lors de la sortie au format XML ;
Stephan Lichtenhagen pour avoir suggéré de forcer le codage UTF-8 sur Python 3 ;
niconavarrete pour avoir signalé la dépendance de $CWD (problème n°1), résolu dans la v2.0.1 ;
elchamaco pour avoir fourni un dictionnaire StarDict avec un fichier .syn à des fins de test.

Développer

Informations supplémentaires

Version v3.1.3
Type Autre code source
Date de mise à jour 2024-12-19
taille 58.75KB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout