penelope Download - penelope Download do código-fonte

penelope

Outro código-fonte

v3.1.3

Baixar

Penélope

Penelope é uma ferramenta multifuncional para criação, edição e conversão de dicionários, especialmente para dispositivos eReader.

Versão: 3.1.3
Data: 23/09/2016
Desenvolvedor: Alberto Pettarin
Licença: a Licença MIT (MIT)
Contato: clique aqui

Com a versão atual você pode:

converta um dicionário de/para os seguintes formatos:
- Bookeen Cybook Odyssey (R/W)
- CSV (R/W)
- EPUB (somente W)
- MOBI (apenas Kindle, W)
- Kobo (somente índice R, somente W não criptografado/não ofuscado)
- StarDict (R/W)
- XML (R/W)
mesclar vários dicionários do mesmo tipo em um único dicionário
mesclar várias definições para o mesmo cabeçalho
classificar por palavra-chave e/ou por definição
defina seu próprio analisador de entrada para mesclar/classificar/editar definições
defina sua própria função de agrupamento (apenas formato de saída bookeen )
gerar um arquivo EPUB contendo o dicionário (por exemplo, para lidar com a falta de uma função de pesquisa em seu eReader)
gerar um dicionário MOBI (Kindle)

Atualização importante

2016-04-17 Infelizmente, não posso mais gastar tempo trabalhando em Penelope, pois meus outros projetos de FLOSS ocupam 100% do meu tempo de FLOSS e ainda preciso pagar aluguel e contas, passar tempo com família e amigos, etc. ., como qualquer outra pessoa. Portanto, não trabalharei em problemas ou solicitações pull, por favor, não espere que eles sejam resolvidos . Estou procurando ativamente por outros desenvolvedores para assumir este projeto . (Este aviso deve ser removido quando a mudança acontecer.) Se você precisar converter um dicionário e a versão atual do Penelope não funcionar para você, você pode dar uma olhada em PyGlossary . Minhas mais sinceras desculpas pelo transtorno.

Instalação

Usando pip

Abra um console e digite:
```
$ [sudo] pip install penelope
```
É isso! Basta executar sem argumentos (ou com -h ou --help ) para obter o manual:
```
$ penelope
```

Este procedimento instalará lxml e marisa-trie . Pode ser necessário instalar dictzip (saída StarDict) e kindlegen (saída MOBI) separadamente, veja abaixo.

Do código-fonte

Obtenha o código-fonte:
- clone este repositório com git :
```
$ git clone https://github.com/pettarin/penelope.git
```
- ou baixe a versão mais recente e descompacte-a em algum lugar,
- ou baixe o ZIP master atual e descompacte-o em algum lugar.
Abra um console e entre no diretório penelope (clonado):
```
$ cd /path/to/penelope
```
É isso! Basta executar sem argumentos (ou com -h ou --help ) para obter o manual:
```
$ python -m penelope
```

Este procedimento não instalará nenhuma dependência: você precisará fazer isso manualmente, veja abaixo.

Dependências

Python, versão 2.7.x ou 3.4.x (ou superior)
para escrever dicionários StarDict: o executável dictzip , disponível em seu $PATH ou especificado com --dictzip-path :
```
$ [sudo] apt-get install dictzip
```
para ler/escrever dicionários Kobo: o módulo Python marisa-trie :
```
$ [sudo] pip install marisa-trie
```
ou executáveis MARISA disponíveis em seu $PATH ou especificados com --marisa-bin-path
para escrever dicionários MOBI Kindle: o executável kindlegen, disponível em seu $PATH ou especificado com --kindlegen-path
para ler/escrever dicionários XML: o módulo Python lxml :
```
$ [sudo] pip install lxml
```

Uso

 usage: 
  $ penelope -h
  $ penelope -i INPUT_FILE -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]
  $ penelope -i IN1,IN2[,IN3...] -j INPUT_FORMAT -f LANGUAGE_FROM -t LANGUAGE_TO -p OUTPUT_FORMAT -o OUTPUT_FILE [OPTIONS]

description:
  Convert dictionary file(s) with file name prefix INPUT_FILE from format INPUT_FORMAT to format OUTPUT_FORMAT, saving it as OUTPUT_FILE.
  The dictionary is from LANGUAGE_FROM to LANGUAGE_TO, possibly the same.
  You can merge several dictionaries (with the same format), by providing a list of comma-separated prefixes, as shown by the third synopsis above.

optional arguments:
  -h, --help            show this help message and exit
  -d, --debug           enable debug mode (default: False)
  -f LANGUAGE_FROM, --language-from LANGUAGE_FROM
                        from language (ISO 639-1 code)
  -i INPUT_FILE, --input-file INPUT_FILE
                        input file name prefix(es). Multiple prefixes must be
                        comma-separated.
  -j INPUT_FORMAT, --input-format INPUT_FORMAT
                        from format (values: bookeen|csv|kobo|stardict|xml)
  -k, --keep            keep temporary files (default: False)
  -o OUTPUT_FILE, --output-file OUTPUT_FILE
                        output file name
  -p OUTPUT_FORMAT, --output-format OUTPUT_FORMAT
                        to format (values:
                        bookeen|csv|epub|kobo|mobi|stardict|xml)
  -t LANGUAGE_TO, --language-to LANGUAGE_TO
                        to language (ISO 639-1 code)
  -v, --version         print version and exit
  --author AUTHOR       author string
  --copyright COPYRIGHT
                        copyright string
  --cover-path COVER_PATH
                        path of the cover image file
  --description DESCRIPTION
                        description string
  --email EMAIL         email string
  --identifier IDENTIFIER
                        identifier string
  --license LICENSE     license string
  --title TITLE         title string
  --website WEBSITE     website string
  --year YEAR           year string
  --apply-css APPLY_CSS
                        apply the given CSS file (epub and mobi output only)
  --bookeen-collation-function BOOKEEN_COLLATION_FUNCTION
                        use the specified collation function
  --bookeen-install-file
                        create *.install file (default: False)
  --csv-fs CSV_FS       CSV field separator (default: ',')
  --csv-ignore-first-line
                        ignore the first line of the input CSV file(s)
                        (default: False)
  --csv-ls CSV_LS       CSV line separator (default: 'n')
  --dictzip-path DICTZIP_PATH
                        path to dictzip executable
  --epub-no-compress    do not create the compressed container (epub output
                        only, default: False)
  --escape-strings      escape HTML strings (default: False)
  --flatten-synonyms    flatten synonyms, creating a new entry with
                        headword=synonym and using the definition of the
                        original headword (default: False)
  --group-by-prefix-function GROUP_BY_PREFIX_FUNCTION
                        compute the prefix of headwords using the given prefix
                        function file
  --group-by-prefix-length GROUP_BY_PREFIX_LENGTH
                        group headwords by prefix of given length (default: 2)
  --group-by-prefix-merge-across-first
                        merge headword groups even when the first character
                        changes (default: False)
  --group-by-prefix-merge-min-size GROUP_BY_PREFIX_MERGE_MIN_SIZE
                        merge headword groups until the given minimum number
                        of headwords is reached (default: 0, meaning no merge
                        will take place)
  --ignore-case         ignore headword case, all headwords will be lowercased
                        (default: False)
  --ignore-synonyms     ignore synonyms, not reading/writing them if present
                        (default: False)
  --include-index-page  include an index page (epub and mobi output only,
                        default: False)
  --input-file-encoding INPUT_FILE_ENCODING
                        use the specified encoding for reading the raw
                        contents of input file(s) (default: 'utf-8')
  --input-parser INPUT_PARSER
                        use the specified parser function after reading the
                        raw contents of input file(s)
  --kindlegen-path KINDLEGEN_PATH
                        path to kindlegen executable
  --marisa-bin-path MARISA_BIN_PATH
                        path to MARISA bin directory
  --marisa-index-size MARISA_INDEX_SIZE
                        maximum size of the MARISA index (default: 1000000)
  --merge-definitions   merge definitions for the same headword (default:
                        False)
  --merge-separator MERGE_SEPARATOR
                        add this string between merged definitions (default: '
                        | ')
  --mobi-no-kindlegen   do not run kindlegen, keep .opf and .html files
                        (default: False)
  --no-definitions      do not output definitions for EPUB and MOBI formats
                        (default: False)
  --sd-ignore-sametypesequence
                        ignore the value of sametypesequence in StarDict .ifo
                        files (default: False)
  --sd-no-dictzip       do not compress the .dict file in StarDict files
                        (default: False)
  --sort-after          sort after merging/flattening (default: False)
  --sort-before         sort before merging/flattening (default: False)
  --sort-by-definition  sort by definition (default: False)
  --sort-by-headword    sort by headword (default: False)
  --sort-ignore-case    ignore case when sorting (default: False)
  --sort-reverse        reverse the sort order (default: False)

examples:

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip
    Convert en->it dictionary dict.csv (in CSV format) into output.zip (in StarDict format)

  $ penelope -i dict.csv -j csv -f en -t it -p stardict -o output.zip --merge-definitions
    As above, but also merge definitions

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword
    Merge CSV dictionaries d1, d2, and d3 into output.csv, sorting by headword

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-ignore-case
    As above, but ignore case for sorting

  $ penelope -i d1,d2,d3 -j csv -f en -t it -p csv -o output.csv --sort-after --sort-by-headword --sort-reverse
    As above, but reverse the order

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv
    Convert en->it dictionary dict.zip (in StarDict format) into output.csv (in CSV format)

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --ignore-synonyms
    As above, but do not read the .syn synonym file if present

  $ penelope -i dict.zip -j stardict -f en -t it -p csv -o output.csv --flatten-synonyms
    As above, but flatten synonyms

  $ penelope -i dict.zip -j stardict -f en -t it -p bookeen -o output
    Convert dict.zip into output.dict.idx and output.dict for Bookeen devices

  $ penelope -i dict.zip -j stardict -f en -t it -p kobo -o dicthtml-en-it
    Convert dict.zip into dicthtml-en-it.zip for Kobo devices

  $ penelope -i dict.csv -j csv -f en -t it -p mobi -o output.mobi --cover-path mycover.png --title "My English->Italian Dictionary"
    Convert dict.csv into a MOBI (Kindle) dictionary, using the specified cover image and title

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub
    Convert dict.xml into an EPUB dictionary

  $ penelope -i dict.xml -j xml -f en -t it -p mobi -o output.epub --epub-output-definitions
    As above, but also output definitions

Você pode encontrar os códigos de idioma ISO 639-1 aqui.

Instalando os Dicionários

Dispositivos Bookeen Odyssey

Por exemplo, suponha que você queira usar um dicionário IT -> EN.

No seu PC, produza/baixe os arquivos de dicionário IT -> EN it-en.dict e it-en.dict.idx .
Conecte seu dispositivo Odyssey ao PC através do cabo USB.
Usando seu gerenciador de arquivos, copie os dois arquivos it-en.dict e it-en.dict.idx do seu PC para o diretório Dictionaries/ no seu dispositivo Odyssey.
Reinicie seu Odyssey, abra um livro em italiano e selecione uma palavra: deverá aparecer a definição em inglês. (Para este teste, selecione uma palavra comum para ter certeza de que ela está presente no dicionário!)

Observe que o software de dicionário Bookeen selecionará o dicionário a ser usado lendo os metadados dc:language do seu e-book. Certifique-se de que seus e-books tenham os metadados dc:language adequados, caso contrário, o dicionário correto poderá não ser carregado.

Dispositivos Kobo

No momento da redação deste artigo (16/02/2016), os dispositivos Kobo carregarão dicionários apenas se os arquivos tiverem um nome de arquivo de dicionários oficiais da Kobo, que são:

dicthtml.zip (PT)
dicthtml-de.zip (DE), dicthtml-de-en.zip (DE -> EN), dicthtml-en-de.zip (EN -> DE),
dicthtml-es.zip (ES), dicthtml-es-en.zip (ES -> EN), dicthtml-en-es.zip (EN -> ES),
dicthtml-fr.zip (FR), dicthtml-fr-en.zip (FR -> EN), dicthtml-en-fr.zip (EN -> FR),
dicthtml-it.zip (IT), dicthtml-it-en.zip (IT -> EN), dicthtml-en-it.zip (EN -> IT),
dicthtml-nl.zip (NL)
dicthtml-ja.zip (JA), dicthtml-en-ja.zip (EN -> JA),
dicthtml-pt.zip (PT), dicthtml-pt-en.zip (PT -> EN), dicthtml-en-pt.zip (EN -> PT)

(veja este tópico do MobileRead)

Portanto, se você deseja instalar um dicionário personalizado produzido com Penelope, você deve optar por sobrescrever um dos dicionários oficiais da Kobo, perdendo efetivamente a possibilidade de utilizar este último.

Por exemplo, suponha que você queira usar um dicionário de polonês ( dicthtml-pl.zip ), mas não está interessado em usar o dicionário oficial de português ( dicthtml-pt.zip ).

No seu PC, produza/baixe o dicionário polonês dicthtml-pl.zip .
No seu dispositivo Kobo, acesse as configurações e ative o dicionário de português.
Conecte seu dispositivo Kobo ao PC através do cabo USB.
Usando seu gerenciador de arquivos, copie dicthtml-pl.zip do seu PC para o diretório .kobo/dict/ no seu dispositivo Kobo. (Observe que .kobo é um diretório oculto: pode ser necessário ativar a configuração "mostrar arquivos/diretórios ocultos" do seu gerenciador de arquivos.)
Renomeie dicthtml-pl.zip para dicthtml-pt.zip .
Reinicie seu Kobo, abra um livro em polonês e selecione uma palavra: a definição deverá aparecer. (Para este teste, selecione uma palavra comum para ter certeza de que ela está presente no dicionário!)

Observe que se você atualizar o firmware do seu Kobo, os dicionários personalizados poderão ser substituídos pelos oficiais. Portanto, mantenha uma cópia de backup dos seus dicionários personalizados em um local seguro, por exemplo, no seu PC ou cartão SD.

Você pode encontrar uma lista de dicionários personalizados, feitos principalmente com Penelope, neste tópico do MobileRead.

Licença

Penelope é lançado sob a licença MIT desde a versão 2.0.0 (30/06/2014).

Versões anteriores, hospedadas pelo Google Code, foram lançadas sob a licença GNU GPL 3.

Limitações e recursos ausentes

Bookeen não possui documentação oficial para seu formato de dicionário (foi submetido a engenharia reversa), YMMV
Kobo não possui documentação oficial para seu formato de dicionário (foi submetido a engenharia reversa), YMMV
A leitura de dicionários Kobo é parcialmente suportada (o índice é lido, as definições não, pois são criptografadas/ofuscadas)
A leitura de dicionários EPUB (3) não é suportada; a parte escrita precisa de polimento/refatoração
A leitura de dicionários PRC/MOBI (Kindle) não é suportada
Existem algumas limitações nos arquivos StarDict que podem ser lidos (veja os comentários em format_stardict.py )
A documentação não está completa
Faltam testes unitários

Patrocinadores

Dezembro de 2015 : IngleseXpress.it, "Grazie per averci aiutato a pubblicare per Kindle il Dizionario Inglese-Italiano della Pronuncia Scritta Semplificata!"

Agradecimentos

Muito obrigado a:

uwelovesdonna por contribuir com ideias para melhorar o código e configurar muitas páginas do wiki do projeto;
Jens Sadowski por apontar um bug com nomes de arquivos Unicode e por sugerir o uso de multiset dict() em vez de set dict() ;
oldnat por apontar um bug no Windows e no Python 3;
Wolfgang Miller-Reichling por fornecer o código para leitura de dicionários CSV;
branok por fornecer a ideia e o código inicial para a função de agrupamento em alemão;
amigo por sugerir passar -l switch para MARISA_BUILD ;
Lukas Brückner por sugerir escapar & < > ao gerar em formato XML;
Stephan Lichtenhagen por sugerir forçar a codificação UTF-8 no Python 3;
niconavarrete por apontar a dependência de $CWD (problema #1), resolvida na v2.0.1;
elchamaco por fornecer um dicionário StarDict com um arquivo .syn para teste.

Expandir

Informações adicionais

Versão v3.1.3
Tipo Outro código-fonte
Data da Última Atualização 2024-12-19
tamanho 58.75KB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos