Collection de bibliothèques Python pour analyser des fichiers bioinformatiques ou effectuer des calculs liés à l'assemblage, à l'annotation et à la génomique comparative.
Auteurs | Haibao Tang (tanghaibao) |
Vivek Krishnakumar (vivekkrish) | |
Xingtan Zhang (tangerzhang) | |
A gagné Cheol Yim (wyim-pgl) | |
[email protected] | |
Licence | BSD |
Conseil
JCVI est maintenant publié dans iMeta !
Tang et coll. (2024) JCVI : Une boîte à outils polyvalente pour l’analyse génomique comparative. iMéta
Les modules suivants sont disponibles en tant que méthodes génériques de manipulation bioinformatique.
algorithmes
applications
formats
Prend actuellement en charge le format .ace
(phrap, cap3, etc.), .agp
(goldenpath), le format .bed
, la sortie .blast
, le format .btab
, le format .coords
(sortie nucmer
), le format .fasta
, le format .fastq
, .fpc
format, format .gff
, format obo
(ontologie), format .psl
(UCSC blat, GMAP, etc.), format .posmap
(sortie de l'assembleur Celera), format .sam
(mappage de lecture), format .contig
(format d'assemblage TIGR) , etc.
graphique
utilitaires
Ensuite, il existe des modules qui contiennent des méthodes spécifiques au domaine.
assemblée
annotation
comparer
Veuillez visiter le wiki pour les applications complètes.
Voici une liste de packages Python tiers utilisés par certaines routines de la bibliothèque. Ces dépendances ne sont pas obligatoires puisqu'elles ne sont utilisées que par quelques modules.
Il existe d'autres modules Python ici et là dans divers scripts. Le meilleur moyen est de les installer via pip install
lorsque vous voyez ImportError
.
Le moyen le plus simple est de l'installer via PyPI :
pip install jcvi
Pour installer la version de développement :
pip install git+git://github.com/tanghaibao/jcvi.git
Alternativement, si vous souhaitez installer manuellement :
cd ~/code # or any directory of your choice
git clone git://github.com/tanghaibao/jcvi.git
pip install -e .
De plus, quelques modules peuvent demander des emplacements de programmes externes, si l'extension est introuvable dans votre PATH
. Les programmes externes souvent utilisés sont :
La plupart des scripts de ce package contiennent plusieurs actions. Pour utiliser l'exemple fasta
:
Usage:
python -m jcvi.formats.fasta ACTION
Available ACTIONs:
clean | Remove irregular chars in FASTA seqs
diff | Check if two fasta records contain same information
extract | Given fasta file and seq id, retrieve the sequence in fasta format
fastq | Combine fasta and qual to create fastq file
filter | Filter the records by size
format | Trim accession id to the first space or switch id based on 2-column mapping file
fromtab | Convert 2-column sequence file to FASTA format
gaps | Print out a list of gap sizes within sequences
gc | Plot G+C content distribution
identical | Given 2 fasta files, find all exactly identical records
ids | Generate a list of headers
info | Run `sequence_info` on fasta files
ispcr | Reformat paired primers into isPcr query format
join | Concatenate a list of seqs and add gaps in between
longestorf | Find longest orf for CDS fasta
pair | Sort paired reads to .pairs, rest to .fragments
pairinplace | Starting from fragment.fasta, find if adjacent records can form pairs
pool | Pool a bunch of fastafiles together and add prefix
qual | Generate dummy .qual file based on FASTA file
random | Randomly take some records
sequin | Generate a gapped fasta file for sequin submission
simulate | Simulate random fasta file for testing
some | Include or exclude a list of records (also performs on .qual file if available)
sort | Sort the records by IDs, sizes, etc.
summary | Report the real no of bases and N's in fasta files
tidy | Normalize gap sizes and remove small components in fasta
translate | Translate CDS to proteins
trim | Given a cross_match screened fasta, trim the sequence
trimsplit | Split sequences at lower-cased letters
uniq | Remove records that are the same
Ensuite, vous devez utiliser une seule action, vous pouvez simplement faire :
python -m jcvi.formats.fasta extract
Cela vous indiquera les options et les arguments attendus.
N'hésitez pas à consulter les autres scripts du package, ce n'est pas uniquement pour FASTA.