Попробуйте SeqKit в своем браузере (руководства и упражнения предоставлены sandbox.bio)
Документы: http://bioinf.shenwei.me/seqkit ( использование , часто задаваемые вопросы , руководство и тесты )
Исходный код: https://github.com/shenwei356/seqkit.
Последняя версия:
Пожалуйста, укажите: ,
Другие :
Легко установить (скачать)
Предоставление статически связанных исполняемых двоичных файлов для нескольких платформ (Linux/Windows/macOS, amd64/arm64)
Легкий и готовый к использованию, без зависимостей, без компиляции и настройки.
conda install -c bioconda seqkit
Простота в использовании
Сверхбыстрый (см. технические подробности и тесты)
Беспрепятственный анализ форматов FASTA и FASTQ.
Поддержка (сжатие gzip
/ xz
/ zstd
/ bzip2
) STDIN/STDOUT и файлов ввода/вывода, легко интегрируемых в канал
Воспроизводимые результаты (настраиваемое рандомное начальное число в sample
и shuffle
)
Поддержка идентификатора пользовательской последовательности с помощью регулярного выражения
Поддержка автодополнения Bash/Zsh
Универсальные команды (использование и примеры)
Практичные функции, поддерживаемые 38 подкомандами
Перейдите на страницу загрузки, чтобы просмотреть дополнительные параметры загрузки и журналы изменений, или установите через conda:
conda install -c bioconda seqkit
Категория | Команда | Функция | Вход | Чувствительность прядей | Многопоточность |
---|---|---|---|---|---|
Основная операция | последовательность | Преобразование последовательностей: извлечение идентификатора/последовательности, фильтрация по длине/качеству, удаление пробелов… | ФАСТА/К | ||
статистика | Простая статистика: #seqs, min/max_len, N50, Q20%, Q30%… | ФАСТА/К | ✓ | ||
подпоследовательность | Получите подпоследовательности по регионам/gtf/слоям, включая фланкирующие последовательности. | ФАСТА/К | + или/и - | ||
скользящий | Извлечение подпоследовательностей в скользящих окнах | ФАСТА/К | + только | ||
faidx | Создайте индексный файл FASTA и извлеките подпоследовательности (с большим количеством функций, чем у samtools faidx) | ФАСТА | + или/и - | ||
переводить | перевести ДНК/РНК в последовательность белка | ФАСТА/К | + или/и - | ||
смотреть | Мониторинг и онлайн-гистограммы особенностей последовательности | ФАСТА/К | |||
копро | Конкатенация и потоковая передача файлов fastx в реальном времени | ФАСТА/К | ✓ | ||
Преобразование формата | fq2fa | Конвертировать FASTQ в формат FASTA | БЫСТРЫЙ | ||
fx2tab | Преобразование FASTA/Q в табличный формат | ФАСТА/К | |||
fa2fq | Получить соответствующие записи FASTQ с помощью файла FASTA. | ФАСТА/К | + только | ||
tab2fx | Преобразование табличного формата в формат FASTA/Q | ТСВ | |||
конвертировать | Преобразование качественного кодирования FASTQ между Sanger, Solexa и Illumina | ФАСТА/К | |||
Идет поиск | греп | Поиск последовательностей по идентификатору/названию/последовательности/мотиву последовательности, допускается несовпадение | ФАСТА/К | + и - | частично, -м |
найти | Найдите подпоследовательности/мотивы, допускается несовпадение | ФАСТА/К | + и - | частично, -м | |
ампликон | Извлечь ампликон (или определенную область вокруг него), допускается несовпадение | ФАСТА/К | + и - | частично, -м | |
рыба | Ищите короткие последовательности в более крупных последовательностях. | ФАСТА/К | + и - | ||
Установить операцию | образец | Выборочные последовательности по количеству или пропорциям | ФАСТА/К | ||
rmdup | Удаление дублированных последовательностей по идентификатору/имени/последовательности | ФАСТА/К | + и - | ||
общий | Найти общие последовательности нескольких файлов по идентификатору/имени/последовательности | ФАСТА/К | + и - | ||
дубликат | Дублирующиеся последовательности N раз | ФАСТА/К | |||
расколоть | Разделение последовательностей на файлы по id/seq региона/размеру/частям (в основном для FASTA) | ФАСТА предпочитает | |||
раскол2 | Разделение последовательностей на файлы по размеру/частям (FASTA, PE/SE FASTQ) | ФАСТА/К | |||
голова | Распечатать первые N записей FASTA/Q | ФАСТА/К | |||
геном головы | Выведите последовательности первого генома с общими префиксами в имени. | ФАСТА/К | |||
диапазон | Печать записей FASTA/Q в диапазоне (начало: конец) | ФАСТА/К | |||
пара | Исправление парного чтения из двух файлов fastq. | ФАСТА/К | |||
Редактировать | заменять | Заменить имя/последовательность регулярным выражением | ФАСТА/К | + только | |
переименовывать | Переименуйте повторяющиеся идентификаторы | ФАСТА/К | |||
конкат | Объединение последовательностей с одинаковым идентификатором из нескольких файлов. | ФАСТА/К | + только | ||
перезапуск | Сбросить начальную позицию для кольцевого генома | ФАСТА/К | + только | ||
мутировать | Редактировать последовательность (точечная мутация, вставка, удаление) | ФАСТА/К | + только | ||
Сана | Очистите неработающие однострочные файлы FASTQ. | БЫСТРЫЙ | |||
Заказ | сортировать | Сортировка последовательностей по идентификатору/имени/последовательности/длине | ФАСТА предпочитает | ||
перетасовать | Перемешать последовательности | ФАСТА предпочитает | |||
обработка БАМа | бам | Мониторинг и онлайн-гистограммы особенностей записи БАМа | БАМ | ||
Разнообразный | сумма | Вычислить дайджест сообщения для всех последовательностей в файлах FASTA/Q. | ФАСТА/К | ✓ | |
объединить слайды | Объединить скользящие окна, созданные из скольжения seqkit | ТСВ |
Примечания:
Чувствительность прядей:
+ only
: обработка только положительной/прямой цепи.
+ and -
: поиск по обеим цепям.
+ or/and -
: зависит от флагов/опций/аргументов пользователя.
Многопоточность: использование четырех потоков по умолчанию достаточно быстро для большинства команд, некоторые команды могут выиграть от дополнительных потоков.
Вэй Шен*, Ботонд Сипос и Люян Чжао. 2024. SeqKit2: швейцарский армейский нож для обработки последовательностей и выравнивания. iМета е191. дои: 10.1002/imt2.191.
Вэй Шен, Шуай Ле, Янь Ли* и Фуцюань Ху*. SeqKit: кроссплатформенный и сверхбыстрый набор инструментов для манипулирования файлами FASTA/Q. ПЛОС ОДИН . doi:10.1371/journal.pone.0163962.
Вэй Шен
Ботонд Сипос: bam
, scat
, fish
, sana
, watch
.
другие
Мы благодарим всех пользователей за их ценные отзывы и предложения. Мы благодарим всех участников за улучшение кода и документации.
Мы ценим Клауса Поста за его фантастические пакеты ( compress и pgzip ), которые ускоряют чтение и запись файлов gzip.
Создайте задачу, чтобы сообщить об ошибках, предложить новые функции или попросить о помощи.
Лицензия MIT