BOLDigger2下載 - BOLDigger2原始碼下載

BOLDigger2

其他源碼

2.2.1 released

下載

重要更新：BOLDigger3

請參閱：https://github.com/DominikBuchner/BOLDigger3

一個更好的 Python 程序，用於根據 www.boldsystems.org 的 COI 資料庫查詢 .fasta 文件

介紹

DNA 元條碼資料集通常包含數百個操作分類單元 (OTU)，需要查詢資料庫以進行分類分配。生命資料條碼系統 (BOLD) 是生物學家廣泛使用的資料庫。然而，BOLD 的線上平台限制使用者一次只能識別 50 個序列的批次。此外，使用 BOLD 的 API 並不能完全解決這個問題，因為它不提供對私有和早期發布資料的存取。

BOLDigger2 是 BOLDigger 的後繼者，旨在克服這些限制。作為純 Python 程序，BOLDigger2 提供：

自動存取 BOLD 的識別引擎
下載每次點擊的附加元數據
從返回的結果中選擇最合適的命中

透過利用這些功能，BOLDigger2 簡化了 OTU 識別過程，使其更加高效和全面。

BOLDigger2 和 BOLDigger 之間的主要區別

統一功能：BOLDigger2 使用單一功能identify ，自動執行識別、附加資料下載和熱門命中的選擇。這使得能夠直接實施到管道中。
增強的資料庫查詢：BOLDigger2 最初使用「物種級條碼記錄」資料庫中的前 100 個命中。如果沒有找到結果，則回退到「所有條碼記錄」資料庫。
提高速度：BOLDigger2 不再更改提供的 FASTA 檔案。相反，它首先生成所有下載鏈接，然後異步下載數據，將速度提高了近兩倍。
安全密碼處理：BOLDigger2 不再要求輸入明文密碼。
簡化的參數：BOLDigger2 中的identify函數僅接受一個參數：要辨識的 FASTA 檔案的路徑。它將所有結果保存在同一資料夾中。
高效的資料儲存：BOLDigger2 將前 100 個點擊儲存在單獨的檔案中，從而加快處理時間。所有輸出也將以 .hdf 和 .parquet 格式保存，以方便後續對大型表的處理。
附加資料字段：BOLDigger2 中的熱門命中將包含附加資料字段，例如支援所選熱門命中的記錄數、用於熱門命中的分類等級以及所選命中所屬的所有 BINS（如果它是一個物種）-等級命中。
附加標誌：BOLDigger2 交換了標誌 5。不再需要 BOLDigger 的 API 驗證模組。
調整後的物種等級閾值：BOLDigger2 接受相似度 >= 97% 的命中作為物種等級記錄。這項決定與 DNA 元條碼中常用的 3% OTU 聚類閾值一致。
提高製程安全性：BOLDigger2 可以在處理過程中的任何點停止，並且只會在停止的地方繼續。 BOLDigger2 將不再更改提供的 FASTA 檔案。 BOLDigger2 接受兩種常見的 FASTA 格式。
動態下載：BOLDigger2 將自動調整每次查詢到 BOLD 資料庫的序列數量。如果連線逾時，查詢大小將減少，如果請求成功，查詢大小將會增加。
改進的錯誤處理：現在可以偵測 BOLD 資料庫中的損壞記錄，除了「NoMatches」之外，還直接報告為「BrokenRecord」。如果 BOLD 網站無法訪問，BOLDigger2 將簡單地等待，直到它再次啟動。除此之外，BOLDigger2 也推出了「ImcompleteTaxonomy」熱門產品。當所有命中都包含特殊內容或缺少完整的更高分類等級（例如類別/閘）時，將傳回此值。

安裝與使用

BOLDigger2 需要 Python 3.10 或更高版本，並且可以在任何命令列中使用 pip 輕鬆安裝：

pip install boldigger2

此命令將安裝 BOLDigger2 及其所有相依性。

若要執行識別功能，請使用以下命令：

boldigger2 identify PATH_TO_FASTA

為了自動化生物資訊管道中的辨識功能，粗體憑證也可以直接作為可選參數傳遞

boldigger2 identify PATH_TO_FASTA -username USERNAME -password PASSWORD

為了根據使用者特定需求自訂已實現的閾值，可以將閾值作為附加（有序）參數傳遞。對於不同的分類等級（種、屬、科、目、綱），最多可以通過 5 個不同的閾值。未通過的閾值將預設被替換，但 BOLDigger2 也會通知您這一點。

boldigger2 identify PATH_TO_FASTA -thresholds 99 97

輸出：

 19:16:16: Default thresholds changed!
19:16:16: Species: 99, Genus: 97, Family: 90, Order: 85, Class: 50
19:16:16: Trying to log in.
BOLD username:

BOLDigger2 將提示您輸入使用者名稱和密碼，然後執行識別。

當新版本發佈時，您可以透過鍵入以下內容來更新 BOLDigger2：

pip install --upgrade boldigger2

如何引用

Buchner D、Leese F (2020) BOLDigger – 一個 Python 包，用於使用生命資料條碼系統識別和組織序列。元條碼和宏基因組學 4：e53535。 https://doi.org/10.3897/mbmg.4.53535

BOLDigger2 演算法

BOLDigger2演算法依照以下流程圖運作：

登入粗體：
- 使用 BOLD 資料系統進行身份驗證。
產生物種級條碼的下載連結：
- 產生一批序列的物種級條碼資料庫的下載連結。
下載熱門 100 首歌曲：
- 檢索上一步驟中的下載連結。
- 下載每個連結的前 100 個點擊。
- 使用鍵"top_100_hits_unsorted"將結果儲存到 HDF 儲存。
- 繼續，直到識別出所有序列。
辨識沒有物種級命中的序列：
- 閱讀未排序的前 100 名點擊。
- 辨識未產生物種層級命中的序列。
產生所有記錄的下載連結：
- 為「BOLD 上的所有記錄」資料庫產生一批沒有物種級命中的序列的下載連結。
下載所有記錄的前 100 首熱門歌曲：
- 檢索上一步驟中的下載連結。
- 下載每個連結的前 100 個點擊。
- 使用鍵"top_100_hits_unsorted"將結果儲存到 HDF 儲存。
- 繼續，直到識別出所有序列。
排序並保存熱門歌曲：
- 閱讀所有前 100 名點擊。
- 刪除重複的條目。
- 依照與 FASTA 檔案中相同的順序對命中進行排序。
- 識別所有公共記錄並觸發額外資料下載。
- 使用鍵"top_100_hits_sorted"將它們保存在 HDF 儲存中。
儲存附加資料：
- 使用鍵"top_100_hits_additional_data"將包含附加資料的點擊儲存到 HDF 儲存。
將附加資料匯出到 Excel：
- 將附加資料儲存為 Excel 格式。
- 將資料拆分為每個 1,000,000 行的表。
計算並儲存熱門點擊：
- 計算每個序列的最高命中。
- 以 Excel 格式 ( identification_result.xlsx ) 和 Parquet 格式 ( identification_result.parquet.snappy ) 儲存熱門命中，以便快速進一步處理。

BOLDigger2 標記系統

BOLDigger2 採用標記系統來突顯某些條件，顯示所選命中的不確定性程度。目前，已實現五個標誌，可以根據需要進行更新：

反向 BIN 分類法：如果表示所選匹配的所有前 100 個命中都使用反向 BIN 分類法，則會引發此標誌。反向 BIN 分類法將物種名稱分配給 BOLD 上缺乏物種資訊的沉積序列，這可能會引入不確定性。
不同的分類資訊：如果有兩個或多個條目的不同分類資訊高於所選閾值（例如，兩個物種高於 97%），則會觸發此標誌，表明潛在的差異。
私人或早期發布資料：如果代表熱門點擊的所有前 100 個點擊都是私有或早期發布點擊，則將引發此標誌，表示對資料的存取有限。
唯一命中：此標誌指示最高命中結果代表前 100 個命中中的唯一命中，可能需要進一步審查。
多個 BIN ：如果選定的物種級命中由多個 BIN 組成，則會升起此標誌，表明分類分配中存在潛在的複雜性。

鑑於這些標誌的存在，建議對所有標記的命中進行仔細檢查，以更好地理解和解決所選命中中的任何不確定性。

展開

附加信息