split_markdown4gpt
adalah alat Python yang dirancang untuk membagi file Markdown besar menjadi beberapa bagian yang lebih kecil berdasarkan batas token yang ditentukan. Hal ini sangat berguna untuk memproses file Markdown berukuran besar dengan model GPT, karena memungkinkan model menangani data dalam potongan yang dapat dikelola.
Versi 1.0.9 (2023-06-19)
Anda dapat menginstal split_markdown4gpt
melalui pip:
pip install split_markdown4gpt
Setelah instalasi, Anda dapat menggunakan perintah mdsplit4gpt
untuk membagi file Markdown. Berikut sintaks dasarnya:
mdsplit4gpt path_to_your_file.md --model gpt-3.5-turbo --limit 4096 --separator " === SPLIT === "
Perintah ini akan membagi file Markdown di path_to_your_file.md
menjadi beberapa bagian, masing-masing berisi tidak lebih dari 4096 token (yang dihitung oleh model gpt-3.5-turbo
). Bagian-bagiannya akan dipisahkan dengan === SPLIT ===
.
Semua opsi CLI:
NAME
mdsplit4gpt - Splits a Markdown file into sections according to GPT token size limits.
SYNOPSIS
mdsplit4gpt MD_PATH <flags>
DESCRIPTION
This tool loads a Markdown file, and splits its content into sections
that are within the specified token size limit using the desired GPT tokenizing model. The resulting
sections are then concatenated using the specified separator and returned as a single string.
POSITIONAL ARGUMENTS
MD_PATH
Type: Union
The path of the source Markdown file to be split.
FLAGS
-m, --model=MODEL
Type: str
Default: 'gpt-3.5-turbo'
The GPT tokenizer model to use for calculating token sizes. Defaults to "gpt-3.5-turbo".
-l, --limit=LIMIT
Type: Optional[int]
Default: None
The maximum number of GPT tokens allowed per section. Defaults to the model's maximum tokens.
-s, --separator=SEPARATOR
Type: str
Default: '=== SPLIT ==='
The string used to separate sections in the output. Defaults to "=== SPLIT ===".
Anda juga dapat menggunakan split_markdown4gpt
dalam kode Python Anda. Berikut ini contoh dasarnya:
from split_markdown4gpt import split
sections = split ( "path_to_your_file.md" , model = "gpt-3.5-turbo" , limit = 4096 )
for section in sections :
print ( section )
Kode ini melakukan hal yang sama seperti perintah CLI di atas, tetapi dengan Python.
split_markdown4gpt
bekerja dengan memberi token pada file input Markdown menggunakan tokenizer model GPT yang ditentukan (defaultnya adalah gpt-3.5-turbo
). Ini kemudian membagi file menjadi beberapa bagian, masing-masing berisi tidak lebih dari batas token yang ditentukan.
Proses pemisahan menghormati struktur file Markdown. Itu tidak akan membagi bagian (seperti yang ditentukan oleh judul penurunan harga) di beberapa bagian keluaran kecuali bagian tersebut lebih panjang dari batas token. Kalau begitu, itu
akan membagi bagian pada tingkat kalimat.
Alat ini menggunakan beberapa perpustakaan untuk mencapai hal ini:
tiktoken
untuk memberi token pada teks sesuai dengan aturan model GPT.fire
untuk membuat CLI.frontmatter
untuk mengurai materi depan file Markdown (metadata di awal file).mistletoe
untuk mengurai file Markdown ke dalam pohon sintaksis.syntok
untuk membagi teks menjadi kalimat.regex
dan PyYAML
untuk berbagai fungsi utilitas. split_markdown4gpt
sangat berguna dalam skenario ketika Anda perlu memproses file Markdown berukuran besar dengan model GPT. Misalnya:
Pembuatan Teks : Jika Anda menggunakan model GPT untuk menghasilkan teks berdasarkan file Markdown yang besar, Anda dapat menggunakan split_markdown4gpt
untuk membagi file menjadi beberapa bagian yang dapat dikelola. Hal ini memungkinkan model GPT memproses file dalam beberapa bagian, mencegah kesalahan token overflow.
Pemrosesan Awal Data : Dalam proyek pembelajaran mesin, Anda sering kali perlu memproses data terlebih dahulu sebelum memasukkannya ke dalam model Anda. Jika data Anda berupa file Markdown yang besar, split_markdown4gpt
dapat membantu Anda membagi file ini menjadi beberapa bagian yang lebih kecil berdasarkan batas token model Anda.
Analisis Dokumen : Jika Anda menganalisis dokumen Markdown berukuran besar (misalnya mengekstraksi kata kunci, meringkas konten), Anda dapat menggunakan split_markdown4gpt
untuk memecah dokumen menjadi beberapa bagian yang lebih kecil. Hal ini membuat analisis lebih mudah dikelola dan efisien.
Kontribusi pada split_markdown4gpt
dipersilakan! Silakan buka terbitan atau kirimkan permintaan penarikan pada repositori GitHub.