Proyek ini mengeksplorasi potensi model AI generatif sumber terbuka, khususnya yang didasarkan pada arsitektur Transformer, untuk mengotomatisasi peringkasan konten dokumen. Tujuannya adalah untuk mengevaluasi dan menerapkan model AI generatif yang ada untuk menganalisis, memahami konteks, dan menghasilkan ringkasan untuk dokumen tidak terstruktur.
Untuk mencapai hal ini, saya telah menyempurnakan dua model terkemuka: t5-small dan facebook/bart-base, dengan fokus pada peningkatan kinerja peringkasan mereka.
Fokusnya adalah pada model encoder-decoder mengikuti arsitektur yang diusulkan oleh Transformers asli karena pemetaan kompleks antara urutan masukan dan keluaran yang diperlukan untuk peringkasan teks. Model encoder-decoder mahir dalam menangkap hubungan dalam urutan ini, sehingga cocok untuk tugas ini.
Pastikan Python 3.x diinstal pada sistem Anda. Kemudian, ikuti langkah-langkah di bawah ini untuk menyiapkan lingkungan Anda:
$ xcode-select --install
$ pip3 install --upgrade pip
$ pip3 install --upgrade setuptools
$ pip3 install -r requirements.txt
python3 main.py
Proyek ini terdiri dari enam fase utama:
Kumpulan data yang digunakan untuk menyempurnakan model T5 dan BART adalah Kumpulan Data Paten Besar, yang terdiri dari 1,3 juta dokumen paten AS beserta ringkasan abstraktif yang ditulis manusia. Setiap dokumen dalam kumpulan data ini dikategorikan berdasarkan kode Cooperative Patent Classification (CPC), yang mencakup berbagai topik mulai dari kebutuhan manusia hingga fisika dan listrik. Keberagaman ini memastikan bahwa model-model tersebut menghadapi beragam penggunaan bahasa dan jargon teknis, yang sangat penting untuk mengembangkan kemampuan peringkasan yang kuat.
Kumpulan Data Paten Besar dipilih karena relevansinya dengan tujuan proyek dalam merangkum dokumen yang kompleks. Paten pada dasarnya bersifat rinci dan teknis, menjadikannya tantangan ideal untuk menguji kemampuan model dalam menyingkat informasi sambil mempertahankan konten inti dan konteks. Format terstruktur kumpulan data dan adanya ringkasan berkualitas tinggi memberikan landasan yang kuat untuk melatih dan mengevaluasi performa model dalam menghasilkan ringkasan yang akurat dan koheren.
Performa model dievaluasi menggunakan metrik ROUGE, yang menekankan kemampuan model dalam menghasilkan ringkasan yang selaras dengan abstrak yang ditulis manusia. Model BART dan T5 disempurnakan menggunakan Kumpulan Data Paten Besar, dengan fokus pada pencapaian ringkasan abstrak berkualitas tinggi.
Metrik | Nilai |
---|---|
Kerugian Evaluasi (Eval Loss) | 1.9244 |
Merah-1 | 0,5007 |
Merah-2 | 0,2704 |
Merah-L | 0,3627 |
Rouge-Lsum | 0,3636 |
Rata-rata Panjang Generasi (Gen Len) | 122.1489 |
Durasi (detik) | 1459.3826 |
Sampel per Detik | 1.312 |
Langkah per Detik | 0,164 |
Metrik | Nilai |
---|---|
Kerugian Evaluasi (Eval Loss) | 1.9984 |
Merah-1 | 0,503 |
Merah-2 | 0,286 |
Merah-L | 0,3813 |
Rouge-Lsum | 0,3813 |
Rata-rata Panjang Generasi (Gen Len) | 151.918 |
Durasi (detik) | 714.4344 |
Sampel per Detik | 2.679 |
Langkah per Detik | 0,336 |