Dieser Quellcode ist eine Implementierung des TextRank-Algorithmus in der Programmiersprache PHP unter MIT-Lizenz.
GPTs wie ChatGPT sind überwachte Sprachmodelle, die den Kontext verstehen und unter Einsatz enormer Ressourcen neue Inhalte aus der gegebenen Eingabe generieren, während TextRank ein kosteneffizienter/kostengünstiger Textextraktionsalgorithmus ist. Der TextRank-Algorithmus kann auch als Vorprozessor für ein GPT-Modell verwendet werden, um die Textgröße zu reduzieren und so den Ressourcenverbrauch zu senken.
Bei der automatischen Zusammenfassung wird ein Textdokument mit einem Computerprogramm reduziert, um eine Zusammenfassung zu erstellen, die die wichtigsten Punkte des Originaldokuments beibehält. Technologien, die eine zusammenhängende Zusammenfassung erstellen können, berücksichtigen Variablen wie Länge, Schreibstil und Syntax. Die automatische Datenzusammenfassung ist Teil des maschinellen Lernens und des Data Mining. Die Hauptidee der Zusammenfassung besteht darin, eine repräsentative Teilmenge der Daten zu finden, die die Informationen der gesamten Menge enthält. Verdichtungstechnologien werden heute in einer Vielzahl von Bereichen der Industrie eingesetzt. - Wikipedia
Der Algorithmus dieser Implementierung ist:
cd your-project-folder
composer require php-science/textrank
cd git-project-folder
docker-compose build
docker-compose up -d
composer install
composer test
use PhpScience TextRank Tool StopWords English ;
// String contains a long text, see the /res/sample1.txt file.
$ text = " Lorem ipsum... " ;
$ api = new TextRankFacade ();
// English implementation for stopwords/junk words:
$ stopWords = new English ();
$ api -> setStopWords ( $ stopWords );
// Array of the most important keywords:
$ result = $ api -> getOnlyKeyWords ( $ text );
// Array of the sentences from the most important part of the text:
$ result = $ api -> getHighlights ( $ text );
// Array of the most important sentences from the text:
$ result = $ api -> summarizeTextBasic ( $ text );
Weitere Beispiele:
Name | GitHub-Benutzer |
---|---|
David Belicza | @DavidBelicza |
Riccardo Marton | @riccardomarton |
Syndesi | @Syndesi |
vincentsch | @vincentsch |
Andrew Welch | @khalwat |
Andrey Astashov | @mvcaaa |
Leo Toneff | @bragle |
Willy Arisky | @willyarisky |
Robert-Jan Keiser | @KeizerDev |
Morty | @evil1morty |
Sezer Fidancı | @SezerFidanci |