Este código-fonte é uma implementação do algoritmo TextRank em linguagem de programação PHP, sob licença do MIT.
GPTs como ChatGPT são modelos de linguagem supervisionados que entendem o contexto e geram novo conteúdo a partir de uma determinada entrada usando vastos recursos, enquanto TextRank é um algoritmo de extração de texto econômico/de baixo custo. O algoritmo TextRank também pode ser usado como pré-processador para um modelo GPT para reduzir o tamanho do texto e economizar no consumo de recursos.
A sumarização automática é o processo de redução de um documento de texto com um programa de computador para criar um resumo que retenha os pontos mais importantes do documento original. As tecnologias que conseguem fazer um resumo coerente levam em consideração variáveis como comprimento, estilo de escrita e sintaxe. A sumarização automática de dados faz parte do aprendizado de máquina e da mineração de dados. A ideia principal da sumarização é encontrar um subconjunto representativo dos dados, que contenha as informações de todo o conjunto. As tecnologias de sumarização são usadas em um grande número de setores da indústria hoje. - Wikipédia
O algoritmo desta implementação é:
cd your-project-folder
composer require php-science/textrank
cd git-project-folder
docker-compose build
docker-compose up -d
composer install
composer test
use PhpScience TextRank Tool StopWords English ;
// String contains a long text, see the /res/sample1.txt file.
$ text = " Lorem ipsum... " ;
$ api = new TextRankFacade ();
// English implementation for stopwords/junk words:
$ stopWords = new English ();
$ api -> setStopWords ( $ stopWords );
// Array of the most important keywords:
$ result = $ api -> getOnlyKeyWords ( $ text );
// Array of the sentences from the most important part of the text:
$ result = $ api -> getHighlights ( $ text );
// Array of the most important sentences from the text:
$ result = $ api -> summarizeTextBasic ( $ text );
Mais exemplos:
Nome | Usuário GitHub |
---|---|
David Belicza | @DavidBelicza |
Ricardo Marton | @riccardomarton |
Sindesi | @Syndesi |
Vicente | @vincentsch |
André Welch | @khalwat |
Andrei Astashov | @mvcaaa |
Leo Toneff | @bragle |
Willy Arisky | @willyarisky |
Robert-Jan Keiser | @KeizerDev |
Morty | @evil1morty |
Sezer Fidanci | @SezerFidanci |