该包提供了一个从 pdf 中提取文本的类。
use Spatie PdfToText Pdf ;
echo Pdf:: getText ( ' book.pdf ' ); //returns the text from the pdf
Spatie 是一家位于比利时安特卫普的网页设计机构。您可以在我们的网站上找到所有开源项目的概述。
我们投入了大量资源来创建一流的开源包。您可以通过购买我们的一款付费产品来支持我们。
我们非常感谢您从家乡寄给我们一张明信片,并注明您正在使用我们的哪种套餐。您可以在我们的联系页面上找到我们的地址。我们在虚拟明信片墙上发布所有收到的明信片。
该包在幕后利用了 pdftotext。您可以通过发出以下命令来验证系统上是否安装了二进制文件:
which pdftotext
如果已安装,它将返回二进制文件的路径。
要安装二进制文件,您可以在 Ubuntu 或 Debian 上使用以下命令:
apt-get install poppler-utils
在 Mac 上,您可以使用brew 安装二进制文件
brew install poppler
如果您使用的是 RedHat、CentOS、Rocky Linux 或 Fedora,请使用以下命令:
yum install poppler-utils
您可以通过 Composer 安装该软件包:
composer require spatie/pdf-to-text
从 pdf 中提取文本很容易。
$ text = ( new Pdf ())
-> setPdf ( ' book.pdf ' )
-> text ();
或者更简单:
echo Pdf:: getText ( ' book.pdf ' );
默认情况下,该包将假定pdftotext
命令位于/usr/bin/pdftotext
。如果它位于其他地方,则将其二进制路径传递给构造函数
$ text = ( new Pdf ( ' /custom/path/to/pdftotext ' ))
-> setPdf ( ' book.pdf ' )
-> text ();
或者作为getText
静态方法的第二个参数:
echo Pdf:: getText ( ' book.pdf ' , ' /custom/path/to/pdftotext ' );
有时您可能想使用 pdftotext 选项。为此,您可以使用setOptions
方法来设置它们。
$ text = ( new Pdf ())
-> setPdf ( ' table.pdf ' )
-> setOptions ([ ' layout ' , ' r 96 ' ])
-> text ()
;
或者作为getText
静态方法的第三个参数:
echo Pdf:: getText ( ' book.pdf ' , null , [ ' layout ' , ' opw myP1$$Word ' ]);
请注意,连续调用setOptions()
将覆盖先前调用期间传入的选项。
如果您需要多次调用来添加选项(例如,如果您需要在从容器创建Pdf
对象时传入默认选项,然后在其他地方添加上下文特定的选项),您可以使用addOptions()
方法:
$ text = ( new Pdf ())
-> setPdf ( ' table.pdf ' )
-> setOptions ([ ' layout ' , ' r 96 ' ])
-> addOptions ([ ' f 1 ' ])
-> text ()
;
请参阅变更日志以了解有关最近更改内容的更多信息。
composer test
详细信息请参阅贡献。
如果您发现有关安全的错误,请发送邮件至 [email protected],而不是使用问题跟踪器。
Spatie 是一家位于比利时安特卫普的网页设计机构。您可以在我们的网站上找到所有开源项目的概述。
麻省理工学院许可证 (MIT)。请参阅许可证文件以获取更多信息。