Apache Tika(TM) عبارة عن مجموعة أدوات لاكتشاف واستخراج بيانات التعريف ومحتوى النص المنظم من المستندات المختلفة باستخدام مكتبات المحلل اللغوي الموجودة.
Tika هو مشروع تابع لمؤسسة Apache Software Foundation.
تعد Apache Tika وTika وApache وشعار Apache Feather وشعار مشروع Apache Tika علامات تجارية مملوكة لمؤسسة Apache Software Foundation.
تتوفر الثنائيات المعدة مسبقًا لتطبيقات Apache Tika المستقلة على https://tika.apache.org/download.html. يمكن جلب الثنائيات المعدة مسبقًا لجميع مرطبانات Tika من Maven Central أو مرآة Maven المفضلة لديك.
من المقرر أن يصل Tika 2.X ودعم Java 8 إلى نهاية الحياة (EOL) في أبريل 2025. راجع Tika Roadmap 2.x و3.x وما بعده.
يعتمد Tika على Java 17 ويستخدم نظام البناء Maven 3. يتم استخدام NB Docker للاختبارات في اختبارات تكامل tika. اعتبارًا من Tika 2.5.1، إذا لم يتم تثبيت Docker، فسيتم تخطي تلك الاختبارات. يعد Docker مطلوبًا للإنشاء الناجح على إصدارات 2.x السابقة.
لإنشاء Tika من المصدر، استخدم الأمر التالي في الدليل الرئيسي:
mvn clean install
يتكون البناء من عدد من المكونات، بما في ذلك وعاء مستقل قابل للتشغيل يمكنك استخدامه لتجربة ميزات Tika. يمكنك تشغيله مثل هذا:
java -jar tika-app/target/tika-app-*.jar --help
لإنشاء مشروع محدد (على سبيل المثال، tika-server-standard):
mvn clean install -am -pl :tika-server-standard
إذا كان المكون الإضافي ossindex-maven-يتسبب في فشل الإنشاء لأنه تم الآن اكتشاف وجود ثغرة أمنية في إحدى التبعيات:
mvn clean install -Dossindex.skip
يوفر Apache Tika أداة قائمة المواد (BOM) لمواءمة إصدارات وحدة Tika وتبسيط إدارة الإصدار. لتجنب أخطاء التقارب في مشروعك الخاص، قم باستيراد ملف bom هذا أو ملف pom.xml الأصلي لـ Tika في قسم إدارة التبعية لديك.
إذا كنت تستخدم Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
بالنسبة لجرادل:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
سيتم تحديده لاحقًا
انظر قالب طلب السحب.
ملحوظة: يرجى فتح طلبات السحب على الفرع main
. لقد أغلقنا master
في سبتمبر 2020 ولم نعد نستخدمه.
لنفترض أنك تريد إنشاء العلامة 3.0.1:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
إذا تم اكتشاف ثغرة أمنية جديدة بين تاريخ العلامة وتاريخ إنشاء العلامة، فقد تحتاج إلى الإنشاء باستخدام:
4. mvn clean install -Dossindex.skip
إذا كان الاختبار المحلي لا يعمل في بيئتك، فيرجى إبلاغ المشروع على [email protected]. كحل فوري، يمكنك إيقاف تشغيل الاختبارات الفردية على سبيل المثال:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
العمل الجماعي: حقوق الطبع والنشر لعام 2011 محفوظة لمؤسسة Apache Software Foundation.
مرخص لمؤسسة Apache Software Foundation (ASF) بموجب اتفاقية ترخيص واحدة أو أكثر للمساهمين. راجع ملف الإشعار الموزع مع هذا العمل للحصول على معلومات إضافية بخصوص ملكية حقوق الطبع والنشر. يقوم ASF بترخيص هذا الملف لك بموجب ترخيص Apache، الإصدار 2.0 ("الترخيص")؛ لا يجوز لك استخدام هذا الملف إلا وفقًا للترخيص. يمكنك الحصول على نسخة من الترخيص على
https://www.apache.org/licenses/LICENSE-2.0
ما لم يكن ذلك مطلوبًا بموجب القانون المعمول به أو تم الاتفاق عليه كتابيًا، يتم توزيع البرامج الموزعة بموجب الترخيص على أساس "كما هي"، دون ضمانات أو شروط من أي نوع، سواء كانت صريحة أو ضمنية. راجع الترخيص لمعرفة الأذونات والقيود التي تحكم اللغة المحددة بموجب الترخيص.
يتضمن Apache Tika عددًا من المكونات الفرعية مع إشعارات حقوق النشر وشروط الترخيص المنفصلة. يخضع استخدامك لهذه المكونات الفرعية لشروط وأحكام التراخيص المدرجة في ملف LICENSE.txt.
يتضمن هذا التوزيع برامج التشفير. قد يكون لدى البلد الذي تقيم فيه حاليًا قيود على استيراد برامج التشفير و/أو حيازتها و/أو استخدامها و/أو إعادة تصديرها إلى بلد آخر. قبل استخدام أي برنامج تشفير، يرجى مراجعة القوانين واللوائح والسياسات المعمول بها في بلدك فيما يتعلق باستيراد برامج التشفير أو حيازتها أو استخدامها أو إعادة تصديرها، لمعرفة ما إذا كان ذلك مسموحًا به. راجع http://www.wassenaar.org/ لمزيد من المعلومات.
قامت وزارة التجارة التابعة للحكومة الأمريكية، مكتب الصناعة والأمن (BIS)، بتصنيف هذا البرنامج على أنه رقم مراقبة السلع التصديرية (ECCN) 5D002.C.1، والذي يتضمن برنامج أمان المعلومات الذي يستخدم أو يؤدي وظائف التشفير باستخدام خوارزميات غير متماثلة. إن شكل وطريقة توزيع Apache Software Foundation هذا يجعله مؤهلاً للتصدير بموجب استثناء الترخيص ENC Technology Software Unrestricted (TSU) (راجع لوائح إدارة تصدير BIS، القسم 740.13) لكل من رمز الكائن والتعليمة البرمجية المصدر.
فيما يلي مزيد من التفاصيل حول برنامج التشفير المضمن:
يستخدم Apache Tika مكتبات التشفير العامة Bouncy Castle لاستخراج المحتوى النصي والبيانات التعريفية من ملفات PDF المشفرة. راجع http://www.bouncycastle.org/ لمزيد من التفاصيل حول Bouncy Castle.
يتم النقاش حول تيكا على القوائم البريدية التالية:
يتم إرسال إشعار بجميع تغييرات الكود إلى القائمة البريدية التالية:
القوائم البريدية مفتوحة لأي شخص ويتم أرشفتها بشكل عام.
يمكنك الاشتراك في القوائم البريدية عن طريق إرسال رسالة إلى [LIST][email protected] (على سبيل المثال، user-subscribe@...).
لإلغاء الاشتراك، أرسل رسالة إلى [LIST][email protected].
لمزيد من التعليمات، أرسل رسالة إلى [LIST][email protected].
إذا واجهت أخطاء في Tika أو كنت ترغب في اقتراح تحسين أو ميزة جديدة، فيرجى زيارة أداة تعقب مشكلات Tika. هناك يمكنك أيضًا العثور على أحدث المعلومات حول المشكلات المعروفة وإصلاحات الأخطاء والتحسينات الحديثة.
المهام
تحتاج إلى تثبيت jce
إذا وجدت أي مشكلات أخرى أثناء الإنشاء، فيرجى إرسال قائمة بالبريد الإلكتروني إلى [email protected].