جدول المحتويات
ملخص
سمات
هيكل المستودع
وحدات
ابدء
تثبيت
تشغيل Report.ai
بداية سريعة
خريطة الطريق
المساهمة
رخصة
شكر وتقدير
في Report.ai، مهمتنا واضحة: تزويدك بتجربة إعداد تقارير قوية تعتمد على الذكاء الاصطناعي. لقد تجاوزنا حدود التجزئة التقليدية للنص على أساس الطول، واخترنا أسلوبًا أكثر ذكاءً - التجزئة الدلالية. تضمن هذه الطريقة المبتكرة دقة لا مثيل لها في تحديد كل من الموضوعات الشاملة والتفاصيل الدقيقة داخل المحتوى الخاص بك. علاوة على ذلك، فإننا نبذل جهدًا إضافيًا من خلال تقديم نص وصوت داخل كل مقطع، مما يوفر لك نقطة مرجعية موثوقة لفهم شامل للمحتوى الخاص بك.
بدلاً من الاعتماد على طول النص، يقوم Report.ai بتقسيم تقاريرك حسب معناها. ويؤدي هذا إلى تقسيم أكثر دقة للمحتوى، مما يعزز فهمك للمادة.
تقاريرنا تتجاوز مجرد تمثيل النص. يتم تقديم كل مقطع دلالي جنبًا إلى جنب مع النص التفاعلي، مما يسمح لك بالتنقل بسهولة والإشارة إلى المقاطع الصوتية الأصلية.
نضع قوة التخصيص بين يديك. قم بتخصيص تحليلك بسهولة باستخدام قوالبنا القابلة للتخصيص، مما يمكّنك من استخلاص الرؤى التي تهمك.
سواء كنت تعمل باستخدام روابط YouTube، أو ملفات صوتية بتنسيق WAV، أو نصوص نصية بتنسيق TXT، فنحن نوفر لك كل ما تحتاجه. يتعامل Report.ai بسلاسة مع مجموعة متنوعة من مدخلات الوسائط المتعددة، مما يجعل تجربتك شاملة ومريحة.
بالنسبة لأولئك الذين يسعون إلى إنشاء قاعدة بيانات احترافية، يوفر مستودعنا تكاملًا سلسًا مع Pinecone وChroma. توفر هذه الأدوات المتقدمة إمكانات فائقة لإدارة البيانات واسترجاعها، مما يعزز قيمة جهود إعداد التقارير الخاصة بك.
└── التمهيدي / ├── .env ├── VAD.py ├── Divide.py ├── مثال/ │ ├── WATCH_LIVE_Nvidia_Q2_Earnings_Call_NVDA │ └── Batch.txt ├── main.py ├── المتطلبات.txt ├── s2t_whisper.py ├── Storage_vector.py ├── تلخيص.py ├── القالب/ │ ├── General.txt │ └── individuel.txt └── utils.py
ملف | ملخص |
---|---|
المتطلبات.txt | توفير قائمة بالتبعيات الأساسية الحاسمة لحسن سير العمل في التعليمات البرمجية. |
.env | يعمل ملف .env كمستودع لإعدادات التكوين المتعلقة بواجهات برمجة التطبيقات المتنوعة، بما في ذلك تلك الموجودة في OpenAI وAzure OpenAI وPinecone. ستجد ضمن هذا الملف معلومات أساسية مثل مفاتيح API وأسماء النماذج وتكوينات التخزين. |
utils.py | داخل ملف utils.py ، ستكتشف مجموعة شاملة من وظائف الأداة المساعدة. هذه الوظائف متعددة الاستخدامات وتغطي العديد من المهام الأساسية، بما في ذلك: fuzzy_match: لإجراء مطابقة السلسلة الغامضة. validate_filetype: ضمان التحقق من صحة نوع الملف. Detect_language: اكتشاف لغة الملف النصي. get_items: استخراج العناصر من ملفات القالب. add_hyperlink: إضافة ارتباطات تشعبية داخل مستندات Word. Divid_audio: تقطيع الملفات الصوتية إلى أجزاء. get_file_list: استرجاع قوائم مسارات الملفات. |
تلخيص.py | البرنامج النصي summarize.py مخصص لإنشاء ملخصات بناءً على القوالب الموجودة في template/general.txt و template/individual.txt. يمكن ترجمة هذه الملخصات، إذا لزم الأمر، ثم تحويلها إلى تنسيق مستند Microsoft Word (.docx). طوال هذه العملية، يتم إثراء المستند بالارتباطات التشعبية والتفاصيل السياقية الإضافية. |
s2t_whisper.py | يوفر s2t_whisper.py وظائف لتنزيل مقاطع فيديو YouTube، واستخراج الصوت، وإزالة الصمت، وتحويل الكلام إلى نص مع الطابع الزمني، وإضافة علامات الترقيم للمحتوى الصيني. يتم حفظ النص الناتج بتنسيق JSON وTXT. |
VAD.py | يتم استخدام VAD.py لاستخراج الصوت البشري من ملف صوتي. فهو يقسم الصوت إلى أجزاء مدة كل منها 10 دقائق، ويصدر كل قطعة كملف منفصل، ويستخرج الصوت البشري باستخدام مكتبة Spleeter. يتم بعد ذلك دمج الأغاني المستخرجة في ملف صوتي واحد. |
Divid.py | إن divide.py هو الذي يقسم المقالة إلى موضوعات فرعية بناءً على نصها. يحتوي الفصل على عدة طرق خاصة: _string_cleaner ينظف سلسلة الإدخال، _get_timestamp_list يستخرج الطوابع الزمنية من ملف JSON، _add_timestamp يضيف طوابع زمنية إلى المواضيع الفرعية، _add_transcript يضيف النص إلى موضوعات فرعية، و_ _divide_by_subtopics يستخدم نماذج اللغة لتقسيم المقالة إلى أجزاء. |
main.py | يعد main.py برنامجًا نصيًا متعدد الاستخدامات مصممًا لتحليل الملفات وإنشاء الملخص. وهو يوفر مرونة واسعة النطاق من خلال قبول وسائط سطر الأوامر المتنوعة، بما في ذلك: File Path : لتحديد الملف للتحليل. Chunk Size : يسمح لك بتحديد حجم أجزاء النص. Temperature of Language Model : لضبط سلوك النموذج اللغوي. Batch Mode : يتيح لك تحديد ما إذا كان يجب تشغيل البرنامج النصي في الوضع الدفعي. Report Generation : توفير خيار إنشاء تقرير. Vector Database Selection : مما يسمح لك بالاختيار بين قواعد بيانات ناقل Pinecone وChroma. ASR (Automatic Speech Recognition) Model : لاختيار نموذج ASR المناسب لاستخدامه. |
Storage_vector.py | يقدم البرنامج النصي storage_vector.py وظيفتين أساسيتين: pinecone_storage وchroma_storage، وكلاهما مصمم لتسهيل تخزين النتائج في قاعدة بيانات المتجهات. |
ملف | ملخص |
---|---|
individuel.txt | يوفر محتوى ملف individuel.txt العناصر التي يتم تحليلها ضمن كل موضوع فرعي. |
General.txt | يوفر محتوى ملف general.txt العناصر التي يتم تحليلها ضمن النص بأكمله. |
ملف | ملخص |
---|---|
Batch.txt | يتم استخدام ملف batch.txt لتسهيل معالجة ملفات متعددة. ويحقق ذلك عن طريق سرد مسارات الملفات، مفصولة بفواصل، للإشارة إلى الملفات المتعددة التي سيتم معالجتها بالتسلسل. |
WATCH_LIVE_Nvidia_Q2_Earnings_Call_NVDA.txt | WATCH_LIVE_Nvidia_Q2_Earnings_Call_NVDA.txt ، يحتوي على نسخة من النتائج المالية لشركة NVIDIA للربع الثاني من عام 2023 وبث الأسئلة والأجوبة عبر الإنترنت. |
العلم القصير | العلم الطويل | وصف | يكتب | حالة |
---|---|---|---|---|
- س | --output_dir | تعيين دليل الإخراج للتقرير، الافتراضي هو ./docx | خيط | خيار |
- ج | --قطعة | تحديد حجم القطعة للتحليل. التوصية (GPT-3.5: 10000 بوصة، 2000 بوصة zh، GPT-4: 18000 بوصة، 3600 بوصة zh)، الافتراضي هو 2000 | خيط | خيار |
- ر | --درجة حرارة | ضبط درجة حرارة LLM ضمن نطاق 0 إلى 2، ارتفاع درجة الحرارة يعني المزيد من الإبداع، الافتراضي هو 0.1 | يطفو | خيار |
- ه | --يستخرج | قم باستخراج الصوت البشري من الصوت أم لا (جهاز Mac الذي يحتوي على Apple Silicon غير مدعوم)، الإعداد الافتراضي هو False | منطقية | خيار |
- ب | --حزمة | استخدم "صحيح" إذا كان الملف النصي المُدخل يتضمن مسارات ملفات متعددة، ويكون الإعداد الافتراضي خطأ | منطقية | خيار |
- ضد | --vectorDB | اختر قاعدة البيانات المتجهة (pinecoene أو chroma)، الافتراضي هو لا شيء | خيط | خيار |
- م | --نموذج | اختر النموذج الهامس ('صغير'، 'أساسي'، 'صغير'، 'متوسط'، 'كبير-v2')، الافتراضي هو متوسط | خيط | خيار |
التبعيات
يرجى التأكد من تثبيت التبعيات التالية على نظامك:
- Aanaconda or Miniconda
- python >=3.7, <=3.9 (Apple silicon python >= 3.8, <=3.9)
- pytorch
استنساخ مستودع Report.ai:
استنساخ بوابة https://github.com/Shou-Hsu/Report.ai.git
التغيير إلى دليل المشروع:
تقرير القرص المضغوط.ai
تثبيت الكوندا:
قم بتثبيت الرمز الصغير عبر https://docs.conda.io/projects/miniconda/en/latest/miniconda-install.html
خلق بيئة افتراضية:
conda create -n Report.ai python=3.9
تفعيل البيئة الافتراضية:
كوندا تفعيل Report.ai
تثبيت الشعلة:
قم بتثبيت pytorch عبر https://pytorch.org/get-started/locally/
قم بتثبيت ffmpeg و libsndfile:
conda install -c conda-forge ffmpeg libsndfile
تثبيت التبعيات:
تثبيت النقطة -r متطلبات.txt
(Mac فقط) قم بتحديث التبعيات:
تثبيت النقطة -U numba
بيثون main.py <file_path> -c 10000
إعداد بيانات اعتماد Openai أو Azure openai داخل ملف .env. علاوة على ذلك، قم بتعيين بيانات اعتماد Pinecone أو Chroma إذا كنت تهدف إلى تخزين البيانات في VectorDB.
# اختيار أحد موفر نموذج gpt Azure أو OpenAI# Azure openAI credentialAZURE_OPENAI_API_KEY= AZURE_OPENAI_API_BASE= AZURE_OPENAI_API_VERSION= AZURE_OPENAI_API_TYPE= AZURE_DEPLOYMENT_NAME= EMBEDDING_DEPLOYMENT_NAME= #فقط إذا كنت تستخدم Azure OpenAI# # بيانات اعتماد OpenAIOPENAI_API_KEY= MODEL_NAME=# # بيانات اعتماد كوز الصنوبر (خيار)PINECONE_API_KEY= PINCONE_ENV=# ChromaDB (خيار)PERSIST_DIR= COLLCTION_NAME=
قم بتعديل tempelete/general.txt وtemplete/individuel.txt (عناصر التحليل المفصولة بـ "،")
# على سبيل المثال، إذا كنت تهدف إلى تحليل "مكالمة الأرباح": يمكنك تعيين "الموضوع، الملخص، شرح المدير المالي حول الوضع المالي قصير المدى، وصف الرئيس التنفيذي حول توقعات الشركة، والقضايا التي تهم السوق" في tempelete/ General.txt في الوقت نفسه، قم بتعيين "الملخص، رؤية الاستثمار، الكلمات الرئيسية" في tempelete/individuel.txt# في حال كنت تتطلع إلى إنشاء ملخص مختصر لـ "الاجتماع الروتيني": يمكنك تعيين "الموضوع، الملخص، عمل الميزات" في tempelete/ General.txt في نفس الوقت، قم بتعيين "الملخص، عنصر الإجراء، الكلمات الرئيسية" في ملف tempelete/individuel.txt
قم بتشغيل Report.ai في سطر الثناء
بيثون main.py مثال/WATCH_LIVE_Nvidia_Q2_Earnings_Call_NVDA.txt -c 10000
Publish project as a Python library via PyPI for easy installation.
Make project available as a Docker image on Docker Hub.
المناقشات
انضم إلى المناقشة هنا.
قضية جديدة
الإبلاغ عن خطأ أو طلب ميزة هنا.
إرشادات المساهمة
معهد ماساتشوستس للتكنولوجيا.
لانجشين، أوبن إيه آي، باينكون، كروما، سبليتر
يعود