تنزيل telegram archive server - تنزيل telegram archive server كود المصدر

telegram archive server

شفرة المصدر الأخرى

v0.4.1 - 蔚蓝更新

تنزيل

خادم أرشيف برقية

روبوت بحث وأرشفة للدردشة الجماعية في Telegram مناسب لبيئة CJK.

نظرة عامة على الميزات

دعم مصادقة أعضاء المجموعة، يمكن لأصدقاء المجموعة فقط البحث
يدعم استيراد سجلات الدردشة التاريخية ويزيل التكرارات تلقائيًا
استخدم MeiliSearch للبحث باللغة الصينية، وتأثير الفهرسة جيد
دعم التعرف الضوئي على الحروف للصورة وإدراجها في نتائج البحث (يتم دعم الصور الجديدة فقط، والصور التاريخية غير مدعومة بعد)
هناك واجهة ويب بسيطة يمكنها عرض الصور الرمزية
يمكن أن تقفز نتائج البحث لفتح واجهة الدردشة

يعرض

مصادقة الدردشة

انقر فوق الزر [بحث] للمصادقة تلقائيًا وفتح واجهة البحث.

واجهة البحث

انقر على رابط الوقت للانتقال إلى واجهة الدردشة.

نشر

يحضر

أنت بحاجة إلى:

حساب بوت، احصل على الرمز المميز الخاص به مسبقًا
يجب أن يحتوي خادم https الذي يمكن الوصول إليه من الشبكة العامة على https
مجموعة فائقة ، حاليًا يتم دعم المجموعات الفائقة فقط
مثيل MeiliSearch، مع أو بدون تكوين المفتاح
يعد مثيل Redis أمرًا جيدًا بدونه، ولكن قد تتم إعادة تشغيله بشكل غير طبيعي وسيتم فقدان الرسائل.

إعدادات

قم بتنزيل ملف .env.example ، وارجع إلى التعليقات الداخلية، وقم بالتكوين وفقًا لذلك.

يمكنك حفظه كملف .env أو تكوينه كمتغير بيئة.

يجري

HTTPS

لا توفر TAS خدمة https مدمجة. يوصى باستخدام Caddy أو برنامج مشابه لعكس الوكيل TAS.

مع دوكر

docker run -d --restart=always --env-file=.env quay.io/oott123/telegram-archive-server

بالطبع، يمكنك أيضًا تشغيله باستخدام Kubernetes أو docker-compose.

استخدام كود المصدر

إذا لم يكن لديك Docker أو لا تريد استخدام Docker، فيمكنك أيضًا التجميع والنشر من التعليمات البرمجية المصدر. في هذه المرحلة تحتاج أيضًا إلى:

بوابة
العقدة 18

git clone https://github.com/oott123/telegram-archive-server.git
cd telegram-archive-server
# git checkout vX.X.X
cp .env.example .env
vim .env
yarn
yarn build
yarn start

يستخدم

إرسال /search في المجموعة. قد يطالبك الروبوت بتعيين النطاق، ما عليك سوى اتباع التعليمات.

الحصول على الصورة الرمزية للمستخدم

يجب على المستخدمين استيفاء المعايير التالية حتى تظهر الصورة الرمزية الخاصة بهم في نتائج البحث:

لقد تفاعلت مع الروبوت (أرسلت رسالة، أو قمت بتسجيل الدخول المعتمد)
الصورة الرمزية التي حددها المستخدم مرئية للعامة

قواعد الفهرسة للسجلات الجديدة

نظرًا لأن كفاءة فهرسة MeiliSearch ضعيفة للرسائل الجديدة، فلن تدخل الرسائل إلى الفهرس إلا عند استيفاء أي من الشروط التالية:

لم يتم تلقي أي رسائل جديدة خلال 60 ثانية
تم استلام إجمالي 100 رسالة لم تدخل في الفهرس.
تستقبل العملية الرئيسية إشارة SIGINT

إذا لم يتم استخدام redis للاستمرار في قائمة انتظار الرسائل، فقد يتم فقدان الرسائل التي لم تدخل قائمة الانتظار عندما يكون البرنامج غير طبيعي أو عند إعادة تشغيل الخادم.

استيراد سجل الدردشة القديم

حاليًا يتم دعم استيراد المجموعة الفائقة فقط.

انقر فوق زر النقاط الثلاث الموجود على عميل سطح المكتب - قم بتصدير سجل الدردشة، وانتظر حتى يكتمل التصدير، واحصل على result.json .

ينفذ:

curl 
  -H " Content-Type: application/json " 
  -H " Authorization: Bearer $AUTH_IMPORT_TOKEN " 
  -XPOST -T result.json 
  http://localhost:3100/api/v1/import/fromTelegramGroupExport

يمكن استيراد السجلات. لاحظ أنه يمكن استيراد السجلات من مجموعة واحدة فقط في المرة الواحدة.

التعرف على النص بتقنية التعرف الضوئي على الحروف (يتم تحديده لاحقًا)

إذا قمت بتمكين قائمة انتظار OCR، فستكون Redis مطلوبة (يمكن مشاركة مثيل مع ذاكرة التخزين المؤقت) وتكوين خدمة التعرف على طرف ثالث. عملية تحديد الهوية هي كما يلي:

يمكن إكمال التعرف والتخزين على مثيلات دور مختلفة: سيتم إكمال تنزيل الصور وتخزين النص على مثيل Bot، ويحتاج مثيل OCR فقط إلى الوصول إلى خدمة OCR.

يسمح هذا التصميم للمشرفين بتصميم تعريف مركزي دون اتصال (على سبيل المثال، استخدام مثيل استباقي لتشغيل خدمة التعريف وإيقاف تشغيلها بعد مسح قائمة الانتظار) لتقليل تكاليف التعريف.

إذا كنت تستخدم خدمة سحابية تابعة لجهة خارجية، فيمكنك إيقاف تشغيل قائمة انتظار OCR مباشرة، أو تمكين أدوار Bot وOCR في نفس المثيل.

خدمة تحديد الهوية

جوجل كلاود فيجن

ارجع إلى وثائق التعرف على النص في Google Cloud Vision وقواعد فوترة Google Cloud Vision. التكوين هو كما يلي:

OCR_DRIVER=google
OCR_ENDPOINT=eu-vision.googleapis.com # 或者 us-vision.googleapis.com ，决定 Google 在何处存储处理数据
GOOGLE_APPLICATION_CREDENTIALS=/path/to/google/credentials.json # 从 GCP 后台下载的 json 鉴权文件

PaddleOCR

أنت بحاجة إلى مثيل paddleocr-web. التكوين هو كما يلي:

OCR_DRIVER=paddle-ocr-web
OCR_ENDPOINT=http://127.0.0.1:8980/api

أزور التعرف الضوئي على الحروف

قم بإنشاء مورد Azure Vision وقم بتكوين معلومات المورد كما يلي:

OCR_DRIVER=azure
OCR_ENDPOINT=https://tas.cognitiveservices.azure.com
OCR_CREDENTIALS=000000000000000000000000000000000

تفعيل الأدوار المختلفة

docker run [...] dist/main ocr,bot
# or
node dist/main ocr,bot

يطور

DEBUG=app: * ,grammy * yarn start:debug

تطوير الواجهة الأمامية

بعد مصادقة خدمة البحث، سينتقل الخادم إلى: $HTTP_UI_URL/index.html مع معلمات URL التالية:

tas_server - عنوان URL الأساسي للخادم، على هيئة http://localhost:3100/api/v1
tas_indexName - رقم المجموعة، على شكل supergroup1234567890
tas_authKey - JWT صادر عن الخادم، والذي يمكن استخدامه كمفتاح واجهة برمجة تطبيقات MeiliSearch.