Download telegram archive server - download do código-fonte telegram archive server

telegram archive server

Outro código-fonte

v0.4.1 - 蔚蓝更新

Baixar

Servidor de arquivo de telegrama

Um robô de pesquisa e arquivamento de bate-papo em grupo do Telegram adequado para o ambiente CJK.

Visão geral dos recursos

Suporta autenticação de membro do grupo, apenas amigos do grupo podem pesquisar
Suporta importação de registros históricos de bate-papo e remove automaticamente duplicatas
Use MeiliSearch para pesquisar em chinês, o efeito de indexação é bom
Suporta OCR de imagem e inclui-a nos resultados da pesquisa (apenas as novas são suportadas, imagens históricas ainda não são suportadas)
Existe uma interface web simples que pode exibir avatares
Os resultados da pesquisa podem saltar para abrir a interface de bate-papo

exposição

Autenticação de bate-papo

Clique no botão [Pesquisar] para autenticar automaticamente e abrir a interface de pesquisa.

Interface de pesquisa

Clique no link da hora para ir para a interface de bate-papo.

implantar

Preparar

Você precisa:

Uma conta Bot, obtenha seu token antecipadamente
Um servidor https acessível a partir da rede pública deve ter https
Um supergrupo , atualmente apenas supergrupos são suportados
Uma instância MeiliSearch, com ou sem configuração de chave
Uma instância do Redis funciona bem sem ele, mas pode ser reiniciada de forma anormal e as mensagens serão perdidas.

Configuração

Baixe o arquivo .env.example , consulte os comentários internos e configure adequadamente.

Você pode salvá-lo como .env ou configurá-lo como uma variável de ambiente.

correr

HTTPS

O TAS não fornece um serviço https integrado. Recomenda-se usar Caddy ou software semelhante para reverter o proxy TAS.

Com Docker

docker run -d --restart=always --env-file=.env quay.io/oott123/telegram-archive-server

Claro, você também pode executá-lo usando Kubernetes ou docker-compose.

Usando código-fonte

Se você não possui o Docker ou não deseja usá-lo, também pode compilar e implantar a partir do código-fonte. Neste ponto você também precisa de:

idiota
nó 18

git clone https://github.com/oott123/telegram-archive-server.git
cd telegram-archive-server
# git checkout vX.X.X
cp .env.example .env
vim .env
yarn
yarn build
yarn start

usar

Enviar /search no grupo. O Bot pode solicitar que você defina o Domínio, basta seguir as instruções.

Obtenha o avatar do usuário

Os usuários devem atender aos seguintes critérios para que seu avatar apareça nos resultados da pesquisa:

Interagiu com o Bot (enviou uma mensagem ou autorizou login)
O avatar definido pelo usuário é visível publicamente

Regras de indexação para novos registros

Como o MeiliSearch tem baixa eficiência de indexação para novas mensagens, as mensagens só entrarão no índice quando qualquer uma das seguintes condições for atendida:

Nenhuma nova mensagem recebida em 60 segundos
Foram recebidas um total de 100 mensagens que não entraram no índice.
O processo principal recebe o sinal SIGINT

Se o redis não for usado para persistir a fila de mensagens, as mensagens que não entraram na fila podem ser perdidas quando o programa estiver anormal ou o servidor for reiniciado.

Importar histórico de bate-papo antigo

Atualmente, apenas a importação de supergrupos é suportada.

Clique no botão de três pontos no cliente de desktop - Exportar histórico de bate-papo, aguarde a conclusão da exportação e obtenha result.json .

implementar:

curl 
  -H " Content-Type: application/json " 
  -H " Authorization: Bearer $AUTH_IMPORT_TOKEN " 
  -XPOST -T result.json 
  http://localhost:3100/api/v1/import/fromTelegramGroupExport

Os registros podem ser importados. Observe que apenas registros de um único grupo podem ser importados por vez.

Reconhecimento de texto OCR (TBD)

Se você habilitar a fila de OCR, será necessário o Redis (pode compartilhar uma instância com o cache) e configurar um serviço de reconhecimento de terceiros. O processo de identificação é o seguinte:

O reconhecimento e o armazenamento podem ser concluídos em diferentes instâncias de função: o download de imagens e o armazenamento de texto serão concluídos na instância do Bot, e a instância de OCR só precisa acessar o serviço de OCR.

Esse design permite que os mantenedores projetem uma identificação centralizada off-line (por exemplo, usem uma instância preemptiva para executar o serviço de identificação e desligue-o após a fila ser limpa) para reduzir os custos de identificação.

Se estiver usando um serviço de nuvem de terceiros, você poderá desativar diretamente a fila de OCR ou ativar as funções de Bot e OCR na mesma instância.

serviço de identificação

Visão da nuvem do Google

Consulte a documentação de reconhecimento de texto do Google Cloud Vision e as regras de faturamento do Google Cloud Vision. A configuração é a seguinte:

OCR_DRIVER=google
OCR_ENDPOINT=eu-vision.googleapis.com # 或者 us-vision.googleapis.com ，决定 Google 在何处存储处理数据
GOOGLE_APPLICATION_CREDENTIALS=/path/to/google/credentials.json # 从 GCP 后台下载的 json 鉴权文件

PaddleOCR

Você precisa de uma instância do paddleocr-web. A configuração é a seguinte:

OCR_DRIVER=paddle-ocr-web
OCR_ENDPOINT=http://127.0.0.1:8980/api

OCR do Azure

Crie um recurso do Azure Vision e configure as informações do recurso da seguinte forma:

OCR_DRIVER=azure
OCR_ENDPOINT=https://tas.cognitiveservices.azure.com
OCR_CREDENTIALS=000000000000000000000000000000000

Ative diferentes funções

docker run [...] dist/main ocr,bot
# or
node dist/main ocr,bot

desenvolver

DEBUG=app: * ,grammy * yarn start:debug

Desenvolvimento front-end

Depois que o serviço de pesquisa for autenticado, o servidor irá para: $HTTP_UI_URL/index.html com os seguintes parâmetros de URL:

tas_server – URL base do servidor, no formato http://localhost:3100/api/v1
tas_indexName - número do grupo, na forma supergroup1234567890
tas_authKey - JWT emitido pelo servidor, que pode ser usado como chave API do MeiliSearch.