Ambar는 자동화된 크롤링, OCR, 태그 지정 및 즉각적인 전체 텍스트 검색 기능을 갖춘 오픈 소스 문서 검색 엔진입니다.
Ambar는 전체 텍스트 문서 검색을 워크플로에 구현하는 새로운 방법을 정의합니다.
docker-compose
파일로 Ambar를 쉽게 배포튜토리얼: Ambar 검색 쿼리 마스터하기
ambar_en
, 러시아어 ambar_ru
, 독일어 ambar_de
, 이탈리아어 ambar_it
, 폴란드어 ambar_pl
, 중국어 ambar_cn
, CJK ambar_cjk
Ambar 2.0은 FTP 위치의 SMB 공유를 크롤링해야 하는 경우 로컬 fs 크롤링만 지원합니다. 표준 Linux 도구를 사용하여 마운트하기만 하면 됩니다. 크롤링은 자동으로 이루어지며, 크롤러가 파일 시스템 이벤트를 모니터링하고 새 파일, 변경된 파일, 제거된 파일을 자동으로 처리하므로 일정이 필요하지 않습니다.
Ambar는 대용량 파일(>30MB)을 지원합니다.
지원되는 파일 형식:
주의 사항 : Ambar를 실행하려면 Docker가 필요합니다.
Docker 이미지를 직접 빌드할 수 있습니다.
Ambar를 실행하는 데 필요한 모든 이미지는 로컬로 구축할 수 있습니다. 일반적으로 각 이미지는 해당 구성 요소의 디렉터리로 이동하여 필요한 컴파일 단계를 수행하고 다음과 같이 이미지를 빌드하여 빌드할 수 있습니다.
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
결과 이미지는 지정된 이름으로 참조되고 선택한 컨테이너화 도구로 실행될 수 있습니다.
docker-compose
와 함께 로컬 Dockerfile을 사용하려면 image
옵션을 build
로 변경하고 값을 Dockerfile이 포함된 디렉터리의 상대 경로로 설정하면 됩니다. 그런 다음 docker-compose build
실행하여 관련 이미지를 빌드합니다. 예를 들어:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
일부 구성 요소는 Docker 이미지를 빌드하기 전에 호스트에서 컴파일 또는 기타 빌드 단계를 수행해야 합니다. 예를 들어 FrontEnd
같습니다.
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
그런 다음 이 지침을 따르십시오 -> https://ambar.cloud/docs/installation
예, 완전히 오픈 소스입니다.
예, 영원히 무료이며 오픈 소스입니다.
예, 이미지(jpg, tiff, bmp 등) 및 PDF에 대해 OCR을 수행합니다. OCR은 잘 알려진 오픈 소스 라이브러리 Tesseract에 의해 수행됩니다. 스캔한 문서에서 최고의 성능과 품질을 얻을 수 있도록 조정했습니다. tags:ocr
쿼리를 사용하여 OCR이 수행된 모든 파일을 쉽게 찾을 수 있습니다.
지원되는 언어: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
예!
예, 잘못 인코딩되었거나 내부 스캔이 있는 경우에도 모든 PDF를 검색할 수 있습니다. 우리는 모든 종류의 PDF 문서를 원활하게 검색할 수 있도록 최선을 다했습니다.
컴퓨터의 RAM 용량에 따라 제한되며 일반적으로 500MB입니다. 일반적인 문서 관리 시스템은 최대 30MB의 처리 가능한 파일 크기를 제공하므로 이는 놀라운 결과입니다.
변경 로그
개인 정보 보호 정책
MIT 라이센스