Скачать cedrik - скачать исходный код cedrik

cedrik

Другой исходный код

1.0.0

Скачать

Седрик

Развлекательный проект по написанию небольшой, простой поисковой системы, подходящей для Small Data™.

(планируемые) функции

☑ Индексирование
Запросы:
- ☑ Сопоставить все
- ☑ Срок (☐ повышение)
- ☑ Логическое значение (И, Или, Нет)
- ☐ Рядом
- ☑ Подстановочный знак (поддерживается только одинарный начальный или одинарный конечный элемент)
☐ Рейтинг
☐ Основные моменты
☐ Распределенные индексы (mnesia?, KVS?, riak?, redis?)
☐ Постоянство (поддерживается косвенно с помощью индексов, поддерживаемых Redis, но я также хотел бы добавить простой сжатый вариант для AgentIndex)
☐ Демонстрационный веб-интерфейс (Феникс!)

Использование

Тесты

Запустите модульные тесты:

 mix test --exclude external

Запустите все тесты, в том числе с использованием внешних сервисов. Например, тесты RedisIndex :

 mix test

убедитесь, что у вас есть правильная строка подключения для Redis в config/config.exs . Вы можете использовать docker-compose , чтобы быстро запустить экземпляр Redis.

Индексирование

Каждый индекс в Cedrik представлен процессом с Index @behaviour . Чтобы индексировать что-то в индекс, просто вызовите Index.index_doc(something, :index_name, type) , где something будет картой или структурой Elixir (я бы рекомендовал создать структуру с полем id, которое реализует протокол Storable - посмотрите lib/document.ex и lib/agent_store.ex для справки), type должен быть одной из существующих реализаций индекса AgentIndex или RedisIndex . Последний аргумент Index.index_doc является необязательным и по умолчанию имеет значение AgentIndex .

Чтобы получить список существующих индексов, используйте Index.list/0 или Index.list/1 — они вернут список кортежей в формате {pid, name, module}

Индекс Агента

Это простой тип индекса в памяти, подходящий для данных, которые помещаются в память и которые не нужно сохранять.

RedisИндекс

Это индекс, поддерживаемый Redis. Чтобы это работало, у вас должен быть запущен и запущен экземпляр Redis. Основное преимущество использования RedisIndex по сравнению с AgentIndex заключается в том, что вы хотите иметь возможность сохранять данные.

Токенизация

На данный момент токен — это просто любая строка, разделенная пробелами.

Запрос

Используйте Search.search(query_struct, [:index1, :index2]) , примеры см. test/e2e_test.exs и test/query_test.exs .

Чтобы получить структуру query_struct , которую понимает Седрик, существует простой (и неполный) анализатор строк: Query.Parse.parse/1 . Он будет токенизировать строки, а затем соответственно создавать структуры запросов Term и Wildcard. Условия и подстановочные знаки будут заключены в логическое значение внутри обязательного поля.

Сопоставить все

Этот запрос вернет все идентификаторы документов в указанных индексах.

Срок

TermQuery просто возвращает идентификаторы документов (и расположение терминов в этом документе), которые содержат данный термин. Вы можете точно указать, в каких полях искать, или во всех (это значение по умолчанию).

логическое значение

С помощью BooleanQuery вы можете создавать более сложные запросы. must , optional и must_not

Подстановочный знак

Этот запрос может помочь расширить область поиска. Например, групповой запрос со значением "foo*" соответствует как foo, так и foobar. Обратите внимание, что на данный момент поддерживаются только одиночные подстановочные знаки, ведущие ( *foo ) или конечные ( foo* ).

Около

Результаты

На данный момент результаты Search.search/2 дадут вам список кортежей следующего вида: {doc_id, #MapSet<[%Location{field: :field, position: x}]>} отсортированный по материалу с наибольшим количеством совпадений. первый.