Потрясающий поиск
Поддержите украинскую борьбу за свободу
РУССКИЙ ВОЕННЫЙ КОРАБЛЬ, ИДИ НА СЕБЯ
Я занимаюсь поисковыми приложениями для электронной коммерции уже почти десять лет. Ниже вы можете найти список (некоторых) публикаций, конференций и книг, которые меня вдохновляют. Группировка по темам (Если статья попадает в несколько тем – она попадает в несколько разделов).
Отметьте нас на GitHub — это помогает!
Также проверьте мои другие коллекции: потрясающая электронная коммерция, потрясающие графики знаний, потрясающие облачные приложения.
Темы
- Общий, веселый, философский
- Виды поиска
- Классический/Лексический поиск
- Векторы/Семантический поиск
- Вложения
- Типы векторов
- Плотные векторы
- Разреженные векторы
- Модели энкодеров
- Основные архитектуры
- Взаимодействие токенов запроса и документа
- Никаких взаимодействий – две башни/би-энкодеры
- Раннее взаимодействие – кросс-кодировщики
- Поздние взаимодействия — ColBERT
- Обработка вложений высокой размерности
- Уменьшение размерности
- Квантование
- Скалярное квантование
- Двоичное квантование
- Симметричный и асимметричный семантический поиск
- Гибридный поиск
- Взаимное слияние рангов - RRF
- Мультимодальный поиск
- Области применения
- Корпоративный поиск
- поиск электронной коммерции
- Разговорный поиск
- Геопространственный поиск
- Поиск в области медицины и здравоохранения
- Поиск в социальных сетях и пользовательском контенте
- Системы ответов на вопросы
- Управление личной информацией
- Результаты поиска
- Поиск
- Рейтинг
- Многоступенчатый рейтинг
- Учимся ранжировать
- Нажмите модели для поиска
- Предвзятость
- Диверсификация
- Персонализация
- Нулевые результаты поиска
- Поиск UX
- Институт Баймарда
- Нильсен Норман Групп
- ООО «Энтерпрайз Знание»
- Фасеты
- Другой
- Исправление орфографии
- Предложения
- Синонимы
- Стоп-слова
- Графики/Таксономии/График знаний
- Интеграция графиков поиска и знаний (по данным Enterprise Knowledge)
- Расширение запроса
- Понимание запроса
- Цель поиска
- Сегментация запросов
- Алгоритмы
- БЕРТ
- КОЛЬБЕРТ
- Коллокации, общие фразы
- Другие алгоритмы
- Отслеживание, профилирование, GDPR, анализ
- Эксперименты
- Оценка поиска
- МРР
- Тестирование, метрики, KPI
- Оценка поиска (Дэниел Танкеланг)
- Измерительный поиск (Джеймс Рубинштейн)
- Три столпа поисковой релевантности (Андреас Вагнер)
- Архитектура
- Векторы поиск
- Образование и нетворкинг
- Конференции
- Тренинги и курсы
- Книги
- Блоги и порталы, Новости
- Статьи
- Руководство, Поисковая группа
- Собеседования
- Инженерное дело
- Игроки отрасли
- Личности и влиятельные лица
- Поисковые системы
- Продукты и услуги
- Консалтинговые компании
- Серия постов в блогах
- Поисковая оптимизация 101 (Чарли Халл)
- Понимание запросов (Дэниел Танкеланг)
- Динамика сетки
- Принимая во внимание поиск: темы поиска (Дерек Сиссон)
- Видео
- Тематические исследования
- Общий поиск
- Многосторонние рынки
- Электронная коммерция
- Наборы данных
- Инструменты
Несортированный
- песочница, июнь 2021 г.
- песочница май 2021 г.
- песочница апрель 2021 г.
- песочница декабрь 2020 г.
- песочница январь 2020 г.
Общий, веселый, философский
- Ложь о поиске, в которую верят программисты
- Этический поиск: создание неотразимого путешествия с положительным эффектом
- О семантическом поиске
- Долг обратной связи: чему сегвей учит поисковые команды
- Поддержка пути искателя: когда и как
- Шоппинг – это сложно, давайте искать!
- Введение в качество поиска
- Шаблоны проектирования поиска на сайте для электронной коммерции: структура схемы, ранжирование на основе данных и многое другое
- В поисках воспоминаний
- Сбалансируйте свой поисковый бюджет!
Виды поиска
- Эволюция поисковых технологий: взгляд в будущее
Классический/лексический поиск
- Этси. Таргетинг на широкие запросы в поиске
- Как Etsy использует термодинамику, чтобы помочь вам найти «Geeky»
- Широкие и неоднозначные поисковые запросы
- Деконструкция поиска в электронной коммерции: 12 типов запросов
Векторы/Семантический поиск
Переход на Elasticsearch с плотным вектором для поисковой системы Carousell Spotlight
От нуля до модели внедрения семантического поиска
Рекомендации по выбору индекса
Серия сосновая шишка
- Индексы ближайших соседей для поиска сходства
- Отсутствующее предложение WHERE в векторном поиске
Инновационный опыт поиска с помощью Amazon OpenSearch и Amazon Bedrock
Симметричный и асимметричный семантический поиск
- Симметричный и асимметричный семантический поиск
Вложения
Типы
- Би-энкодер или кросс-энкодер? Когда какой использовать?
- Что такое ColBERT и позднее взаимодействие и почему они важны в поиске?
Модели энкодеров
- Выбор лучшей модели для семантического поиска
Взаимодействие токенов запроса и документа
Никаких взаимодействий – две башни/би-энкодеры
Раннее взаимодействие – кросс-кодировщики
Поздние взаимодействия — ColBERT
- Анонс устройства для встраивания Vespa ColBERT
- Что такое ColBERT и позднее взаимодействие и почему они важны в поиске?
Плотные векторы
Вложения матрешки
- Вложения матрешки: более быстрый векторный поиск OpenAI с использованием адаптивного поиска
- Введение в модели встраивания матрешек
- Представления матрешек. Руководство по более быстрому семантическому поиску
Редкие векторы
СПЛАД
- Гибридный поиск: SPLADE (разреженный кодировщик)
- Объяснение SPLADE для поиска разреженных векторов
Обработка вложений высокой размерности
Уменьшение размерности
Квантование
Бинарные вложения
Гибридный поиск
- Гибридный поиск > сумма частей?
- О гибридном поиске
- Гибридный поиск с повторным ранжированием
Взаимное слияние рангов (RRF)
- Гибридный поиск с повторным ранжированием
- Взаимное слияние рангов
Мультимодальный поиск
- Muves: мультимодальный и многоязычный векторный поиск с аппаратным ускорением
- Выбор модели для мультимодального поиска
Области применения
Корпоративный поиск
- GenAI может улучшить корпоративный поиск, но работа над этим еще не завершена
поиск электронной коммерции
- Влияние алгоритмов TF-IDF на поиск в электронной коммерции
Разговорный поиск
- Поиск как разговор
- Возможности для диалогового поиска
- Понимание запросов и чат-боты
Результаты поиска
Поиск
Актуальность
- Люди ищут вещи, а не струны
- Что такое «релевантный» результат поиска?
- Как добиться релевантности поиска в электронной торговле
- Настройка программы оценки релевантности
Алгоритмы релевантности
- Понимание алгоритма полнотекстового поиска BM25
- Практический BM25: как сегменты влияют на оценку релевантности в Elasticsearch, алгоритм BM25 и его переменные
- Влияние алгоритмов TF-IDF на поиск в электронной коммерции
- BM25 Новое поколение Lucene Актуальность
- Объяснение сходств люцена (BM25, DFR, DFI, IB, LM)
Рейтинг
Многоступенчатый рейтинг
Учимся ранжировать
- Чем поиск отличается от других задач машинного обучения?
- Ранжирование в поиске с помощью обучения с подкреплением
- Ререйтинг поиска в электронной коммерции как проблема обучения с подкреплением
- Когда использовать машинное обучение, а не ранжирование на основе оценок
- Что такое обучение ранжированию?
- Использование искусственного интеллекта и машинного обучения для преодоления смещения позиции в Adobe Stock Search
- Разделение обучающих и тестовых наборов для оценки обучения для ранжирования моделей
- Как работает LambdaMART – оптимизация целей ранжирования товаров
Нажмите модели для поиска
- Нажмите модели
- Нажмите «Моделирование для электронной коммерции».
- Использование поведенческих данных для улучшения поиска
Предвзятость
- Что такое предвзятость представления в поиске?
- Борьба со смещением позиции в рекомендациях и поиске
Диверсификация
- Диверсификация результатов поиска с использованием причинно-языковых моделей
- Учимся диверсифицировать поиск в электронной коммерции с помощью Multi-Armed Bandit
- Качество поиска для открытий и вдохновения
- Как измерить разнообразие результатов поиска
- В поисках Златовласки
- Широкие и неоднозначные поисковые запросы: как понять, когда результаты поиска нуждаются в диверсификации
- Мысли о разнообразии результатов поиска
Персонализация
- Шаблоны персонализации в рекомендациях и поиске
- Дэниел Танкеланг Персонализация
- Airbnb — персонализация поиска в реальном времени
- 98 личных данных, которые Facebook использует для таргетинга рекламы
- Архитектура реальных рекомендательных систем
- Разработка функций для персонализированного поиска
Нулевые результаты поиска
- Стратегии использования альтернативных запросов для уменьшения нулевых результатов и их применение на онлайн-торговых площадках.
- Семантическая эквивалентность запросов электронной коммерции
Поиск UX
Институт Баймарда
- Деконструкция поиска в электронной коммерции: 12 типов запросов
- Автонаправление или направление пользователей к соответствующей категории
- 13 шаблонов проектирования для предложений по автозаполнению (27% ошибаются)
- Поиск в электронной коммерции должен поддерживать поисковые запросы пользователей, не связанные с продуктами (15% этого не делают)
- UX поиска: 6 основных элементов для страниц «нет результатов»
- Миниатюры продуктов должны динамически обновляться, чтобы соответствовать искомому варианту (54% этого не делают)
- Фасетная сортировка — новый метод сортировки результатов поиска
- Текущее состояние поиска в электронной коммерции
- Сайтам электронной коммерции требуется несколько из этих 5 функций «объема поиска»
- Дизайн поля поиска для электронной коммерции и его последствия
- Сайты электронной коммерции должны включать фрагменты контекстного поиска (96% ошибаются)
- Удобство поиска в электронной торговле: отчет и оценка
- Шесть улучшений UX электронной коммерции, связанных с «COVID-19»
Нильсен Норман Групп
- Модель взгляда «любовь с первого взгляда» на страницах результатов поиска
- Хороший отказ на страницах результатов поиска
- Сложные страницы результатов поиска меняют поведение поиска: шаблон пинбола
- Предложения по поиску по сайту
- Анализ журналов поиска: самая упускаемая возможность в исследованиях веб-UX
- Ограниченный поиск: опасно, но иногда полезно
- 3 правила для страниц поисковой системы «Нет результатов»
ООО «Энтерпрайз Знание»
- Оптимизация поиска: человекоориентированный подход к дизайну поиска
Фасеты
- Аспекты фасетного поиска
- Кофе, кофе, кофе!
- Фасетный поиск (начните здесь!)
- Как правильно реализовать фасетный поиск
- Метаданные и фасетный поиск
- Метакрап: поджигаем семь подставных людей метаутопии
- 7 реализаций фильтрации, которые делают Macy’s лучшим в своем классе
- Фасетный поиск: самое полное руководство. Лучшие практики, шаблоны проектирования, скрытые предостережения и обходные пути
- Фасеты: ограничения или предпочтения?
- Грани, но какие?
Случайный систематик
- Сколько аспектов должна иметь таксономия
- Когда таксономия не должна быть иерархической
- Настройка аспектов таксономии
Другой
- Учимся на противоречиях, чтобы улучшить качество поиска
- Почему так сложно отсортировать по цене?
- Фасетная сортировка
- Google убивает мгновенный поиск
Исправление орфографии
- Питер Норвиг. «Как написать корректор орфографии». Классическое издание.
- Дэниел Тункеланг. «Исправление орфографии».
- Простая программа проверки правописания, построенная на основе векторов слов.
- Более пристальный взгляд на проблему исправления орфографии: 1, 2, 3, preDict
- Глубокое правописание
- Моделирование исправления орфографии для поиска на Etsy
- Вольф Гарбэ. Автор Симпелла. Алгоритм исправления орфографии в 1000 раз быстрее, верхняя подсветка SymSpell по сравнению с BK-деревом: в 100 раз быстрее нечеткий поиск строк и проверка орфографии, быстрая сегментация зашумленного текста по словам
- Chars2vec: символьная языковая модель для обработки реальных текстов с орфографическими ошибками и
- JamSpell, исправление орфографии с учетом окружающего контекста - библиотека, Исправляем опечатки с учётом контекста
- Вставка для исправления орфографии
- Простая программа проверки орфографии, построенная на основе векторов слов.
- Какие алгоритмы исправления орфографии используются поисковыми системами?
- Moman - коррекция/автозамена заклинаний lucene/solr/elasticsearch фактически работает (была?) на этой библиотеке.
- Сегментация запросов и исправление орфографии
- Применение контекстно-зависимой проверки правописания в Spark NLP
- Автозамена в Google, Amazon и Pinterest и как написать свою
Синонимы
- Повышение эффективности Elasticsearch с помощью синонимов
- Настоящий разговор о синонимах и поиске
- Синонимы в Solr I — Хороший, плохой и уродливый
- Синонимы и антонимы из WordNet
- Синонимы и антонимы в Python
- Погрузитесь в WordNet с помощью NLTK
- Улучшение поиска посредством автоматического определения синонимов
- Синонимы из нескольких слов в поиске с помощью Querqy
- Как построить умную модель синонимов
- Важность синонимов в поиске электронной коммерции
Стоп-слова
- Имеют ли значение запросы со всеми стоп-словами?
Предложения
Синонимы: автозаполнение, поиск по мере ввода, предложения.
- Джованни Фернандес-Кинкаде. Начальное автозаполнение, Создание корпуса автозаполнения, Часть 1, Создание корпуса автозаполнения, Часть 2, Структуры и алгоритмы поиска данных автозаполнения, Ранжирование автозаполнения
- О двух типах предложений
- Улучшение поисковых предложений для электронной коммерции
- Лучшие практики автозаполнения поиска для увеличения конверсии
- Почему мы разработали модуль searchhub smartSuggest и почему это может иметь значение для вас
- Nielsen Norman Group: предложения по поиску по сайту
- 13 шаблонов проектирования для предложений автозаполнения
- Автозаполнение
- Автозаполнение и пользовательский опыт
- ВНЕДРЕНИЕ ПОИСКА LINKEDIN LIKE ПО ВВОДУ С ПОМОЩЬЮ ELASTICSEARCH
- Лучшие практики умного автозаполнения: повышение релевантности поиска и продаж
- OLX: создание корпуса для AutoSuggest (часть 1), поиск и ранжирование AutoSuggest (часть 2)
- Автозаполнение, предложения живого поиска и автокоррекция: лучшие практики проектирования
- Зеркало, зеркало, что я печатаю дальше? Все о поисковых предложениях
- Как мы создали молниеносную систему автозаполнения для otto.de
Графики/Таксономии/График знаний
Графики знаний, применяемые в розничной торговле
Графы знаний становятся все более популярными в сфере технологий. Мы исследуем, как их можно использовать в розничной торговле для обогащения данных, расширения результатов поиска и повышения ценности розничной компании.
Потрясающие графики знаний
Интеграция графиков поиска и знаний (по данным Enterprise Knowledge)
- Часть 1. Отображение связей
- Расширение поискового запроса с помощью встраивания запросов
Расширение запроса
- Основы переписывания запросов (часть 1): введение в расширение запросов
Понимание запроса
- Дэниел Танкеланг: Понимание запросов.
- Понимание запроса, разделенное на три части
- Ищите вещи, а не строки
- Понимание поискового запроса. Часть 1, Часть 2, Часть 3
- Поиск еды с помощью Uber Eats: создание системы понимания запросов
- ИИ для понимания запросов
Поисковое намерение
- Сопоставление поисковых запросов с поисковыми намерениями
- Поиск: намерение, а не инвентарь
Сегментация запросов
- Бумажная неконтролируемая сегментация запросов с использованием только журналов запросов
- Статья о семантической сегментации запросов
Алгоритмы
БЕРТ
- Понимание BERT и релевантности поиска
- Google улучшает веб-поиск с помощью BERT – можем ли мы использовать его и для корпоративного поиска?
КОЛЬБЕРТ
- Предварительно обученные языковые модели Transformer для поиска. Часть 3.
Коллокации, общие фразы
- Автоматически обнаруживать общие фразы – выражения из нескольких слов / n-граммы слов – из потока предложений.
- Необоснованная эффективность словосочетаний
Другие алгоритмы
- Одна горячая кодировка
- Написание полнотекстовой поисковой системы с использованием фильтров Блума
Хеширование
- Хэширование с учетом местоположения
- Хеширование с учетом локальности (LSH): практическое и иллюстрированное руководство
- Минхаш
Сортировка по средним оценкам
- Лучше среднего: сортировка по лучшему рейтингу
- Как не сортировать по среднему рейтингу
Извлечение ключевых слов
- Извлечение ключевых слов с помощью RAKE
- Еще один экстрактор ключевых слов (Yake)
- Извлечение ключевых слов с помощью BERT
Отслеживание, профилирование, GDPR, анализ
Инструменты, платформы, помощники для отслеживания поиска
- Анализ поведения пользователей OpenSearch
- Отслеживание поиска по сайту с помощью Google Analytics 4
- Снегоочиститель
- поисковик-коллектор
- OpenTelemetry с дополнениями к поиску
- Аналитика импульсных запросов
- Отслеживание того, кто популярен, а кто нет, представляет собой алгоритмическую задачу.
Ресурсы
- Анонимизация: управление рисками защиты данных (свод правил)
- Система принятия решений по анонимизации
- 98 личных данных, которые Facebook использует для таргетинга рекламы
- Анализ возможностей для поиска
- Лицо выставлено для поисковика AOL № 4417749
- Утечка данных поиска AOL
- Персональные данные
Эксперименты
- Распространенные ошибки поисковых экспериментов
- Улучшение @scale поиска за счет эффективного экспериментирования с запросами
A/B-тестирование, MAB
- A/B-тестирование для поиска отличается
- A/B-тестирование: думаем как учёный
Тестирование, метрики, KPI
Метрики
- Дисконтированная совокупная прибыль
- Ароматы NDCG - нормализованы до чего!?
- Средний обратный ранг
- П@к
- Демистификация nDCG и ERR
- Выбор показателя оценки релевантности поиска
- Как реализовать нормализованную систему оценки качества дисконтированного совокупного прироста (NDCG) в Quepid
- https://en.wikipedia.org/wiki/Precision_and_recall
- https://en.wikipedia.org/wiki/F1_score
- Визуализация показателей поиска
- Выбор показателя оценки релевантности поиска
- Вычислите средний обратный ранг (MRR), используя Pandas
- Рекомендательные системы: метрики машинного обучения и бизнес-метрики
КПЭ
- 5 правильных способов измерить эффективность поиска
- Ключевые показатели эффективности поиска по сайту для электронной коммерции. Часть 1. Клиенты. Часть 2. Продукты. Часть 3. Запросы.
- Учимся на противоречиях, чтобы улучшить качество поиска
- За волшебством бесперебойного поиска
- Анализ показателей релевантности онлайн-поиска с помощью Elastic Stack
- Как получить информацию из поисковой аналитики
Оценка поиска (Дэниел Танкеланг)
- Измерьте это
- Измерение поведения поисковика
- Использование человеческого суждения
- Когда нет коэффициента конверсии
Измерительный поиск (Джеймс Рубинштейн)
- Статистические и человекоориентированные подходы к улучшению поисковых систем
- Человеческий подход
- Настройка программы оценки релевантности
- Метрики имеют значение
- A/B-тестирование: думаем как учёный
- Сортировка запросов: секретное оружие для поисковой релевантности
- Обзор запуска: собираем все вместе…
Три столпа поисковой релевантности (Андреас Вагнер)
- Часть 1: Находимость
- часть 2. Качество поиска для открытий и вдохновения
Архитектура
- Искусство абстракции – новый взгляд на архитектуру интернет-магазина
- Canva — Поисковый конвейер
- Часть первая: описание проблем, с которыми пришлось столкнуться
- Часть вторая: новая архитектура поиска
- Событийно-ориентированная архитектура для эффективного поискового индексирования
Образование и нетворкинг
Конференции
- Активировать
- Берлинское модное словечко
- стог сена
- Эластичный {ВКЛ}
- ПОИСК В ЭЛЕКТРОННОЙ ТОРГОВЛЕ MIX-CAMP
- СИГИР электронная коммерция
- 2019 год
- 2018 год
- 2017 год
Тренинги и курсы
Поиск на основе машинного обучения. Дуг Тернбулл Далее: 24 января 2023 г.
Соединения с открытым исходным кодом
- Elasticsearch «Думай как инженер по релевантности»
- Солр «Думай как инженер по релевантности»
- Помимо релевантности поиска: понимание и измерение качества результатов поиска
- Привет, ЛТР
Тренинги Sease
Основы поиска. Дэниел Танкеланг, Грант Ингерсолл Далее: 6 февраля 2023 г.
Поиск с помощью машинного обучения. Дэниел Танкеланг, Грант Ингерсолл Далее: 27 февраля 2023 г.
Ищем менеджеров по продукту. Дэниел Танкеланг Далее: 3 апреля 2023 г.
Обучение Solr, Elasticsearch и OpenSearch от Sematext
Осень 2023 г.
https://dtunkelang.medium.com/upcoming-search-classes-this-fall-58f877fe00ad
Книги
- Поиск на основе искусственного интеллекта
- Релевантный поиск
- Глубокое обучение для поиска
- Взаимодействие с поисковыми системами
- Вложения в обработку естественного языка. Теория и достижения в векторном представлении значения
- Поиск пользовательских интерфейсов
- Шаблоны поиска
- Поисковая аналитика для вашего сайта: беседы с вашими клиентами
- Нажмите «Модели для веб-поиска»
- Алгоритмы оптимизации
Блоги и порталы
Статьи
Руководство, Поисковая группа
- Поиск — это командный вид спорта
- Мысли об управлении поисковыми командами
- О лидерстве в поиске
- Создание эффективной поисковой команды: ключ к отличному поиску и релевантности
- Сортировка запросов: секретное оружие для поисковой релевантности
- Обзор запуска: собираем все вместе
- Роль владельцев поисковых продуктов
- Управление продуктами поиска: самая непонятая роль в поиске?
- Релевантность поиска для неукомплектованных команд
Собеседования
- Вопросы для собеседования для инженеров по поисковой релевантности, специалистов по данным и менеджеров по продуктам
- Интервью по науке о данных: ранжирование и поиск
Инженерное дело
- Технический долг в поиске
Серия постов в блогах
Поисковая оптимизация 101 (Чарли Халл)
- Как я узнаю, что мой поиск не работает?
- Что значит, если мой поиск «не работает»?
- Как исправить неработающий поиск?
- Снижение бизнес-рисков за счет оптимизации поиска
Понимание запросов (Дэниел Танкеланг)
Лучший поиск благодаря пониманию запроса.
- Введение
- Идентификация языка
- Фильтрация символов
- Токенизация
- Исправление орфографии
- Стемминг и лемматизация
- Переписывание запросов: обзор
- Расширение запроса
- Расслабление запросов
- Сегментация запросов
- Определение области запроса
- Распознавание объектов
- Таксономии и онтологии
- Автозаполнение
- Автозаполнение и пользовательский опыт
- Понимание контекстных запросов: обзор
- Контекст сеанса
- Местоположение как контекст
- Сезонность
- Персонализация
- Поиск как разговор
- Разъясняющие диалоги
- Обратная связь по актуальности
- Фасетный поиск
- Презентация результатов поиска
- Фрагменты результатов поиска
- Кластеризация результатов поиска
- Вопрос Ответ
- Понимание запросов и голосовые интерфейсы
- Понимание запросов и чат-боты
Динамика сетки
- Не поисковая система вашего отца: краткая история поиска в розничной торговле
- Семантический векторный поиск: новый рубеж в открытии продуктов
- Ускорение обнаружения продуктов с помощью семантического поиска
- Схема анализа семантического запроса
Принимая во внимание поиск: темы поиска (Дерек Сиссон)
- Введение
- Предположения о поиске
- Предположения о поведении пользователей при поиске
- Типы сбора информации
- Структурный взгляд на поиск
- Пользователи и задача поиска информации
- Тестирование поиска
- Полезные поисковые ссылки и ссылки
Игроки отрасли
Личности и влиятельные лица
- Дэниел Танкеланг (он Бог поиска)
- Макс Ирвин
- Дуг Тернбулл
- Институт Баймарда
Поисковые системы
- Google
- Бинг
- Яндекс
- Амазонка
- eBay
Продукты и услуги
- Алголия
- Веспа
- Elasticsearch — распределенная система поиска и аналитики.
- Solr — Solr — это сверхбыстрая мультимодальная поисковая платформа с открытым исходным кодом, построенная на базе полнотекстового векторного и геопространственного поиска Apache Lucene.
- Корпоративный поисковый сервер Fess
- Typesense — альтернатива Algolia с открытым исходным кодом.
- SearchHub.io
- Datafari — решение корпоративного поиска с открытым исходным кодом.
- Qdrant — векторная база данных с открытым исходным кодом.
- Awakari — поиск в реальном времени из неограниченного количества источников, таких как RSS, Fediverse, Telegram. Условия соответствия текстовых ключевых слов, числовые условия, группы условий. Индекс обратного поиска на основе.
- Meilisearch — API поиска с открытым исходным кодом, поддерживающий полнотекстовый, векторный, геопространственный и фасетный поиск.
Консалтинговые компании
- Бутик БигДата
- Соединения с открытым исходным кодом
- https://sease.io/
- Сематекст
Тематические исследования
- Airbnb — поисковый рейтинг впечатлений Airbnb на основе машинного обучения
- Airbnb — включение вложений в поисковый рейтинг
- Algolia — архитектура распределенной поисковой сети Algolia
- Meituan - Исследование и практика BERT в основном рейтинге поиска Meituan (?? BERT在美团搜索核心排序的探索和实践)
- Netflix — как Netflix Content Engineering делает федеративный граф доступным для поиска (часть 1, часть 2)
- Netflix — стратегия индексирования Elasticsearch на платформе управления активами (AMP)
- Skyscanner – учимся ранжироваться в поиске маршрутов рейсов
- Slack — Поиск в Slack
- Twitter – стабильность и масштабируемость поиска
- Объяснение Amazon SEO: как поставить свои продукты на первое место в результатах поиска Amazon в 2020 году
- Создание лучшей поисковой системы для ученых-семантиков
Общий поиск
- Как Bing ранжирует результаты поиска: основной алгоритм и синие ссылки
- Как работает рейтинг в поиске Google – дарвинизм в поиске
Электронная коммерция
Многосторонние рынки
- Узнайте, как работает и оценивается Cassini (поисковая система eBay)
Видео
Краткие советы по Apache Solr
Каналы
- Осознанные мысли
- Люсидворкс
- Поиск в электронной коммерции MIx-Camp
- Соединения с открытым исходным кодом
- СИГИР ЭКом
Рекомендуемые
Наборы данных
- Набор данных о торговых запросах: крупномасштабный тест ESCI для улучшения поиска продуктов
- ESCI-S: расширенные метаданные для набора данных Amazon ESCI.
- Актуальность поиска товаров Home Depot
- WANDS — набор данных аннотаций Wayfair
Инструменты
Просторный
Awesome Spacy — понимание естественного языка, обогащение контента и т. д.
Word2Vec
- Word2Vec для фраз — изучение встраивания более чем одного слова
- Учебное пособие по Gensim Word2Vec
- Как включить фразы в Word2Vec — подход к интеллектуальному анализу текста
- Word2Vec — маленький шаг в глубоком обучении, но гигантский скачок к обработке естественного языка
- Как разрабатывать встраивания слов в Python с помощью Gensim
Либы
- Сегментатор запросов
- https://github.com/zentity-io/zentity
- https://github.com/mammothb/symspellpy
- https://github.com/searchhub/search-collector
- Кири — современный семантический поиск стал проще.
- Haystack — комплексная среда Python для создания интерфейсов поиска данных на естественном языке.
- https://github.com/castorini/docTTTTTquery
Другой
- Хор, Смуи, Керки
- Кепид
- Оценщик рейтинга
- Jina AI — система нейронного поиска
Другие классные вещи
- Потрясающие графики знаний
- Потрясающий временной сериал
- Потрясающий простор
- Запрос-понимание
- Нажмите модели