멋진 검색
자유를 위한 우크라이나의 투쟁을 지지하세요
러시아 군함, 가서 엿먹어라
저는 거의 10년 동안 전자상거래 검색 애플리케이션을 구축해 왔습니다. 아래에서 저에게 영감을 준 (일부) 출판물, 컨퍼런스, 도서 목록을 찾아보실 수 있습니다. 주제별로 그룹화됩니다(기사가 여러 주제에 해당하는 경우 여러 섹션으로 나뉩니다).
GitHub에 별표를 남겨주세요. 도움이 됩니다!
또한 내 다른 컬렉션의 멋진 전자상거래, 멋진 지식 그래프, 멋진 클라우드 앱도 확인하세요.
주제
- 일반, 재미, 철학
- 검색 유형
- 클래식/어휘 검색
- 벡터/의미론적 검색
- 임베딩
- 벡터 유형
- 인코더 모델
- 주요 아키텍처
- 쿼리/문서 토큰 상호 작용
- 상호 작용 없음 - 2개의 타워/바이-인코더
- 초기 상호작용 - 크로스 인코더
- 늦은 상호작용 - ColBERT
- 고차원 임베딩 처리
- 대칭 및 비대칭 의미 검색
- 하이브리드 검색
- 다중모달 검색
- 적용 분야
- 기업 검색
- 전자상거래 검색
- 대화형 검색
- 지리공간 검색
- 의료 및 헬스케어 검색
- 소셜 미디어 및 사용자 생성 콘텐츠 검색
- 질문 응답 시스템
- 개인정보 관리
- 검색결과
- 검색
- 순위
- 편견
- 다각화
- 개인화
- 검색결과가 없습니다.
- UX 검색
- 베이마르드 연구소
- 닐슨 노먼 그룹
- 엔터프라이즈 지식 LLC
- 패싯
- 다른
- 철자 교정
- 제안
- 동의어
- 불용어
- 그래프/분류/지식 그래프
- 검색 및 지식 그래프 통합(Enterprise Knowledge 제공)
- 쿼리 확장
- 쿼리 이해
- 알고리즘
- 버트
- 콜버트
- 연어, 일반적인 문구
- 기타 알고리즘
- 추적, 프로파일링, GDPR, 분석
- 실험
- 검색 평가
- MRR
- 테스트, 지표, KPI
- 검색 평가(Daniel Tunkelang 작성)
- 검색 측정(James Rubinstein 작성)
- 검색 관련성의 세 가지 원칙(Andreas Wagner 저)
- 건축학
- 벡터 검색
- 교육 및 네트워킹
- 컨퍼런스
- 교육 및 과정
- 서적
- 블로그 및 포털, 뉴스
- 서류
- 관리, 검색팀
- 업계 선수
- 개인 및 영향력 있는 사람
- 검색 엔진
- 제품 및 서비스
- 컨설팅 회사
- 블로그 게시물 시리즈
- 검색 최적화 101(찰리 헐 저)
- 쿼리 이해(Daniel Tunkelang 저)
- 그리드 역학
- 검색 고려: 검색 주제(Derek Sisson 작성)
- 비디오
- 사례 연구
- 데이터세트
- 도구
정렬되지 않음
- 샌드박스 2021년 6월
- 샌드박스 2021년 5월
- 샌드박스 2021년 4월
- 2020년 12월 샌드박스
- 2020년 1월 샌드박스
일반, 재미, 철학
- 프로그래머들이 검색에 대해 믿고 있는 거짓
- 윤리적 검색: 긍정적인 영향을 미치는 거부할 수 없는 여정 설계
- 의미 검색에 대하여
- 피드백 부채: 세그웨이가 검색팀에게 가르치는 것
- 검색자의 여정 지원: 시기 및 방법
- 쇼핑은 어렵다, 검색하러 가자!
- 검색 품질 소개
- 전자상거래를 위한 현장 검색 디자인 패턴: 스키마 구조, 데이터 기반 순위 등
- 리콜을 찾아서
- 검색 예산의 균형을 맞추세요!
검색 유형
클래식/어휘 검색
- Etsy. 검색에서 광범위한 검색어 타겟팅
- Etsy가 열역학을 사용하여 "Geeky" 검색을 돕는 방법
- 광범위하고 모호한 검색어
- 전자상거래 검색 해체: 12가지 검색어 유형
벡터/의미론적 검색
임베딩
유형
- 바이엔코더 vs 크로스엔코더?언제 어느 것을 사용해야 할까요?
- ColBERT와 늦은 상호작용은 무엇이며 검색에서 중요한 이유는 무엇입니까?
인코더 모델
쿼리/문서 토큰 상호 작용
상호 작용 없음 - 2개의 타워/바이-인코더
초기 상호작용 - 크로스 인코더
늦은 상호작용 - ColBERT
- Vespa ColBERT 임베더 발표
- ColBERT와 늦은 상호작용은 무엇이며 검색에서 중요한 이유는 무엇입니까?
조밀한 벡터
마트료시카 임베딩
- Matryoshka 임베딩: 적응 검색을 사용하여 더 빠른 OpenAI 벡터 검색
- Matryoshka 임베딩 모델 소개
- 마트료시카 표현. 더 빠른 의미 검색을 위한 가이드
희소 벡터
스플레이드
- 하이브리드 검색: SPLADE(Sparse Encoder)
- 희소 벡터 검색을 위한 SPLADE 설명
고차원 임베딩 처리
차원성 감소
양자화
바이너리 임베딩
하이브리드 검색
- 하이브리드 검색 > 해당 부분의 합?
- 하이브리드 검색에서
- 재순위를 이용한 하이브리드 검색
상호 순위 융합(RRF)
- 재순위를 이용한 하이브리드 검색
- 상호 순위 융합
다중모달 검색
- Muves: 하드웨어 가속 기능을 갖춘 다중 모드 및 다국어 벡터 검색
- 다중모달 검색을 위한 모델 선택
적용 분야
기업 검색
- GenAI는 기업 검색을 개선할 수 있지만 여전히 진행 중인 작업입니다.
전자상거래 검색
- 전자상거래 검색에서 TF-IDF 알고리즘의 영향
대화형 검색
- 대화로 검색
- 대화형 검색에 대한 어포던스
- 쿼리 이해 및 챗봇
검색결과
검색
관련성
- 인간은 문자열이 아닌 사물을 검색합니다.
- '관련성 있는' 검색결과란 무엇입니까?
- 전자상거래 검색 관련성을 달성하는 방법
- 관련성 평가 프로그램 설정
관련성 알고리즘
- BM25 전체 텍스트 검색 알고리즘 이해
- 실용적인 BM25: 샤드가 Elasticsearch의 관련성 점수에 미치는 영향, BM25 알고리즘 및 해당 변수
- 전자상거래 검색에서 TF-IDF 알고리즘의 영향
- BM25 차세대 Lucene 관련성
- Lucene 유사점(BM25, DFR, DFI, IB, LM) 설명
순위
다단계 순위
순위 학습
- 검색은 다른 머신러닝 문제와 어떻게 다릅니까?
- 강화 학습 지원 검색 순위
- 전자상거래 검색을 강화 학습 문제로 재지정
- 기계 학습과 점수 기반 검색 순위를 사용하는 경우
- 순위 학습이란 무엇입니까?
- AI 및 머신 러닝을 사용하여 Adobe Stock 검색 내 위치 편향 극복
- 모델 순위 지정을 위한 학습 평가를 위해 훈련 및 테스트 세트 분할
- LambdaMART 작동 방식 - 제품 순위 목표 최적화
검색할 모델을 클릭하세요.
- 클릭 모델
- 전자상거래를 위한 클릭 모델링
- 행동 데이터를 사용하여 검색 개선
편견
- 검색에서 표현 편향이란 무엇입니까?
- 추천 및 검색의 위치 편향 처리
다각화
- 인과언어모델을 활용한 검색결과 다양화
- Multi-Armed Bandit을 통해 전자상거래 검색을 다양화하는 방법 학습
- 발견과 영감을 위한 검색 품질
- 검색결과의 다양성을 측정하는 방법
- 골디락스 검색
- 광범위하고 모호한 검색어 - 검색 결과에 다양화가 필요한 시기 인식
- 검색결과 다양성에 대한 생각
개인화
- 추천 및 검색의 개인화 패턴
- 다니엘 툰켈랑 개인화
- Airbnb - 검색의 실시간 개인화
- 페이스북이 귀하에게 광고를 타겟팅하기 위해 사용하는 98개의 개인 데이터 포인트
- 실제 추천 시스템의 아키텍처
- 개인화된 검색을 위한 특성 추출
검색결과가 없습니다.
- 제로 결과를 완화하고 온라인 마켓플레이스에 적용하기 위한 대체 쿼리 사용 전략
- 전자상거래 쿼리의 의미론적 동등성
UX 검색
베이마르드 연구소
- 전자상거래 검색 해체: 12가지 검색어 유형
- 일치하는 카테고리로 사용자를 자동으로 안내하거나 안내합니다.
- 자동 완성 제안을 위한 13가지 디자인 패턴(27%가 틀렸음)
- 전자상거래 검색은 사용자의 제품 외 검색 쿼리를 지원해야 합니다(15%는 지원하지 않음).
- 검색 UX: '결과 없음' 페이지를 위한 6가지 필수 요소
- 제품 썸네일은 검색된 변형과 일치하도록 동적으로 업데이트되어야 합니다(54%는 그렇지 않음).
- 패싯 정렬 - 검색 결과를 정렬하는 새로운 방법
- 전자상거래 검색 현황
- 전자상거래 사이트에는 이 5가지 '검색 범위' 기능이 여러 개 필요합니다.
- 전자상거래 검색필드 디자인과 시사점
- 전자 상거래 사이트에는 문맥 검색 스니펫이 포함되어야 합니다(96% 오류).
- 전자상거래 검색 유용성: 보고서 및 벤치마크
- 'COVID-19' 관련 전자상거래 UX 개선 6가지
닐슨 노먼 그룹
- 검색결과 페이지의 첫눈에 반하는 시선 패턴
- 검색결과 페이지의 양호한 이탈
- 복잡한 검색결과 페이지로 인한 검색 행동 변화: 핀볼 패턴
- 사이트 검색 제안
- 검색 로그 분석: 웹 UX 연구에서 가장 간과되는 기회
- 범위 검색: 위험하지만 때로는 유용함
- 검색 엔진 "결과 없음" 페이지에 대한 3가지 지침
엔터프라이즈 지식 LLC
- 검색 경험 최적화: 검색 디자인에 대한 인간 중심 접근 방식
패싯
- 패싯 검색의 측면
- 커피, 커피, 커피!
- 패싯 검색(여기서 시작하세요!)
- 패싯 검색을 올바른 방식으로 구현하는 방법
- 메타데이터 및 패싯 검색
- Metacrap: 메타 유토피아의 밀짚모자 일곱 명에게 횃불을 꽂다
- Macy를 동급 최고로 만드는 7가지 필터링 구현
- 패싯 검색: 가장 포괄적인 가이드. 모범 사례, 디자인 패턴, 숨겨진 주의 사항 및 해결 방법
- 패싯: 제약인가, 선호인가?
- 측면, 그러나 어떤 측면인가?
우연한 분류학자
- 분류에는 몇 개의 패싯이 있어야 합니까?
- 분류가 계층적이지 않아야 하는 경우
- 분류 패싯 사용자 정의
다른
- 검색 경험을 개선하기 위해 마찰로부터 배우기
- 가격순으로 정렬하는 것이 왜 이렇게 어려운가요?
- 패싯 정렬
- 구글이 인스턴트 검색을 죽인다
철자 교정
- 피터 노빅. "맞춤법 교정기를 작성하는 방법". 클래식 출판.
- 다니엘 툰켈랑. "맞춤법 교정"
- 단어 벡터로 구축된 간단한 맞춤법 검사기
- 철자 교정 문제 자세히 살펴보기: 1, 2, 3, preDict
- 깊은 철자법
- Etsy 검색을 위한 맞춤법 교정 모델링
- 울프 가르베. Sympell의 저자. 1000배 더 빠른 철자 교정 알고리즘, 주요 하이라이트 SymSpell 대 BK-트리: 100배 더 빠른 퍼지 문자열 검색 및 철자 검사, 시끄러운 텍스트의 빠른 단어 분할
- Chars2vec: 철자 오류가 있는 실제 텍스트를 처리하기 위한 문자 기반 언어 모델입니다.
- JamSpell, 주변 상황을 고려한 철자 교정 - 라이브러리, (러시아어) Исправляем опечатки с учётом контекста
- 맞춤법 교정을 위한 임베딩
- 단어 벡터로 구축된 간단한 맞춤법 검사기
- 검색 엔진에서 사용되는 맞춤법 교정 알고리즘에는 어떤 것이 있나요?
- Moman - lucene/solr/elasticsearch 철자 교정/자동 교정은 실제로 이 라이브러리에서 제공됩니다.
- 쿼리 분할 및 철자 수정
- Spark NLP에서 상황 인식 맞춤법 검사 적용
- Google, Amazon, Pinterest의 자동 수정 및 직접 작성하는 방법
동의어
- 동의어로 Elasticsearch의 성능 강화
- 동의어 및 검색에 대한 실제 이야기
- Solr I의 동의어 — 좋은 것, 나쁜 것, 추한 것
- WordNet의 동의어와 반의어
- Python의 동의어와 반의어
- NLTK로 WordNet에 뛰어들다
- 자동 동의어 감지를 통해 더 나은 검색 만들기
- Querqy를 사용한 검색의 여러 단어 동의어
- 스마트 동의어 모델을 구축하는 방법
- 전자상거래 검색에서 동의어의 중요성
불용어
제안
동의어: 자동완성, 입력과 동시에 검색, 제안
- 조반니 페르난데스-킨케이드. 자동 제안 부트스트랩, 자동 제안 코퍼스 구축, 1부, 자동 제안 코퍼스 구축, 2부, 자동 제안 검색 데이터 구조 및 알고리즘, 자동 제안 순위
- 두 가지 유형의 제안에 대해
- 전자상거래에 대한 검색 제안 개선
- 전환율을 높이는 자동완성 검색 모범 사례
- Searchhub smartSuggest 모듈을 개발한 이유와 이것이 귀하에게 중요한 이유
- Nielsen Norman Group: 사이트 검색 제안
- 자동완성 제안을 위한 13가지 디자인 패턴
- 자동완성
- 자동 완성 및 사용자 경험
- Elasticsearch로 입력하면서 검색과 같은 LINKEDIN 구현
- 스마트 자동 완성 모범 사례: 검색 관련성 및 매출 향상
- OLX: AutoSuggest를 위한 코퍼스 구축(1부), AutoSuggest 검색 및 순위 지정(2부)
- 자동 완성, 실시간 검색 제안 및 자동 수정: 모범 사례 디자인 패턴
- 거울아 거울아 이제 내가 뭘 입력하는 거지? 검색 제안에 관한 모든 것
- otto.de를 위한 매우 빠른 자동 제안 기능을 구축한 방법
그래프/분류/지식 그래프
검색 및 지식 그래프 통합(Enterprise Knowledge 제공)
- 1부: 관계 표시
- 쿼리 임베딩을 통한 검색어 확장
쿼리 확장
- 쿼리 재작성 기본 사항(1부): 쿼리 확장 소개
쿼리 이해
- Daniel Tunkelang 쿼리 이해.
- 세 부분으로 나누어진 쿼리 이해
- 문자열이 아닌 사물 검색
- 검색어 이해. 1부, 2부, 3부
- Uber Eats를 통한 음식 검색: 쿼리 이해 엔진 구축
- 쿼리 이해를 위한 AI
검색 의도
- 검색 의도에 검색 쿼리 매핑
- 검색: 인벤토리가 아닌 의도
쿼리 세분화
- 쿼리 로그만을 사용한 종이 비지도 쿼리 세분화
- 의미론적 쿼리 분할을 위한 논문
알고리즘
버트
- BERT 및 검색 관련성 이해
- Google은 BERT를 통해 웹 검색을 개선하고 있습니다. 기업 검색에도 사용할 수 있나요?
콜버트
- 검색을 위해 사전 훈련된 Transformer 언어 모델 - 부품 3
연어, 일반적인 문구
- 문장 스트림에서 일반적인 구문(다중 단어 표현/단어 n-그램)을 자동으로 감지합니다.
- 연어의 불합리한 효율성
기타 알고리즘
- 하나의 핫 인코딩
- Bloom 필터를 사용하여 전체 텍스트 검색 엔진 작성
해싱
- 지역 구분 해싱
- 지역 민감형 해싱(LSH): 실용적이고 예시적인 가이드
- 민하쉬
평균 평점으로 정렬
- 평균보다 좋음: 최고 평점으로 정렬
- 평균 평점으로 정렬하지 않는 방법
키워드 추출
- RAKE를 이용한 키워드 추출
- 또 다른 키워드 추출기(Yake)
- BERT를 이용한 키워드 추출
추적, 프로파일링, GDPR, 분석
검색 추적을 위한 도구, 플랫폼, 도우미
- OpenSearch 사용자 행동 통찰력
- Google Analytics 4를 사용한 사이트 검색 추적
- 제설기
- 검색 콜렉터
- 검색 추가 기능이 있는 OpenTelemetry
- 펄스 쿼리 분석
- 누가 인기가 있고 누가 그렇지 않은지 추적하는 것은 알고리즘적 과제를 제시합니다.
자원
- 익명화: 데이터 보호 위험 관리(실행 강령)
- 익명화 의사결정 프레임워크
- 페이스북이 귀하에게 광고를 타겟팅하기 위해 사용하는 98개의 개인 데이터 포인트
- 검색 기회 분석
- AOL 검색자 번호 4417749에 얼굴이 노출되었습니다.
- AOL 검색 데이터 유출
- 개인 데이터
실험
- 검색 실험의 일반적인 함정
- 효율적인 쿼리 실험을 통해 Search @scale 개선
A/B 테스트, MAB
- 검색을 위한 A/B 테스트는 다릅니다
- A/B 테스팅 검색: 과학자처럼 생각하기
테스트, 지표, KPI
측정항목
- 할인된 누적 이득
- NDCG의 맛 - 무엇으로 표준화되었나요!?
- 평균 상호 순위
- 피@k
- nDCG와 ERR 이해하기
- 검색 관련성 평가 지표 선택
- Quepid에서 정규화된 할인 누적 이득(NDCG) 순위 품질 점수 측정기를 구현하는 방법
- https://en.wikipedia.org/wiki/Precision_and_recall
- https://en.wikipedia.org/wiki/F1_score
- 검색 지표 시각화
- 검색 관련성 평가 지표 선택
- Pandas를 사용하여 MRR(평균 상호 순위) 계산
- 추천 시스템: 기계 학습 지표 및 비즈니스 지표
KPI
- 검색 성과를 측정하는 5가지 올바른 방법
- 전자상거래 사이트 검색 KPI. 1부 - 고객, 2부 - 제품, 3부 - 쿼리
- 검색 경험을 개선하기 위해 마찰로부터 배우기
- 원활한 검색 경험의 마법 뒤에
- Elastic Stack으로 온라인 검색 관련성 지표 분석
- 검색 분석에서 통찰력을 얻는 방법
검색 평가(Daniel Tunkelang 작성)
- 측정해 보세요
- 검색자 행동 측정
- 인간의 판단을 활용
- 전환율이 없을 때
검색 측정(James Rubinstein 작성)
- 검색 엔진 개선을 위한 통계적이고 인간 중심적인 접근 방식
- 인간적인 접근 방식
- 관련성 평가 프로그램 설정
- 측정항목이 중요합니다
- A/B 테스팅 검색: 과학자처럼 생각하기
- 쿼리 분류: 검색 관련성을 위한 비밀 무기
- 출시 리뷰: 모든 것을 하나로 모으세요…
검색 관련성의 세 가지 원칙(Andreas Wagner 저)
- 1부: 검색 가능성
- 2부: 발견과 영감을 위한 검색 품질
건축학
- 추상화의 예술 - 웹샵 아키텍처 재검토
- Canva - 검색 파이프라인
- 제1부 직면한 과제에 대한 개요
- 2부 새로운 검색 아키텍처
- 효율적인 검색 인덱싱을 위한 이벤트 기반 아키텍처
교육 및 네트워킹
컨퍼런스
- 활성화
- 베를린 전문 용어
- 커다란 건초 더미
- 탄력적{ON}
- MIX-CAMP 전자상거래 검색
- SIGIR 전자상거래
교육 및 과정
기계 학습 기반 검색. Doug Turnbull 다음: 2023년 1월 24일
오픈소스 연결
- Elasticsearch "관련성 엔지니어처럼 생각하기"
- Solr "관련성 엔지니어처럼 생각하기"
- 검색 관련성을 넘어서: 검색 결과 품질 이해 및 측정
- 안녕하세요 LTR
Sease의 훈련
검색 기초. Daniel Tunkelang, Grant Ingersoll 다음: 2023년 2월 6일
머신러닝으로 검색하세요. Daniel Tunkelang, Grant Ingersoll 다음: 2023년 2월 27일
제품 관리자를 검색하세요. Daniel Tunkelang 다음: 2023년 4월 3일
Sematext의 Solr, Elasticsearch 및 OpenSearch 교육
2023년 가을
https://dtunkelang.medium.com/upcoming-search-classes-this-fall-58f877fe00ad
서적
- AI 기반 검색
- 관련 검색
- 검색을 위한 딥러닝
- 검색 시스템과의 상호 작용
- 자연어 처리의 임베딩. 의미의 벡터 표현에 대한 이론과 발전
- 사용자 인터페이스 검색
- 검색 패턴
- 사이트에 대한 검색 분석: 고객과의 대화
- 웹 검색용 모델을 클릭하세요.
- 최적화 알고리즘
블로그 및 포털
서류
관리, 검색팀
- 검색은 팀 스포츠입니다
- 검색팀 관리에 대한 생각
- 검색 리더십에 대하여
- 효과적인 검색 팀 구축: 뛰어난 검색 및 관련성의 핵심
- 쿼리 분류: 검색 관련성을 위한 비밀 무기
- 출시 검토: 모든 것을 하나로 모으기
- 검색 제품 소유자의 역할
- 검색 제품 관리: 검색에서 가장 오해받는 역할은 무엇입니까?
- 인력이 부족한 팀에 대한 검색 관련성
면접
- 검색 관련성 엔지니어, 데이터 과학자, 제품 관리자를 위한 인터뷰 질문
- 데이터 과학 인터뷰: 순위 및 검색
공학
블로그 게시물 시리즈
검색 최적화 101(찰리 헐 저)
- 내 검색이 깨졌는지 어떻게 알 수 있나요?
- 내 검색이 '깨졌다'는 것은 무엇을 의미합니까?
- 손상된 검색을 어떻게 수정합니까?
- 검색 최적화를 통한 비즈니스 위험 감소
쿼리 이해(Daniel Tunkelang 저)
쿼리 이해를 통해 더 나은 검색이 가능합니다.
- 소개
- 언어 식별
- 문자 필터링
- 토큰화
- 맞춤법 교정
- 형태소 분석 및 원형화
- 쿼리 재작성: 개요
- 쿼리 확장
- 쿼리 완화
- 쿼리 분할
- 쿼리 범위 지정
- 엔터티 인식
- 분류 및 온톨로지
- 자동완성
- 자동 완성 및 사용자 경험
- 상황별 쿼리 이해: 개요
- 세션 컨텍스트
- 맥락으로서의 위치
- 계절성
- 개인화
- 대화로 검색
- 설명 대화
- 관련성 피드백
- 패싯 검색
- 검색결과 프레젠테이션
- 검색 결과 스니펫
- 검색 결과 클러스터링
- 질문 답변
- 쿼리 이해 및 음성 인터페이스
- 쿼리 이해 및 챗봇
그리드 역학
- 아버지의 검색 엔진이 아닙니다: 소매 검색의 간략한 역사
- 의미론적 벡터 검색: 제품 검색의 새로운 개척지
- 의미론적 검색으로 제품 검색 강화
- 의미론적 쿼리 구문 분석 청사진
검색 고려: 검색 주제(Derek Sisson 작성)
- 소개
- 검색에 대한 가정
- 사용자 검색 동작에 대한 가정
- 정보 수집 유형
- 검색의 구조적 고찰
- 사용자와 정보 검색 업무
- 테스트 검색
- 유용한 검색 링크 및 참고자료
업계 선수
개인 및 영향력 있는 사람
- 다니엘 툰켈랑(그는 검색의 신)
- 맥스 어윈
- 더그 턴불
- 베이마르 연구소
검색 엔진
제품 및 서비스
- 알골리아
- 베스파
- Elasticsearch - 분산 검색 및 분석 엔진
- Solr - Solr는 Apache Lucene의 전체 텍스트 벡터와 지리공간 검색 기능을 기반으로 구축된 초고속 오픈 소스 다중 모드 검색 플랫폼입니다.
- Fess 엔터프라이즈 검색 서버
- Typesense - Algolia의 오픈소스 대안입니다.
- SearchHub.io
- Datafari - 오픈 소스 기업 검색 솔루션입니다.
- Qdrant - 오픈 소스 벡터 데이터베이스입니다.
- Awakari - RSS, Fediverse, Telegram과 같은 무제한 소스에서 실시간 검색이 가능합니다. 텍스트 키워드 일치 조건, 숫자 조건, 조건 그룹. 역방향 검색 인덱스 기반.
- Meilisearch - 전체 텍스트, 벡터, 지리공간 및 패싯 검색을 지원하는 오픈 소스 검색 API
컨설팅 회사
- 빅데이터 부티크
- 오픈소스 연결
- https://sease.io/
- 세마텍스트
사례 연구
- Airbnb - 머신러닝 기반 Airbnb 체험 검색 순위
- Airbnb - 검색 순위에 임베딩 나열
- Algolia - Algolia의 분산 검색 네트워크 아키텍처
- 메이투안(Meituan) - 메이투안 검색의 핵심 순위에서 BERT 탐색 및 실행
- Netflix - Netflix 콘텐츠 엔지니어링을 통해 연합 그래프를 검색 가능하게 만드는 방법(1부, 2부)
- Netflix - 자산 관리 플랫폼(AMP)의 Elasticsearch 인덱싱 전략
- 스카이스캐너 - 항공편 일정 검색 순위 학습
- Slack - Slack에서 검색
- Twitter - 검색의 안정성과 확장성
- Amazon SEO 설명: 2020년 Amazon 검색 결과에서 귀하의 제품을 1위로 순위를 매기는 방법
- 의미론적 학자를 위한 더 나은 검색 엔진 구축
일반검색
- Bing이 검색 결과 순위를 매기는 방법: 핵심 알고리즘 및 블루 링크
- Google 검색 순위 작동 방식 - 검색의 다윈주의
전자상거래
다면적인 시장
- Cassini(eBay 검색 엔진)의 작동 방식 및 순위 알아보기
비디오
Apache Solr 짧은 팁
채널
- 명쾌한 생각
- 루시드웍스
- Mix-Camp 전자상거래 검색
- 오픈소스 연결
- 시지르 eCom
추천
데이터세트
- 쇼핑 쿼리 데이터세트: 상품 검색 개선을 위한 대규모 ESCI 벤치마크
- ESCI-S: Amazon ESCI 데이터세트용 확장 메타데이터
- 홈디포 제품 검색 관련성
- WANDS - Wayfair 주석 데이터세트
도구
스페이시
Awesome Spacy - 자연어 이해, 콘텐츠 강화 등
Word2Vec
- 구문용 Word2Vec — 둘 이상의 단어에 대한 임베딩 학습
- Gensim Word2Vec 튜토리얼
- Word2Vec에 문구를 통합하는 방법 – 텍스트 마이닝 접근 방식
- Word2Vec — 딥 러닝의 첫 걸음이지만 자연어 처리를 향한 거대한 도약
- Gensim을 사용하여 Python에서 단어 임베딩을 개발하는 방법
라이브러리
- 쿼리 분할기
- https://github.com/zentity-io/zentity
- https://github.com/mammothb/symspellpy
- https://github.com/searchhub/search-collector
- Kiri - 최첨단 의미 검색이 쉬워졌습니다.
- Haystack - 데이터에 대한 자연어 검색 인터페이스를 구축하기 위한 엔드투엔드 Python 프레임워크입니다.
- https://github.com/castorini/docTTTTT쿼리
다른
- 코러스, 스무이, 쿼리키
- 퀘피드
- 평가 순위 평가자
- Jina AI - 신경 검색 프레임워크
그 외 멋진 것들
- 멋진 지식 그래프
- 멋진 시계열
- 굉장한 스페이시
- 쿼리 이해
- 클릭 모델