Unduh T5Elasticsearch - Unduh kode sumber T5Elasticsearch

T5Elasticsearch

Kode sumber lainnya

1.0.0

Unduh

Elasticsearch memenuhi T5/Bert/model NLP terlatih favorit Anda

Di bawah ini adalah contoh pencarian kerja:

Contoh bertsearch

Arsitektur sistem

Saya menggunakan model terlatih dari Huggingface Transformers.

Memulai

1. Unduh model T5/BERT yang telah dilatih sebelumnya

Unduh tokenizer dan model t5/bert yang telah dilatih sebelumnya secara manual ke direktori lokal. Anda dapat memeriksa model di sini.

Saya menggunakan model 't5-small', periksa di sini dan klik List all files in model untuk mengunduh file. Unduh model

Perhatikan struktur direktori file yang diunduh secara manual.

Struktur direktori

Anda bisa menggunakan model T5 atau Bert lainnya.

2. Tetapkan variabel lingkungan

Jika Anda mengunduh model lain, periksa daftar model yang telah disiapkan sebelumnya Hugaface Transformers untuk memeriksa nama model.

$ export TOKEN_DIR=path_to_your_tokenizer_directory/tokenizer
$ export MODEL_DIR=path_to_your_model_directory/model
$ export MODEL_NAME=t5-small # or other model you downloaded
$ export INDEX_NAME=docsearch

3. Jalankan kontainer Docker

$ docker-compose up --build

Saya juga menggunakan docker system prune untuk menghapus semua wadah, jaringan, dan gambar yang tidak digunakan untuk mendapatkan lebih banyak memori. Tingkatkan memori buruh pelabuhan Anda (saya menggunakan 8GB ) jika Anda menemukan kesalahan Container exits with non-zero exit code 137 .

4. Buat indeks

Kami menggunakan tipe data vektor padat untuk menyimpan fitur yang diekstraksi dari model NLP yang telah dilatih sebelumnya (t5 atau bert di sini, tetapi Anda dapat menambahkan sendiri model terlatih yang Anda minati)

{
  ...
  "text_vector" : {
    "type" : " dense_vector " ,
    "dims" : 512
  }
  ...
}

Dimensi dims:512 untuk model T5. Ubah dims ke 768 jika Anda menggunakan model Bert.

6. Indeks dokumen

Baca dokumen dari mysql dan ubah dokumen ke dalam format json yang benar untuk dimasukkan ke dalam elasticsearch secara massal.

$ cd index_files
$ pip install -r requirements.txt
$ python indexing_files.py
# or you can customize your parameters
# $ python indexing_files.py --index_file='index.json' --index_name='docsearch' --data='documents.jsonl'

7. Buka peramban

Kunjungi http://127.0.0.1:5000.

Sesuaikan model favorit Anda

Kode kunci untuk menggunakan model terlatih untuk mengekstrak fitur adalah fungsi get_emb dalam file ./index_files/indexing_files.py dan ./web/app.py .

 def get_emb ( inputs_list , model_name , max_length = 512 ):
    if 't5' in model_name : #T5 models, written in pytorch
        tokenizer = T5Tokenizer . from_pretrained ( TOKEN_DIR )
        model = T5Model . from_pretrained ( MODEL_DIR )
        inputs = tokenizer . batch_encode_plus ( inputs_list , max_length = max_length , pad_to_max_length = True , return_tensors = "pt" )
        outputs = model ( input_ids = inputs [ 'input_ids' ], decoder_input_ids = inputs [ 'input_ids' ])
        last_hidden_states = torch . mean ( outputs [ 0 ], dim = 1 )
        return last_hidden_states . tolist ()

    elif 'bert' in model_name : #Bert models, written in tensorlow
        tokenizer = BertTokenizer . from_pretrained ( 'bert-base-multilingual-cased' )
        model = TFBertModel . from_pretrained ( 'bert-base-multilingual-cased' )
        batch_encoding = tokenizer . batch_encode_plus ([ "this is" , "the second" , "the thrid" ], max_length = max_length , pad_to_max_length = True )

        outputs = model ( tf . convert_to_tensor ( batch_encoding [ 'input_ids' ]))
        embeddings = tf . reduce_mean ( outputs [ 0 ], 1 )
        return embeddings . numpy (). tolist ()

Anda dapat mengubah kode dan menggunakan model favorit Anda yang telah dilatih sebelumnya. Misalnya, Anda bisa menggunakan model GPT2.

Sesuaikan Elasticsearch Anda

Anda juga dapat menyesuaikan elasticsearch dengan menggunakan fungsi skor Anda sendiri alih-alih cosineSimilarity di .webapp.py .

Berdasarkan

Perwakilan ini dimodifikasi berdasarkan Hironsan/bertsearch, yang menggunakan paket bert-serving untuk mengekstrak fitur bert. Ini terbatas pada TF1.x

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-20
ukuran 348.1KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
chat.petals.dev

2024-11-30
SmartTube

2024-12-14
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua