พื้นที่เก็บข้อมูลนี้มีสคริปต์อำนวยความสะดวกในการปรับแต่ง LLaMa3-8B (หรือโมเดลพื้นฐานอื่นๆ) สำหรับการแชทในทุกภาษา (ที่ไม่ใช่ภาษาอังกฤษ) เหตุผลที่อยู่เบื้องหลังคือ LLaMa3 ได้รับการฝึกอบรมเกี่ยวกับข้อมูลภาษาอังกฤษเป็นหลัก และแม้ว่าจะใช้งานได้ในระดับหนึ่งในภาษาอื่น แต่ประสิทธิภาพของมันก็ต่ำเมื่อเทียบกับภาษาอังกฤษ
รวมพลังของการปรับแต่งแบบละเอียดเข้ากับพลังของ RAG - ตรวจสอบพื้นที่เก็บข้อมูล RAG Me Up ของเราบน RAG ซึ่งสามารถใช้กับโมเดลของคุณที่ปรับด้วย LLaMa2Lang
pip install -r requirements.txt
# Translate OASST1 to target language
python translate.py m2m target_lang checkpoint_location
# Combine the checkpoint files into a dataset
python combine_checkpoints.py input_folder output_location
# Finetune
python finetune.py tuned_model dataset_name instruction_prompt
# Optionally finetune with DPO (RLHF)
python finetune_dpo.py tuned_model dataset_name instruction_prompt
# Run inference
python run_inference.py model_name instruction_prompt input
กระบวนการที่เราปฏิบัติตามเพื่อปรับแต่งโมเดลพื้นฐาน เช่น LLaMa3 สำหรับภาษาเฉพาะมีดังนี้:
สิ่งต่อไปนี้ได้รับการทดสอบแล้ว แต่อาจใช้งานได้มากกว่านี้
กระบวนการข้างต้นสามารถทำงานได้อย่างสมบูรณ์บน Google Colab T4 GPU ฟรี อย่างไรก็ตาม ขั้นตอนสุดท้ายสามารถทำงานได้สำเร็จด้วยหน้าต่างบริบทที่สั้นเพียงพอและมีจำนวนหน้าต่างไม่เกิน 2 ชุด นอกจากนี้ การแปลในขั้นตอนที่ 2 จะใช้เวลาประมาณ 36 ชั่วโมงสำหรับภาษาใดก็ตาม ดังนั้นควรดำเนินการหลายขั้นตอนหากคุณ ต้องการใช้ Google Colab GPU ฟรี
โมเดลที่ได้รับการปรับแต่งอย่างละเอียดของเราสำหรับขั้นตอนที่ 5 ดำเนินการโดยใช้ A40 บน Vast.ai และมีค่าใช้จ่ายน้อยกว่า 1 ดอลลาร์สำหรับแต่ละรุ่น ซึ่งเสร็จสิ้นภายในเวลาประมาณ 1.5 ชั่วโมง
ตรวจสอบให้แน่ใจว่าติดตั้ง pytorch และใช้งานได้กับสภาพแวดล้อมของคุณ (ควรใช้ CUDA ดีกว่า): https://pytorch.org/get-started/locally/
โคลน repo และติดตั้งข้อกำหนด
pip install -r requirements.txt
usage: translate.py [-h] [--quant8] [--quant4] [--base_dataset BASE_DATASET] [--base_dataset_text_field BASE_DATASET_TEXT_FIELD] [--base_dataset_lang_field BASE_DATASET_LANG_FIELD]
[--checkpoint_n CHECKPOINT_N] [--batch_size BATCH_SIZE] [--max_length MAX_LENGTH] [--cpu] [--source_lang SOURCE_LANG]
{opus,mbart,madlad,m2m,nllb,seamless_m4t_v2,towerinstruct} ... target_lang checkpoint_location
Translate an instruct/RLHF dataset to a given target language using a variety of translation models
positional arguments:
{opus,mbart,madlad,m2m,nllb,seamless_m4t_v2,towerinstruct}
The model/architecture used for translation.
opus Translate the dataset using HelsinkiNLP OPUS models.
mbart Translate the dataset using mBART.
madlad Translate the dataset using Google's MADLAD models.
m2m Translate the dataset using Facebook's M2M models.
nllb Translate the dataset using Facebook's NLLB models.
seamless_m4t_v2 Translate the dataset using Facebook's SeamlessM4T-v2 multimodal models.
towerinstruct Translate the dataset using Unbabel's Tower Instruct. Make sure your target language is in the 10 languages supported by the model.
target_lang The target language. Make sure you use language codes defined by the translation model you are using.
checkpoint_location The folder the script will write (JSONized) checkpoint files to. Folder will be created if it doesn't exist.
options:
-h, --help show this help message and exit
--quant8 Optional flag to load the translation model in 8 bits. Decreases memory usage, increases running time
--quant4 Optional flag to load the translation model in 4 bits. Decreases memory usage, increases running time
--base_dataset BASE_DATASET
The base dataset to translate, defaults to OpenAssistant/oasst1
--base_dataset_text_field BASE_DATASET_TEXT_FIELD
The base dataset's column name containing the actual text to translate. Defaults to text
--base_dataset_lang_field BASE_DATASET_LANG_FIELD
The base dataset's column name containing the language the source text was written in. Defaults to lang
--checkpoint_n CHECKPOINT_N
An integer representing how often a checkpoint file will be written out. To start off, 400 is a reasonable number.
--batch_size BATCH_SIZE
The batch size for a single translation model. Adjust based on your GPU capacity. Default is 10.
--max_length MAX_LENGTH
How much tokens to generate at most. More tokens might be more accurate for lengthy input but creates a risk of running out of memory. Default is unlimited.
--cpu Forces usage of CPU. By default GPU is taken if available.
--source_lang SOURCE_LANG
Source language to select from OASST based on lang property of dataset
หากคุณต้องการพารามิเตอร์เพิ่มเติมสำหรับโมเดลการแปลต่างๆ ให้รัน:
python translate.py [MODEL] -h
อย่าลืมระบุพารามิเตอร์เฉพาะรุ่นก่อนที่คุณจะระบุพารามิเตอร์ทั่วไปจากรายการด้านบน ตัวอย่างการโทร:
# Using M2M with 4bit quantization and differen batch sizes to translate Dutch
python translate.py m2m nl ./output_nl --quant4 --batch_size 20
# Using madlad 7B with 8bit quantization for German with different max_length
python translate.py madlad --model_size 7b de ./output_de --quant8 --batch_size 5 --max_length 512
# Be sure to use target language codes that the model you use understands
python translate.py mbart xh_ZA ./output_xhosa
python translate.py nllb nld_Latn ./output_nl
HF_TOKEN
ตามเอกสารประกอบ usage: combine_checkpoints.py [-h] input_folder output_location
Combine checkpoint files from translation.
positional arguments:
input_folder The checkpoint folder used in translation, with the target language appended.
Example: "./output_nl".
output_location Where to write the Huggingface Dataset. Can be a disk location or a Huggingface
Dataset repository.
options:
-h, --help show this help message and exit
usage: finetune.py [-h] [--base_model BASE_MODEL] [--base_dataset_text_field BASE_DATASET_TEXT_FIELD] [--base_dataset_rank_field BASE_DATASET_RANK_FIELD] [--base_dataset_id_field BASE_DATASET_ID_FIELD] [--base_dataset_parent_field BASE_DATASET_PARENT_FIELD]
[--base_dataset_role_field BASE_DATASET_ROLE_FIELD] [--quant8] [--noquant] [--max_seq_length MAX_SEQ_LENGTH] [--num_train_epochs NUM_TRAIN_EPOCHS] [--batch_size BATCH_SIZE] [--threads_output_name THREADS_OUTPUT_NAME] [--thread_template THREAD_TEMPLATE]
[--padding PADDING]
tuned_model dataset_name instruction_prompt
Finetune a base instruct/chat model using (Q)LoRA and PEFT
positional arguments:
tuned_model The name of the resulting tuned model.
dataset_name The name of the dataset to use for fine-tuning. This should be the output of the combine_checkpoints script.
instruction_prompt An instruction message added to every prompt given to the chatbot to force it to answer in the target language. Example: "You are a generic chatbot that always answers in English."
options:
-h, --help show this help message and exit
--base_model BASE_MODEL
The base foundation model. Default is "NousResearch/Meta-Llama-3-8B-Instruct".
--base_dataset_text_field BASE_DATASET_TEXT_FIELD
The dataset's column name containing the actual text to translate. Defaults to text
--base_dataset_rank_field BASE_DATASET_RANK_FIELD
The dataset's column name containing the rank of an answer given to a prompt. Defaults to rank
--base_dataset_id_field BASE_DATASET_ID_FIELD
The dataset's column name containing the id of a text. Defaults to message_id
--base_dataset_parent_field BASE_DATASET_PARENT_FIELD
The dataset's column name containing the parent id of a text. Defaults to parent_id
--base_dataset_role_field BASE_DATASET_ROLE_FIELD
The dataset's column name containing the role of the author of the text (eg. prompter, assistant). Defaults to role
--quant8 Finetunes the model in 8 bits. Requires more memory than the default 4 bit.
--noquant Do not quantize the finetuning. Requires more memory than the default 4 bit and optional 8 bit.
--max_seq_length MAX_SEQ_LENGTH
The maximum sequence length to use in finetuning. Should most likely line up with your base model's default max_seq_length. Default is 512.
--num_train_epochs NUM_TRAIN_EPOCHS
Number of epochs to use. 2 is default and has been shown to work well.
--batch_size BATCH_SIZE
The batch size to use in finetuning. Adjust to fit in your GPU vRAM. Default is 4
--threads_output_name THREADS_OUTPUT_NAME
If specified, the threads created in this script for finetuning will also be saved to disk or HuggingFace Hub.
--thread_template THREAD_TEMPLATE
A file containing the thread template to use. Default is threads/template_fefault.txt
--padding PADDING What padding to use, can be either left or right.
6.1 [ทางเลือก] ปรับแต่งโดยใช้ DPO (คล้ายกับ RLHF)
usage: finetune_dpo.py [-h] [--base_model BASE_MODEL] [--base_dataset_text_field BASE_DATASET_TEXT_FIELD] [--base_dataset_rank_field BASE_DATASET_RANK_FIELD] [--base_dataset_id_field BASE_DATASET_ID_FIELD] [--base_dataset_parent_field BASE_DATASET_PARENT_FIELD] [--quant8]
[--noquant] [--max_seq_length MAX_SEQ_LENGTH] [--max_prompt_length MAX_PROMPT_LENGTH] [--num_train_epochs NUM_TRAIN_EPOCHS] [--batch_size BATCH_SIZE] [--threads_output_name THREADS_OUTPUT_NAME] [--thread_template THREAD_TEMPLATE] [--max_steps MAX_STEPS]
[--padding PADDING]
tuned_model dataset_name instruction_prompt
Finetune a base instruct/chat model using (Q)LoRA and PEFT using DPO (RLHF)
positional arguments:
tuned_model The name of the resulting tuned model.
dataset_name The name of the dataset to use for fine-tuning. This should be the output of the combine_checkpoints script.
instruction_prompt An instruction message added to every prompt given to the chatbot to force it to answer in the target language. Example: "You are a generic chatbot that always answers in English."
options:
-h, --help show this help message and exit
--base_model BASE_MODEL
The base foundation model. Default is "NousResearch/Meta-Llama-3-8B-Instruct".
--base_dataset_text_field BASE_DATASET_TEXT_FIELD
The dataset's column name containing the actual text to translate. Defaults to text
--base_dataset_rank_field BASE_DATASET_RANK_FIELD
The dataset's column name containing the rank of an answer given to a prompt. Defaults to rank
--base_dataset_id_field BASE_DATASET_ID_FIELD
The dataset's column name containing the id of a text. Defaults to message_id
--base_dataset_parent_field BASE_DATASET_PARENT_FIELD
The dataset's column name containing the parent id of a text. Defaults to parent_id
--quant8 Finetunes the model in 8 bits. Requires more memory than the default 4 bit.
--noquant Do not quantize the finetuning. Requires more memory than the default 4 bit and optional 8 bit.
--max_seq_length MAX_SEQ_LENGTH
The maximum sequence length to use in finetuning. Should most likely line up with your base model's default max_seq_length. Default is 512.
--max_prompt_length MAX_PROMPT_LENGTH
The maximum length of the prompts to use. Default is 512.
--num_train_epochs NUM_TRAIN_EPOCHS
Number of epochs to use. 2 is default and has been shown to work well.
--batch_size BATCH_SIZE
The batch size to use in finetuning. Adjust to fit in your GPU vRAM. Default is 4
--threads_output_name THREADS_OUTPUT_NAME
If specified, the threads created in this script for finetuning will also be saved to disk or HuggingFace Hub.
--thread_template THREAD_TEMPLATE
A file containing the thread template to use. Default is threads/template_fefault.txt
--max_steps MAX_STEPS
The maximum number of steps to run DPO for. Default is -1 which will run the data through fully for the number of epochs but this will be very time-consuming.
--padding PADDING What padding to use, can be either left or right.
6.1 [ทางเลือก] ปรับแต่งโดยใช้ ORPO (คล้ายกับ RLHF)
usage: finetune_orpo.py [-h] [--base_model BASE_MODEL] [--base_dataset_text_field BASE_DATASET_TEXT_FIELD] [--base_dataset_rank_field BASE_DATASET_RANK_FIELD] [--base_dataset_id_field BASE_DATASET_ID_FIELD] [--base_dataset_parent_field BASE_DATASET_PARENT_FIELD] [--quant8]
[--noquant] [--max_seq_length MAX_SEQ_LENGTH] [--max_prompt_length MAX_PROMPT_LENGTH] [--num_train_epochs NUM_TRAIN_EPOCHS] [--batch_size BATCH_SIZE] [--threads_output_name THREADS_OUTPUT_NAME] [--thread_template THREAD_TEMPLATE] [--max_steps MAX_STEPS]
[--padding PADDING]
tuned_model dataset_name instruction_prompt
Finetune a base instruct/chat model using (Q)LoRA and PEFT using ORPO (RLHF)
positional arguments:
tuned_model The name of the resulting tuned model.
dataset_name The name of the dataset to use for fine-tuning. This should be the output of the combine_checkpoints script.
instruction_prompt An instruction message added to every prompt given to the chatbot to force it to answer in the target language. Example: "You are a generic chatbot that always answers in English."
options:
-h, --help show this help message and exit
--base_model BASE_MODEL
The base foundation model. Default is "NousResearch/Meta-Llama-3-8B-Instruct".
--base_dataset_text_field BASE_DATASET_TEXT_FIELD
The dataset's column name containing the actual text to translate. Defaults to text
--base_dataset_rank_field BASE_DATASET_RANK_FIELD
The dataset's column name containing the rank of an answer given to a prompt. Defaults to rank
--base_dataset_id_field BASE_DATASET_ID_FIELD
The dataset's column name containing the id of a text. Defaults to message_id
--base_dataset_parent_field BASE_DATASET_PARENT_FIELD
The dataset's column name containing the parent id of a text. Defaults to parent_id
--quant8 Finetunes the model in 8 bits. Requires more memory than the default 4 bit.
--noquant Do not quantize the finetuning. Requires more memory than the default 4 bit and optional 8 bit.
--max_seq_length MAX_SEQ_LENGTH
The maximum sequence length to use in finetuning. Should most likely line up with your base model's default max_seq_length. Default is 512.
--max_prompt_length MAX_PROMPT_LENGTH
The maximum length of the prompts to use. Default is 512.
--num_train_epochs NUM_TRAIN_EPOCHS
Number of epochs to use. 2 is default and has been shown to work well.
--batch_size BATCH_SIZE
The batch size to use in finetuning. Adjust to fit in your GPU vRAM. Default is 4
--threads_output_name THREADS_OUTPUT_NAME
If specified, the threads created in this script for finetuning will also be saved to disk or HuggingFace Hub.
--thread_template THREAD_TEMPLATE
A file containing the thread template to use. Default is threads/template_fefault.txt
--max_steps MAX_STEPS
The maximum number of steps to run ORPO for. Default is -1 which will run the data through fully for the number of epochs but this will be very time-consuming.
--padding PADDING What padding to use, can be either left or right.
usage: run_inference.py [-h] model_name instruction_prompt input
Script to run inference on a tuned model.
positional arguments:
model_name The name of the tuned model that you pushed to Huggingface in the previous
step.
instruction_prompt An instruction message added to every prompt given to the chatbot to force
it to answer in the target language.
input The actual chat input prompt. The script is only meant for testing purposes
and exits after answering.
options:
-h, --help show this help message and exit
ฉันจะรู้ได้อย่างไรว่าควรเลือกแบบจำลองการแปลใดสำหรับภาษาเป้าหมายของฉัน
เราช่วยคุณได้ โดยไม่ต้องใช้สคริปต์ benchmark.py
ซึ่งช่วยคาดเดาได้ดี (ชุดข้อมูลที่เราใช้เหมือนกับโมเดล OPUS ที่ได้รับการฝึกฝน ดังนั้นผลลัพธ์ที่ได้จึงเป็นที่ชื่นชอบสำหรับ OPUS เสมอ) สำหรับการใช้งาน โปรดดูความช่วยเหลือของสคริปต์ด้านล่างนี้ โมเดลจะถูกโหลดในรูปแบบการวัดปริมาณ 4 บิต และรันบนตัวอย่างเล็กๆ ของชุดย่อยของหนังสือ OPUS
ตรวจสอบให้แน่ใจว่าใช้ภาษาที่เกิดขึ้นบ่อยที่สุดในชุดข้อมูลฐานของคุณเป็น source_ language และภาษาการแปลเป้าหมายของคุณเป็น target_ language ตัวอย่างเช่น สำหรับ OASST1 ต้องแน่ใจว่ารัน en
และ es
เป็นภาษาต้นฉบับเป็นอย่างน้อย
usage: benchmark.py [-h] [--cpu] [--start START] [--n N] [--max_length MAX_LENGTH] source_language target_language included_models
Benchmark all the different translation models for a specific source and target language to find out which performs best. This uses 4bit quantization to limit GPU usage. Note:
the outcomes are indicative - you cannot assume corretness of the BLEU and CHRF scores but you can compare models against each other relatively.
positional arguments:
source_language The source language you want to test for. Check your dataset to see which occur most prevalent or use English as a good start.
target_language The source language you want to test for. This should be the language you want to apply the translate script on. Note: in benchmark, we use 2-character
language codes, in constrast to translate.py where you need to specify whatever your model expects.
included_models Comma-separated list of models to include. Allowed values are: opus, m2m_418m, m2m_1.2b, madlad_3b, madlad_7b, madlad_10b, madlad_7bbt, mbart,
nllb_distilled600m, nllb_1.3b, nllb_distilled1.3b, nllb_3.3b, seamless
options:
-h, --help show this help message and exit
--cpu Forces usage of CPU. By default GPU is taken if available.
--start START The starting offset to include sentences from the OPUS books dataset from. Defaults to 0.
--n N The number of sentences to benchmark on. Defaults to 100.
--max_length MAX_LENGTH
How much tokens to generate at most. More tokens might be more accurate for lengthy input but creates a risk of running out of memory. Default is 512.
เราได้สร้างและจะสร้างชุดข้อมูลและโมเดลจำนวนมากต่อไปแล้ว ต้องการช่วยทำให้ LLM เป็นประชาธิปไตยหรือไม่? โคลน Repo และสร้างชุดข้อมูลและโมเดลสำหรับภาษาอื่น จากนั้นสร้าง PR
ภาษาดัตช์ LearnLing/oasst1_nl | ภาษาสเปนความเข้าใจLing/oasst1_es | ภาษาฝรั่งเศสความเข้าใจLing/oasst1_fr | ภาษาเยอรมันความเข้าใจLing/oasst1_de |
คาตาลัน xaviviro/oasst1_ca | ภาษาโปรตุเกสความเข้าใจLing/oasst1_pt | ภาษาอาหรับ HeshamHaroon/oasst-arabic | ภาษาอิตาลีความเข้าใจLing/oasst1_it |
ภาษารัสเซียความเข้าใจLing/oasst1_ru | ภาษาฮินดีความเข้าใจLing/oasst1_hi | ความเข้าใจภาษาจีนLing/oasst1_zh | คริสเตียนโปแลนด์/oasst1_pl |
ความเข้าใจภาษาญี่ปุ่นLing/oasst1_jap | บาสก์ เซซเปเลตา/oasst1_eu | เบงกาลี LearnLing/oasst1_bn | ตุรกีความเข้าใจLing/oasst1_tr |
ตรวจสอบให้แน่ใจว่าคุณมีสิทธิ์เข้าถึงโมเดล LLaMa3-8B ของ Meta และตั้งค่า HF_TOKEN ของคุณก่อนที่จะใช้โมเดลเหล่านี้
LearnLing/Llama-3-8B-Instruct-nl ดัตช์ | LearnLing/Llama-3-8B-Instruct-es ภาษาสเปน | LearnLing/Llama-3-8B-Instruct-fr ภาษาฝรั่งเศส | LearnLing/Llama-3-8B-Instruct-de ภาษาเยอรมัน |
LearnLing/Llama-3-8B-Instruct-pt ภาษาโปรตุเกส | LearnLing/Llama-3-8B-สอนภาษาอิตาลี | LearnLing/Llama-3-8B-Instruct-สวัสดีภาษาฮินดี | LearnLing/Llama-3-8B-Instruct-ru รัสเซีย |
ภาษาดัตช์ LearnLing/oasst1_nl_threads | ภาษาสเปนทำความเข้าใจLing/oasst1_es_threads | ภาษาฝรั่งเศส LearnLing/oasst1_fr_threads | ภาษาเยอรมัน LearnLing/oasst1_de_threads |
คาตาลัน xaviviro/oasst1_ca_threads | ภาษาโปรตุเกส LearnLing/oasst1_pt_threads | ภาษาอาหรับ HeshamHaroon/oasst-arabic_threads | ภาษาอิตาลีความเข้าใจ Ling/oasst1_it_threads |
ภาษารัสเซียความเข้าใจ Ling/oasst1_ru_threads | ภาษาฮินดีความเข้าใจ Ling/oasst1_hi_threads | ความเข้าใจภาษาจีน Ling/oasst1_zh_threads | คริสเตียนโปแลนด์/oasst1_pl_threads |
ภาษาญี่ปุ่น LearnLing/oasst1_jap_threads | บาสก์ xezpeleta/oasst1_eu_threads | เบงกาลี LearnLing/oasst1_bn_threads | ตุรกี LearnLing/oasst1_tr_threads |
LearnLing/llama-2-7b-chat-nl ดัตช์ | LearnLing/llama-2-7b-chat-es ภาษาสเปน | LearnLing/llama-2-7b-chat-fr ภาษาฝรั่งเศส | เข้าใจLing/llama-2-7b-chat-de ภาษาเยอรมัน |
xaviviro/llama-2-7b-chat-ca คาตาลัน | LearnLing/llama-2-7b-chat-pt ภาษาโปรตุเกส | HeshamHaroon/llama-2-7b-chat-ar ภาษาอาหรับ | เข้าใจLing/llama-2-7b-chat-it ภาษาอิตาลี |
เข้าใจLing/llama-2-7b-chat-ru รัสเซีย | LearnLing/llama-2-7b-chat-hi ภาษาฮินดี | เข้าใจLing/llama-2-7b-chat-zh ภาษาจีน | chrystians/llama-2-7b-chat-pl-polish-polski โปแลนด์ |
xezpeleta/llama-2-7b-chat-eu บาสก์ | LearnLing/llama-2-7b-chat-bn เบงกาลี | LearnLing/llama-2-7b-chat-tr ภาษาตุรกี |
LearnLing/Mistral-7B-Instruct-v0.2-nl ดัตช์ | LearnLing/Mistral-7B-Instruct-v0.2-es ภาษาสเปน | LearnLing/Mistral-7B-Instruct-v0.2-de ภาษาเยอรมัน |
LearnLing/llama-2-13b-chat-nl ดัตช์ | LearnLing/llama-2-13b-chat-es ภาษาสเปน | LearnLing/llama-2-13b-chat-fr ภาษาฝรั่งเศส |
LearnLing/Mixtral-8x7B-Instruct-nl ดัตช์ |
[INST] <
[INST] <[INST] Hoeveel inwoners heeft die stad? [/INST] 850 duizend inwoners (2023)
[INST] <[INST] Hoeveel inwoners heeft die stad? [/INST] 850 duizend inwoners (2023)[INST] In welke provincie ligt die stad? [/INST] In de provincie Noord-Holland
[INST] <
ถาม: เหตุใดคุณจึงแปลชุดข้อมูล OASST1/2 แบบเต็มก่อน การแปลเฉพาะกระทู้ที่มีอันดับสูงสุดจะไม่เร็วกว่าหรือ?
ตอบ: แม้ว่าคุณจะได้รับปริมาณงานได้ค่อนข้างมากในแง่ของเวลาการประมวลผลโดยการสร้างเธรดก่อนแล้วจึงแปล แต่เราจัดเตรียมการแปล OASST1/2 เต็มรูปแบบให้กับชุมชน เนื่องจากเราเชื่อว่าสิ่งเหล่านี้จะมีประโยชน์ได้ด้วยตัวเอง
ถาม: การปรับแต่งทำงานได้ดีแค่ไหนเมื่อเทียบกับ vanilla LLaMa3?
ตอบ: แม้ว่าเราจะไม่มีเกณฑ์มาตรฐานที่เป็นทางการ แต่การให้ LLaMa3 พูดภาษาอื่นนอกเหนือจากภาษาอังกฤษอย่างสม่ำเสมอตั้งแต่แรกนั้นถือเป็นเรื่องท้าทายหรือเป็นไปไม่ได้ ภาษาที่ไม่ใช่ภาษาอังกฤษที่ผลิตขึ้นมักจะถูกไวยากรณ์ผิด การปรับแต่งของเราไม่แสดงพฤติกรรมนี้
ถาม: ฉันสามารถใช้เฟรมเวิร์กอื่นเพื่อปรับแต่งอย่างละเอียดได้หรือไม่
ตอบ: ได้ เราใช้ Axolotl ในการฝึกอบรมเกี่ยวกับการตั้งค่า multi-GPU
ถาม: ฉันสามารถผสมโมเดลการแปลที่แตกต่างกันได้หรือไม่
ตอบ: แน่นอน เราคิดว่าการแปลหลายโมเดลอาจเพิ่มประสิทธิภาพด้วยซ้ำ คุณสามารถดำเนินการนี้ได้โดยการหยุดการแปลก่อนเวลาและดำเนินการต่อจากจุดตรวจสอบโดยการรันสคริปต์การแปลใหม่โดยใช้โมเดลการแปลอื่น
เรากำลังมองหาเงินทุนเพื่อทำให้ AI เป็นประชาธิปไตยและพัฒนาแอปพลิเคชันให้ก้าวหน้า ติดต่อเราที่ [email protected] หากคุณต้องการลงทุน