- 2 มี.ค. 2024 การเปิดตัวข้อมูลการทดสอบสำหรับเกณฑ์มาตรฐาน IMHI อย่างเต็มรูปแบบ
- 1 กุมภาพันธ์ 2024 เอกสาร MentaLLaMA ของเรา: "MentaLLaMA: การวิเคราะห์สุขภาพจิตที่ตีความได้บนโซเชียลมีเดียพร้อมแบบจำลองภาษาขนาดใหญ่" ได้รับการยอมรับโดย WWW 2024!
- 31 ต.ค. 2023 เราเปิดตัวโมเดล MentaLLaMA-33B-lora ซึ่งเป็น MentaLLaMA รุ่น 33B ที่ใช้ Vicuna-33B และชุดข้อมูล IMHI เต็มรูปแบบ แต่ได้รับการฝึกอบรมกับ LoRA เนื่องจากทรัพยากรในการคำนวณ!
- 13 ต.ค. 2023 เราเผยแพร่ข้อมูลการฝึกอบรมสำหรับชุดข้อมูลต่อไปนี้: DR, dreaddit, SAD, MultiWD และ IRF มากขึ้นที่จะมาคอยติดตาม!
- 7 ต.ค. 2023 เอกสารการประเมินของเรา: "สู่การวิเคราะห์สุขภาพจิตที่ตีความได้ด้วยแบบจำลองภาษาขนาดใหญ่" ได้รับการยอมรับจากการประชุมหลัก EMNLP 2023 ว่าเป็นรายงานขนาดยาว!
พื้นที่เก็บข้อมูลนี้และเนื้อหามีไว้เพื่อ การวิจัยที่ไม่ใช่ทางคลินิกเท่านั้น ไม่มีเนื้อหาใดที่ถือเป็นการวินิจฉัยหรือคำแนะนำที่แท้จริง และผู้ขอความช่วยเหลือควรได้รับความช่วยเหลือจากจิตแพทย์มืออาชีพหรือผู้ประกอบวิชาชีพทางคลินิก ไม่มีการรับประกันทั้งโดยชัดแจ้งหรือโดยนัยเกี่ยวกับความถูกต้อง ความสมบูรณ์ หรือประโยชน์ของการคาดการณ์และคำอธิบาย ผู้เขียนและผู้มีส่วนร่วมจะไม่รับผิดชอบต่อข้อผิดพลาด การละเว้น หรือผลที่ตามมาใดๆ ที่เกิดขึ้นจากการใช้ข้อมูลในที่นี้ ผู้ใช้ควรใช้วิจารณญาณของตนเองและปรึกษาผู้เชี่ยวชาญก่อนทำการตัดสินใจที่เกี่ยวข้องกับทางคลินิก การใช้ซอฟต์แวร์และข้อมูลที่มีอยู่ในที่เก็บข้อมูลนี้ถือเป็นความเสี่ยงของผู้ใช้เองทั้งหมด
ชุดข้อมูลดิบที่รวบรวมเพื่อสร้างชุดข้อมูล IMHI ของเรามาจากแพลตฟอร์มโซเชียลมีเดียสาธารณะ เช่น Reddit และ Twitter และเราปฏิบัติตามโปรโตคอลความเป็นส่วนตัวและหลักจริยธรรมอย่างเคร่งครัดเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ และรับประกันว่าการไม่เปิดเผยตัวตนจะถูกนำไปใช้อย่างเหมาะสมในข้อความที่เกี่ยวข้องกับสุขภาพจิตทั้งหมด . นอกจากนี้ เพื่อลดการใช้ในทางที่ผิด ตัวอย่างทั้งหมดที่ให้ไว้ในรายงานของเราจะถูกถอดความและทำให้สับสนโดยใช้แผนการปลอมระดับปานกลาง
นอกจากนี้ การศึกษาล่าสุดระบุว่า LLM อาจก่อให้เกิดอคติที่อาจเกิดขึ้น เช่น ช่องว่างทางเพศ ในขณะเดียวกัน ผลการคาดการณ์ที่ไม่ถูกต้อง คำอธิบายที่ไม่เหมาะสม และลักษณะทั่วไปที่มากเกินไป ยังแสดงให้เห็นถึงความเสี่ยงที่อาจเกิดขึ้นของ LLM ในปัจจุบัน ดังนั้นจึงยังคงมีความท้าทายมากมายในการนำแบบจำลองไปใช้กับระบบติดตามสุขภาพจิตในสถานการณ์จริง
การใช้หรือการเข้าถึงข้อมูลในพื้นที่เก็บข้อมูลนี้ แสดงว่าคุณตกลงที่จะชดใช้ ปกป้อง และไม่ทำอันตรายต่อผู้เขียน ผู้มีส่วนร่วม และองค์กรหรือบุคคลในเครือใด ๆ จากการเรียกร้องหรือความเสียหายใด ๆ และทั้งหมด
โครงการนี้นำเสนอความพยายามของเราในการวิเคราะห์สุขภาพจิตที่สามารถตีความได้ด้วยแบบจำลองภาษาขนาดใหญ่ (LLM) ในงานช่วงแรกๆ เราจะประเมินประสิทธิภาพการทำงานเป็นศูนย์หรือไม่กี่ช็อตของ LLM ล่าสุด เช่น ChatGPT และ GPT-4 อย่างครอบคลุมในการสร้างคำอธิบายสำหรับการวิเคราะห์สุขภาพจิต จากการค้นพบนี้ เราได้สร้างชุดข้อมูล Interpretable Mental Health Instruction (IMHI) พร้อมตัวอย่างคำสั่ง 105,000 ตัวอย่าง ซึ่งเป็นชุดข้อมูลการปรับแต่งคำสั่งแบบหลายงานและหลายแหล่งที่มาชุดแรกสำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้บนโซเชียลมีเดีย จากชุดข้อมูล IMHI เราขอเสนอ MentaLLaMA ซึ่งเป็นคำสั่งแบบโอเพ่นซอร์สตัวแรกที่ติดตาม LLM สำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้ MentaLLaMA สามารถทำการวิเคราะห์สุขภาพจิตจากข้อมูลโซเชียลมีเดีย และสร้างคำอธิบายคุณภาพสูงสำหรับการคาดการณ์ได้ นอกจากนี้เรายังแนะนำเกณฑ์มาตรฐานการประเมินแบบองค์รวมตัวแรกสำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้ด้วยตัวอย่างทดสอบ 19K ซึ่งครอบคลุม 8 งานและชุดทดสอบ 10 ชุด การมีส่วนร่วมของเรานำเสนอในเอกสาร 2 ฉบับนี้:
กระดาษ MentaLLaMA | กระดาษประเมินผล
เรามีจุดตรวจสอบแบบจำลอง 5 จุดที่ได้รับการประเมินในรายงาน MentaLLaMA:
MentaLLaMA-33B-lora: โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดตามโมเดลพื้นฐาน Vicuna-33B และข้อมูลการปรับแต่งคำสั่ง IMHI เต็มรูปแบบ ข้อมูลการฝึกอบรมครอบคลุมงานวิเคราะห์สุขภาพจิต 8 งาน แบบจำลองสามารถปฏิบัติตามคำแนะนำเพื่อทำการวิเคราะห์สุขภาพจิตที่แม่นยำ และสร้างคำอธิบายคุณภาพสูงสำหรับการคาดการณ์ เนื่องจากข้อจำกัดของทรัพยากรในการคำนวณ เราจึงฝึกโมเดล MentaLLaMA-33B ด้วยเทคนิค PeFT LoRA ซึ่งลดการใช้หน่วยความจำลงอย่างมาก
MentaLLaMA-chat-13B: โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดโดยอิงตามโมเดลพื้นฐาน Meta LLaMA2-chat-13B และข้อมูลการปรับคำสั่ง IMHI แบบเต็ม ข้อมูลการฝึกอบรมครอบคลุมงานวิเคราะห์สุขภาพจิต 8 งาน แบบจำลองสามารถปฏิบัติตามคำแนะนำเพื่อทำการวิเคราะห์สุขภาพจิตที่แม่นยำ และสร้างคำอธิบายคุณภาพสูงสำหรับการคาดการณ์ เนื่องจากขนาดของแบบจำลอง การอนุมานจึงค่อนข้างช้า
MentaLLaMA-แชท-7B| MentaLLaMA-chat-7B-hf: โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดโดยอิงตามโมเดลพื้นฐาน Meta LLaMA2-chat-7B และข้อมูลการปรับแต่งคำสั่ง IMHI แบบเต็ม ข้อมูลการฝึกอบรมครอบคลุมงานวิเคราะห์สุขภาพจิต 8 งาน แบบจำลองสามารถปฏิบัติตามคำแนะนำเพื่อทำการวิเคราะห์สุขภาพจิตและสร้างคำอธิบายสำหรับการคาดการณ์ได้
MentalBART: โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดโดยอิงจากโมเดลพื้นฐานขนาดใหญ่ของ BART และข้อมูลการเติมเต็ม IMHI แบบเต็ม ข้อมูลการฝึกอบรมครอบคลุมงานวิเคราะห์สุขภาพจิต 8 งาน แบบจำลองไม่สามารถปฏิบัติตามคำแนะนำได้ แต่สามารถทำการวิเคราะห์สุขภาพจิตและสร้างคำอธิบายในลักษณะที่เสร็จสมบูรณ์ได้ ขนาดที่เล็กกว่าของรุ่นนี้ช่วยให้อนุมานได้เร็วขึ้นและปรับใช้ได้ง่ายขึ้น
MentalT5: โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดตามโมเดลพื้นฐานขนาดใหญ่ T5 และข้อมูลการเสร็จสิ้น IMHI เต็มรูปแบบ แบบจำลองไม่สามารถปฏิบัติตามคำแนะนำได้ แต่สามารถทำการวิเคราะห์สุขภาพจิตและสร้างคำอธิบายในลักษณะที่เสร็จสมบูรณ์ได้ ขนาดที่เล็กกว่าของรุ่นนี้ช่วยให้อนุมานได้เร็วขึ้นและปรับใช้ได้ง่ายขึ้น
คุณสามารถใช้โมเดล MentaLLaMA ในโปรเจ็กต์ Python ของคุณกับไลบรารี Hugging Face Transformers นี่คือตัวอย่างง่ายๆ ของวิธีการโหลดโมเดลที่ได้รับการปรับแต่งอย่างสมบูรณ์:
from transformers import LlamaTokenizer , LlamaForCausalLM
tokenizer = LlamaTokenizer . from_pretrained ( MODEL_PATH )
model = LlamaForCausalLM . from_pretrained ( MODEL_PATH , device_map = 'auto' )
ในตัวอย่างนี้ LlamaTokenizer ใช้เพื่อโหลดโทเค็น และใช้ LlamaForCausalLM เพื่อโหลดโมเดล อาร์กิวเมนต์ device_map='auto'
ใช้เพื่อใช้ GPU โดยอัตโนมัติ หากมี MODEL_PATH
หมายถึงเส้นทางการบันทึกโมเดลของคุณ
หลังจากโหลดโมเดลแล้ว คุณสามารถสร้างการตอบกลับได้ นี่คือตัวอย่าง:
prompt = 'Consider this post: "work, it has been a stressful week! hope it gets better." Question: What is the stress cause of this post?'
inputs = tokenizer ( prompt , return_tensors = "pt" )
# Generate
generate_ids = model . generate ( inputs . input_ids , max_length = 2048 )
tokenizer . batch_decode ( generate_ids , skip_special_tokens = True , clean_up_tokenization_spaces = False )[ 0 ]
การเรียกใช้โค้ดเหล่านี้บน MentaLLaMA-chat-13B ได้รับการตอบกลับดังต่อไปนี้:
Answer: This post shows the stress cause related to work. Reasoning: The post explicitly mentions work as being stressful and expresses a hope that it gets better. This indicates that the poster is experiencing stress in relation to their work, suggesting that work is the primary cause of their stress in this instance.
สำหรับโมเดล MentaLLaMA-33B-lora เนื่องจากโมเดลของเราใช้โมเดลพื้นฐาน Vicuna-33B คุณจึงต้องดาวน์โหลดโมเดล Vicuna-33B ที่นี่ก่อน และวางไว้ใต้ . ./vicuna-33B
vicuna-33B dir จากนั้นดาวน์โหลดตุ้มน้ำหนัก MentaLLaMA-33B-lora และวางไว้ใต้ ./MentaLLaMA-33B-lora
MentaLLaMA-33B-lora dir
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer
peft_model = AutoPeftModelForCausalLM . from_pretrained ( "./MentaLLaMA-33B-lora" )
tokenizer = AutoTokenizer . from_pretrained ( './MentaLLaMA-33B-lora' )
หลังจากโหลดโมเดลแล้ว คุณสามารถสร้างการตอบกลับได้ นี่คือตัวอย่าง:
input_data = [ "Consider this post: I'm finally dead inside and I don't know how to feel about it Fear, Anger, Sadness... It's all gone. I just feel numb. Question: Does the poster suffer from depression?" ]
inputs = tokenizer ( input_data , return_tensors = "pt" , padding = True )
input_ids = inputs . input_ids
generate_ids = peft_model . generate ( ** inputs , max_length = 2048 )
truc_ids = generate_ids [ 0 ][ len ( input_ids [ 0 ]) :]
response = tokenizer . decode ( truc_ids , skip_special_tokens = True , spaces_between_special_tokens = False )
การเรียกใช้โค้ดเหล่านี้บน MentaLLaMA-33B-lora ได้รับการตอบกลับดังต่อไปนี้:
Reasoning: Yes, the poster suffers from depression. Reasoning: The poster's statement expresses a sense of emotional numbness and a lack of emotional response. This is a common symptom of depression, as individuals with depression often experience a diminished ability to feel emotions. The poster also mentions feeling dead inside, which further suggests a lack of emotional connection and a sense of hopelessness, both of which are common in depression. Overall, the language used and the description of emotional numbness align with symptoms commonly associated with depression.
เรารวบรวมข้อมูลดิบจากชุดข้อมูลที่มีอยู่ 10 ชุด ซึ่งครอบคลุมงานการวิเคราะห์สุขภาพจิต 8 งาน และถ่ายโอนข้อมูลเหล่านั้นไปยังข้อมูลทดสอบสำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้ สถิติเกี่ยวกับชุดทดสอบ 10 ชุดมีดังนี้:
ชื่อ | งาน | การแยกข้อมูล | แหล่งข้อมูล | คำอธิบายประกอบ | ปล่อยแล้ว |
---|---|---|---|---|---|
ดร | การตรวจจับภาวะซึมเศร้า | 1,003/430/405 | เรดดิต | ป้ายกำกับที่อ่อนแอ | ใช่ |
ซีแอลพี | การตรวจจับภาวะซึมเศร้า | 456/196/299 | เรดดิต | คำอธิบายประกอบของมนุษย์ | ยัง |
กลัว | การตรวจจับความเครียด | 2,837/300/414 | เรดดิต | คำอธิบายประกอบของมนุษย์ | ใช่ |
สวม | การตรวจหาความผิดปกติทางจิต | 34,822/8,705/10,882 | เรดดิต | ป้ายกำกับที่อ่อนแอ | ยัง |
ที-ไซด์ | การตรวจหาความผิดปกติทางจิต | 3,071/767/959 | ทวิตเตอร์ | ป้ายกำกับที่อ่อนแอ | ยัง |
เศร้า | การตรวจหาสาเหตุความเครียด | 5,547/616/684 | เอสเอ็มเอส | คำอธิบายประกอบของมนุษย์ | ใช่ |
แคมส์ | การตรวจหาสาเหตุภาวะซึมเศร้า/การฆ่าตัวตาย | 2,207/320/625 | เรดดิต | คำอธิบายประกอบของมนุษย์ | ยัง |
ความเหงา | การตรวจจับความเหงา | 2,463/527/531 | เรดดิต | คำอธิบายประกอบของมนุษย์ | ยัง |
มัลติWD | การตรวจจับมิติด้านสุขภาพ | 15,744/1,500/2,441 | เรดดิต | คำอธิบายประกอบของมนุษย์ | ใช่ |
ไออาร์เอฟ | การตรวจหาปัจจัยเสี่ยงระหว่างบุคคล | 3,943/985/2,113 | เรดดิต | คำอธิบายประกอบของมนุษย์ | ใช่ |
เราขอแนะนำ IMHI ซึ่งเป็นชุดข้อมูลการปรับแต่งคำสั่งแบบหลายงานและหลายแหล่งที่มาชุดแรกสำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้บนโซเชียลมีเดีย ขณะนี้เราเผยแพร่ข้อมูลการฝึกอบรมและการประเมินผลจากชุดต่อไปนี้: DR, dreaddit, SAD, MultiWD และ IRF ข้อมูลคำสั่งถูกใส่ไว้ด้านล่าง
/train_data/instruction_data
รายการต่างๆ ง่ายต่อการปฏิบัติตาม: แถว query
หมายถึงคำถาม และแถว gpt-3.5-turbo
หมายถึงการคาดการณ์และคำอธิบายที่ได้รับการแก้ไขและประเมินผลจาก ChatGPT gpt-3.5-turbo
ใช้เป็นคำตอบสีทองสำหรับการประเมิน
เพื่ออำนวยความสะดวกในการฝึกอบรมโมเดลที่ไม่มีความสามารถในการปฏิบัติตามคำสั่ง เรายังเผยแพร่ข้อมูลการทดสอบบางส่วนสำหรับการทำให้ IMHI เสร็จสมบูรณ์ด้วย ข้อมูลถูกใส่ไว้ด้านล่าง
/train_data/complete_data
เค้าโครงไฟล์เหมือนกันกับข้อมูลการปรับแต่งคำสั่ง
เราขอแนะนำเกณฑ์มาตรฐานการประเมินแบบองค์รวมตัวแรกสำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้ด้วยตัวอย่างการทดสอบ 19K ข้อมูลการทดสอบทั้งหมดได้รับการเผยแพร่แล้ว ข้อมูลคำสั่งถูกใส่ไว้ด้านล่าง
/test_data/test_instruction
รายการต่างๆ ง่ายต่อการปฏิบัติตาม: แถว query
หมายถึงคำถาม และแถว gpt-3.5-turbo
หมายถึงการคาดการณ์และคำอธิบายที่ได้รับการแก้ไขและประเมินผลจาก ChatGPT gpt-3.5-turbo
ใช้เป็นคำตอบสีทองสำหรับการประเมิน
เพื่ออำนวยความสะดวกในการทดสอบกับโมเดลที่ไม่มีความสามารถในการปฏิบัติตามคำสั่ง เรายังเผยแพร่ข้อมูลการทดสอบบางส่วนสำหรับการทำให้ IMHI เสร็จสมบูรณ์ด้วย ข้อมูลถูกใส่ไว้ด้านล่าง
/test_data/test_complete
เค้าโครงไฟล์เหมือนกันกับข้อมูลการปรับแต่งคำสั่ง
หากต้องการประเมินโมเดลที่ผ่านการฝึกอบรมของคุณบนเกณฑ์มาตรฐาน IMHI ขั้นแรกให้โหลดโมเดลของคุณและสร้างคำตอบสำหรับรายการทดสอบทั้งหมด เราใช้ไลบรารี Hugging Face Transformers เพื่อโหลดโมเดล สำหรับโมเดลที่ใช้ LLaMA คุณสามารถสร้างการตอบกลับด้วยคำสั่งต่อไปนี้:
cd src
python IMHI.py --model_path MODEL_PATH --batch_size 8 --model_output_path OUTPUT_PATH --test_dataset IMHI --llama --cuda
MODEL_PATH
และ OUTPUT_PATH
แสดงถึงเส้นทางการบันทึกโมเดลและเส้นทางการบันทึกสำหรับการตอบกลับที่สร้างขึ้น การตอบสนองที่สร้างขึ้นทั้งหมดจะอยู่ภายใต้ ../model_output
ตัวอย่างที่สร้างขึ้นบางส่วนจะแสดงอยู่ใน
./examples/response_generation_examples
คุณยังสามารถประเมินด้วยชุดการทดสอบความสมบูรณ์ของ IMHI ด้วยคำสั่งต่อไปนี้:
cd src
python IMHI.py --model_path MODEL_PATH --batch_size 8 --model_output_path OUTPUT_PATH --test_dataset IMHI-completion --llama --cuda
คุณยังสามารถโหลดโมเดลที่ไม่ได้ขึ้นอยู่กับ LLaMA ได้ด้วยการลบอาร์กิวเมนต์ --llama
ในตัวอย่างที่สร้างขึ้น แถว goldens
แสดงถึงคำอธิบายการอ้างอิง และแถว generated_text
แสดงถึงการตอบสนองที่สร้างขึ้นจากแบบจำลองของคุณ
ตัวชี้วัดการประเมินแรกสำหรับเกณฑ์มาตรฐาน IMHI ของเราคือการประเมินความถูกต้องของการจำแนกประเภทรุ่นรุ่น หากโมเดลของคุณสามารถสร้างการตอบสนองที่สม่ำเสมอได้ ตัวแยกประเภทตามกฎสามารถกำหนดป้ายกำกับให้กับคำตอบแต่ละรายการได้ดี เรามีตัวแยกประเภทตามกฎใน IMHI.py
และคุณสามารถใช้ในระหว่างกระบวนการสร้างการตอบสนองโดยเพิ่มอาร์กิวเมนต์: --rule_calculate
ให้กับคำสั่งของคุณ ตัวแยกประเภทต้องการเทมเพลตต่อไปนี้:
[label] Reasoning: [explanation]
อย่างไรก็ตาม เนื่องจาก LLM ส่วนใหญ่ได้รับการฝึกอบรมเพื่อสร้างการตอบสนองที่หลากหลาย ตัวแยกประเภทป้ายกำกับตามกฎจึงไม่สามารถทำได้ ตัวอย่างเช่น MentaLLaMA สามารถมีการตอบสนองต่อไปนี้สำหรับแบบสอบถาม SAD:
This post indicates that the poster's sister has tested positive for ovarian cancer and that the family is devastated. This suggests that the cause of stress in this situation is health issues, specifically the sister's diagnosis of ovarian cancer. The post does not mention any other potential stress causes, making health issues the most appropriate label in this case.
เพื่อแก้ไขปัญหานี้ ในรายงาน MentaLLaMA ของเรา เราได้ฝึกอบรมตัวแยกประเภทโครงข่ายประสาทเทียม 10 ตัวตาม MentalBERT หนึ่งตัวสำหรับแต่ละชุดข้อมูลดิบที่รวบรวมไว้ ตัวแยกประเภทได้รับการฝึกอบรมให้กำหนดป้ายกำกับการจำแนกประเภทตามคำอธิบาย เราเปิดตัวตัวแยกประเภท 10 รายการนี้เพื่ออำนวยความสะดวกในการประเมินเกณฑ์มาตรฐาน IMHI ในอนาคต
โมเดลที่ผ่านการฝึกอบรมทั้งหมดได้รับความแม่นยำมากกว่า 95% จากข้อมูลการทดสอบ IMHI ก่อนที่คุณจะกำหนดป้ายกำกับ ตรวจสอบให้แน่ใจว่าคุณได้ถ่ายโอนไฟล์เอาต์พุตของคุณในรูปแบบ /exmaples/response_generation_examples
และตั้งชื่อเป็น DATASET.csv
วางไฟล์เอาต์พุตทั้งหมดที่คุณต้องการติดป้ายกำกับไว้ภายใต้ DATA_PATH dir เดียวกัน จากนั้นดาวน์โหลดโมเดลลักษณนามที่เกี่ยวข้องจากลิงก์ต่อไปนี้:
ลิงค์ดาวน์โหลดโมเดล: CAMS, CLP, DR, dreaddit, Irf, ความเหงา, MultiWD, SAD, swmh, t-sid
วางโมเดลที่ดาวน์โหลดทั้งหมดไว้ใต้ MODEL_PATH dir และตั้งชื่อแต่ละโมเดลด้วยชุดข้อมูล ตัวอย่างเช่น โมเดลสำหรับชุดข้อมูล DR ควรอยู่ใต้ /MODEL_PATH/DR
ตอนนี้คุณสามารถรับป้ายกำกับโดยใช้โมเดลเหล่านี้ด้วยคำสั่งต่อไปนี้:
cd src
python label_inference.py --model_path MODEL_PATH --data_path DATA_PATH --data_output_path OUTPUT_PATH --cuda
โดยที่ MODEL_PATH
, DATA_PATH
แสดงถึงโมเดลและข้อมูล dirs ที่คุณระบุ และ OUTPUT_PATH
แสดงถึงเส้นทางเอาต์พุตของคุณ หลังจากประมวลผล ไฟล์เอาต์พุตควรมีรูปแบบตามตัวอย่างใน /examples/label_data_examples
หากคุณหวังจะคำนวณหน่วยเมตริก เช่น คะแนนน้ำหนัก-F1 และความแม่นยำ ให้เพิ่มอาร์กิวเมนต์ --calculate
ลงในคำสั่งด้านบน
ตัวชี้วัดการประเมินที่สองสำหรับเกณฑ์มาตรฐาน IMHI คือการประเมินคุณภาพของคำอธิบายที่สร้างขึ้น ผลลัพธ์ในรายงานการประเมินของเราแสดงให้เห็นว่าคะแนน BART มีความสัมพันธ์ปานกลางกับคำอธิบายประกอบของมนุษย์ใน 4 ด้านการประเมินโดยมนุษย์ และมีประสิทธิภาพเหนือกว่าตัวชี้วัดการประเมินอัตโนมัติอื่นๆ ดังนั้นเราจึงใช้คะแนน BART เพื่อประเมินคุณภาพของคำอธิบายที่สร้างขึ้น โดยเฉพาะอย่างยิ่ง คุณควรสร้างการตอบกลับโดยใช้สคริปต์ IMHI.py
และรับ dir การตอบกลับดังใน examples/response_generation_examples
ขั้นแรก ดาวน์โหลดไดเร็กทอรี BART-score และวางไว้ใต้ /src
จากนั้นดาวน์โหลดจุดตรวจสอบคะแนน BART จากนั้นให้คะแนนคำตอบของคุณด้วยคะแนน BART โดยใช้คำสั่งต่อไปนี้:
cd src
python score.py --gen_dir_name DIR_NAME --score_method bart_score --cuda
DIR_NAME
หมายถึงชื่อ dir ของการตอบกลับที่คุณสร้างขึ้น และควรอยู่ใต้ ../model_output
model_output เรายังมีวิธีให้คะแนนอื่นๆ อีกด้วย คุณสามารถเปลี่ยน --score_method
เป็น 'GPT3_score', 'bert_score', 'bleu', 'rouge' เพื่อใช้เมตริกเหล่านี้ สำหรับคะแนน GPT คุณต้องดาวน์โหลดโปรเจ็กต์และวางไว้ใต้ /src
ก่อน
เราเผยแพร่คำอธิบายประกอบโดยมนุษย์เกี่ยวกับคำอธิบายที่สร้างโดย AI เพื่ออำนวยความสะดวกในการวิจัยในอนาคตเกี่ยวกับการจัดเครื่องมือประเมินอัตโนมัติสำหรับการวิเคราะห์สุขภาพจิตที่ตีความได้ จากผลการประเมินโดยมนุษย์เหล่านี้ เราได้ทดสอบตัวชี้วัดการประเมินอัตโนมัติต่างๆ ที่มีอยู่โดยสัมพันธ์กับความชอบของมนุษย์ ผลลัพธ์ในรายงานการประเมินของเราแสดงให้เห็นว่าคะแนน BART มีความสัมพันธ์ปานกลางกับคำอธิบายประกอบของมนุษย์ในทั้ง 4 ด้าน
ในรายงานการประเมินของเรา เราได้ติดป้ายกำกับชุดย่อยของผลลัพธ์ AIGC ด้วยตนเองสำหรับชุดข้อมูล DR ใน 4 ด้าน ได้แก่ ความคล่องแคล่ว ความครบถ้วน ความน่าเชื่อถือ และโดยรวม คำอธิบายประกอบได้รับการเผยแพร่ใน dir นี้:
/human_evaluation/DR_annotation
โดยที่เราตั้งชื่อคำอธิบายที่สร้างโดย ChatGPT 163 รายการสำหรับชุดข้อมูลการตรวจจับภาวะซึมเศร้า DR ไฟล์ chatgpt_data.csv
มีคำอธิบาย 121 รายการซึ่งจำแนกตาม ChatGPT อย่างถูกต้อง chatgpt_false_data.csv
มีคำอธิบาย 42 รายการที่ ChatGPT จำแนกอย่างไม่ถูกต้อง นอกจากนี้เรายังรวมคำอธิบาย 121 รายการซึ่งจำแนกอย่างถูกต้องตาม InstructionGPT-3 ใน gpt3_data.csv
ในรายงาน MentaLLaMA ของเรา เราได้เชิญผู้เชี่ยวชาญโดเมนหนึ่งคนสาขาวิชาจิตวิทยาเชิงปริมาณมาเขียนคำอธิบายสำหรับโพสต์ที่เลือก 350 โพสต์ (35 โพสต์สำหรับชุดข้อมูลดิบแต่ละชุด) ชุดทองคำใช้เพื่อประเมินความสามารถในการสร้างคำอธิบายของ LLM ในลักษณะอัตโนมัติอย่างแม่นยำ เพื่ออำนวยความสะดวกในการวิจัยในอนาคต เราเผยแพร่คำอธิบายที่เป็นลายลักษณ์อักษรจากผู้เชี่ยวชาญสำหรับชุดข้อมูลต่อไปนี้: DR, dreaddit, SWMH, T-SID, SAD, CAMS, ความเหงา, MultiWD และ IRF (ตัวอย่างละ 35 ตัวอย่าง) ข้อมูลถูกเผยแพร่ใน dir นี้:
/human_evaluation/test_instruction_expert
คำอธิบายที่เป็นลายลักษณ์อักษรจากผู้เชี่ยวชาญได้รับการประมวลผลให้เป็นไปตามรูปแบบเดียวกับชุดข้อมูลทดสอบอื่นๆ เพื่ออำนวยความสะดวกในการประเมินแบบจำลอง คุณสามารถทดสอบแบบจำลองของคุณโดยใช้คำอธิบายสีทองที่ผู้เชี่ยวชาญเขียนขึ้นด้วยคำสั่งที่คล้ายกันในการสร้างการตอบสนอง ตัวอย่างเช่น คุณสามารถทดสอบโมเดลที่ใช้ LLaMA ได้ดังต่อไปนี้:
cd src
python IMHI.py --model_path MODEL_PATH --batch_size 8 --model_output_path OUTPUT_PATH --test_dataset expert --llama --cuda
หากคุณใช้คำอธิบายประกอบโดยมนุษย์หรือการวิเคราะห์ในรายงานการประเมิน โปรดอ้างอิงถึง:
@inproceedings{yang2023towards,
title={Towards interpretable mental health analysis with large language models},
author={Yang, Kailai and Ji, Shaoxiong and Zhang, Tianlin and Xie, Qianqian and Kuang, Ziyan and Ananiadou, Sophia},
booktitle={Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing},
pages={6056--6077},
year={2023}
}
หากคุณใช้ MentaLLaMA ในงานของคุณ โปรดอ้างอิง:
@article{yang2023 MentalLLaMA ,
title={ MentalLLaMA : Interpretable Mental Health Analysis on Social Media with Large Language Models},
author={Yang, Kailai and Zhang, Tianlin and Kuang, Ziyan and Xie, Qianqian and Ananiadou, Sophia},
journal={arXiv preprint arXiv:2309.13567},
year={2023}
}
MentaLLaMA ได้รับอนุญาตภายใต้ [MIT] โปรดดูรายละเอียดเพิ่มเติมในไฟล์ MIT