QiZhenGPT: 오픈 소스 중국어 의료용 대형 언어 모델
이 프로젝트는 Qizhen Medical Knowledge Base에서 구축한 중국 의료 지침 데이터 세트를 사용하고 이를 기반으로 Chinese-LLaMA-Plus-7B, CaMA-13B 및 ChatGLM-6B 모델에서 지침을 미세 조정하여 크게 향상되었습니다. 원하는 결과를 얻기 위해 먼저 약물 지식 Q&A에 대한 평가 데이터 세트를 공개했으며, 이후 질병, 수술, 테스트 등에 대한 Q&A 효과를 최적화하고 응용 프로그램을 확장할 계획입니다. 의사-환자 Q&A 및 의료 기록 자동 생성.
MedCopilot
은启真医学大模型
, Qizhen의 의료 지식 기반 및医疗临床数据
기반으로 개발된 스마트 의료 보조기로서 환자, 의사, 병원 관리를 위한 포괄적인 스마트 지원을 제공하는 것을 목표로 합니다. MedCopilot은 앞선 인공지능 기술과 풍부한 의학지식, 임상데이터를 통합해 의료산업의 새로운 생산력으로 거듭날 것입니다.
MedCopilot이 저장대학교 제2부속병원에 공식 출시되었습니다.
[2024/08/09] MedCopilot 관련 정보를 업데이트합니다.
[2023/06/27] 오픈소스 QiZhen 의료 대형 모델 시험 버전(QiZhen-CaMA-13B-Checkpoint-12400)은 의료 분야의 질병 및 약물에 대한 지식 Q&A의 정확성을 높이는 것을 목표로 합니다.
[2023/06/09] 오픈 소스 QiZhen 의료 대형 모델 시험 버전(QiZhen-CaMA-13B-Checkpoint-6000)은 의료 분야에서 약물 지식 질의응답의 정확성을 향상시키기 위해 설계되었습니다.
[2023/06/02] 오픈소스 QiZhen 의료 대형 모델 시험판(QiZhen-CaMA-13B-Checkpoint-3600)은 의료 분야의 약물 지식 Q&A의 정확성을 높이기 위해 설계되었습니다.
[2023/05/30] 오픈 소스 20k 교육 데이터(이 데이터 세트는 Qizhen Medical Knowledge Base에서 수집 및 편집한 실제 의사-환자 지식 질문 및 답변 데이터에서 나온 것이며 Qizhen Medical Knowledge Base의 약물 텍스트 지식을 기반으로 세미를 통해 제공됩니다. -구조화된 데이터는 특정 질문 템플릿에 의해 구성된 지침 데이터를 설정합니다.
[2023/05/30] 오픈소스 QiZhen 의료 대형 모델 시험 버전(QiZhen-ChatGLM-6B-Checkpoint-2500)은 의료 분야에서 약물 지식 질의응답의 정확성을 높이기 위해 설계되었습니다.
[2023/05/25] 오픈소스 의약품 적응증 평가 데이터 세트;
[2023/05/24] 오픈 소스 QiZhen 의료 대형 모델 시험 버전(QiZhen-중국어-LLaMA-7B-Checkpoint-6000)은 의료 분야에서 약물 지식 질의응답의 정확성을 높이기 위해 설계되었습니다.
[2023/05/23] 오픈소스 QiZhen 의료 대형 모델 시험 버전(QiZhen-중국어-LLaMA-7B-Checkpoint-3500)은 의료 분야의 약물 지식 Q&A의 정확성을 높이기 위해 설계되었습니다.
MedCopilot은 HIS 시스템 및 전자 의료 기록 시스템과 긴밀하게 통합되어 Qizhen Medical 대형 모델을 사용하여 각 시스템의 데이터를 분석하고 그날 의사의 중요한 업무 항목을 자동으로 요약합니다.
MedCopilot은 Qizhen의 의료 지식 기반과 환자 임상 데이터를 결합하여 맞춤형 진단 및 치료 권장 사항을 제공하여 의사가 보다 정확한 의학적 결정을 내릴 수 있도록 돕습니다.
MedCopilot은 국가 의료 품질 정책에 따라 의료 프로세스 데이터를 실시간으로 모니터링하고 잠재적인 문제를 적시에 감지 및 수정하여 전반적인 의료 품질을 향상시킵니다.
MedCopilot은 환자의 진단 및 치료 데이터를 종합적으로 분석하여 규정에 맞는 의료기록 문서를 자동으로 생성함으로써 의사의 반복 업무를 줄이고 업무 효율성을 높여줍니다.
현재 대부분의 오픈 소스 ChatLLM 프로젝트는 다른 모델(예: ChatGPT)에서 생성된 명령 데이터를 사용하므로 필연적으로 데이터 환상 문제가 있으며, 데이터 환상 문제는 실제 시나리오에서 LLM의 적용 및 확장에 심각한 영향을 미칩니다. 따라서 의료 분야의 지식 질의 응답의 정확성을 높이기 위해 본 프로젝트에서는 다음과 같은 방법을 사용하여 지시 데이터 세트를 구성합니다.
560K
지침 데이터로 실제 의사-환자 지식 질문 및 답변 데이터(질병, 약물, 검사, 수술, 예후, 음식 등)를 수집합니다.180K
명령 데이터;298K
명령 데이터;3500 steps
(훈련 23시간 50분)6000 steps
(훈련 40시간 56분)2500 steps
에 대한 LoRA 가중치입니다. (훈련 16시간 20분);3600 steps
에 대한 LoRA 가중치입니다. (훈련 37시간 37분)6000 steps
에 대한 LoRA 가중치입니다. (훈련 54시간 30분)12400 steps
에 대한 LoRA 가중치입니다. (훈련 114시간 46분)모델 | 명령 데이터 세트 | 기본 모델 | LoRA 다운로드 |
---|---|---|---|
QiZhen-중국어-LLaMA-7B- 검문소-3500 | 740K | 중국어-LLaMA-Plus-7B | 바이두 스카이디스크 |
QiZhen-중국어-LLaMA-7B- 검문소-6000 | 740K | 중국어-LLaMA-Plus-7B | 바이두 스카이디스크 |
QiZhen-ChatGLM-6B- 체크포인트-2500 | 740K | 채팅GLM-6B | 바이두 스카이디스크 |
QiZhen-CaMA-13B-체크포인트-3600 | 740K | 카마 | 바이두 스카이디스크 |
QiZhen-CaMA-13B-체크포인트-6000 | 740K | 카마 | 바이두 스카이디스크 |
QiZhen-CaMA-13B-Checkpoint-12400 | 1038K | 카마 | 바이두 스카이디스크 |
pip install -r requirements.txt
Chinese-LLaMA-Plus-7B를 다운로드하세요. 자세한 내용은 여기를 참조하세요.
LoRA를 다운로드하고, 모델을 다운로드하여 lora 디렉토리에 넣으세요.
scripts/merge_llama_plus.sh 스크립트를 실행합니다.
sh scripts/merge_llama_plus.sh
gradio_chinese-llama_demo.py
에서 모델 위치 매개변수를 수정합니다. python gradio_chinese-llama_demo.py
pip install -r requirements.txt
ChatGLM-6B를 다운로드하세요. 자세한 내용은 여기를 참조하세요.
LoRA를 다운로드하고, 모델을 다운로드하여 lora 디렉토리에 넣으세요.
gradio_chatglm_demo.py
에서 모델 위치 매개변수를 수정합니다.
데모를 시작하세요.
python gradio_chatglm_demo.py
pip install -r requirements.txt
CaMA를 받으려면 여기에서 자세한 내용을 확인하세요.
LoRA를 다운로드하고, 모델을 다운로드하여 lora 디렉토리에 넣으세요.
gradio_cama_demo.py
에서 모델 위치 매개변수를 수정합니다.
데모를 시작하세요.
python gradio_cama_demo.py
Qizhen 의료 대형 모델은 "데이터 + 지식 2륜 구동"이라는 기술 경로를 고수합니다. 대형 모델 기술과 의료 지식 기반의 긴밀한 통합을 통해 의료 데이터 관리, 의료 추론 등 의료 응용 시나리오의 실제 요구 사항을 통합합니다. , 의사-환자 Q&A 의료산업의 대형모델 기술 구현 및 적용을 촉진하기 위해 의료기록 자동 생성, 임상 의사결정 지원 시스템 등의 분야에서 반복적인 연구개발을 수행할 예정이다. 아래 사진은 "Qizhen Medical Knowledge Base가 대형 모델의 답변 생성을 지원합니다"의 사례입니다. 이 기술은 테스트 후 공개되었습니다.
입력: Fluphenazine Decanoate 주사의 적응증
ChatGLM: Fluphenazine Decanoate 주사는 다음과 같은 약물입니다: 1. 우울증, 불안, 불면증과 같은 신경 정신병 증상을 치료하는 데 사용됩니다. 2. 간질, 뇌 외상, 뇌 동맥 경화증 및 기타 신경 질환을 치료하는 데 사용됩니다. 월경통, 관절염 및 기타 고통스러운 질병과 같은 만성 통증을 완화합니다. 4. 학습 능력과 기억력을 향상시키는 데 사용되며 어린이 및 청소년의 지적 발달 및 학습 효과 향상에 사용할 수 있습니다. 5. HIV 예방에 사용됩니다. 감염과 에이즈 치료. Fluphenazine Decanoate 주사는 우울증, 불안 및 불면증을 치료하는 데 일반적으로 사용되는 경구 약물입니다. 의사의 조언을 토대로 치료 계획을 세워야 합니다. Fluphenazine Decanoate 주사를 사용하는 경우 의사의 조언과 약물 지침의 약물 지침 및 복용량을 따라야 합니다.
ChatGPT: Flumazenil Decanoate 주사(Flumazenil 주사)는 벤조디아제핀(예: 디아제팜 약물)의 과다 복용 또는 남용으로 인한 진정 또는 최면 상태를 치료하는 데 사용되는 약물입니다. 이는 벤조디아제핀 수용체 길항제로 작용하며 벤조디아제핀의 중추신경계 억제 효과를 역전시킬 수 있습니다. <플루페나진데카노에이트 주사는 주로 다음 적응증에 사용됩니다:
1. 벤조디아제핀계 약물의 과량복용 : 디아제팜계 약물의 과량복용 또는 과다 복용으로 인해 혼수상태, 졸음, 호흡억제 등의 증상이 나타날 경우 플루페나진데카노에이트 주사를 사용하여 이러한 증상을 반전시킬 수 있습니다.
2. 마취 중 반전: Fluphenazine Decanoate 주사는 수술이나 기타 마취 시술 후 벤조디아제핀의 진정 효과를 반전시키고 환자가 의식 상태로 돌아갈 수 있도록 돕는 데 사용할 수 있습니다.
3. 진단 용도: Fluphenazine Decanoate 주사는 벤조디아제핀 중독 또는 과다 복용의 진단을 돕기 위해 사용될 수도 있습니다.
플루페나진데카노에이트 주사는 합리적으로 사용되어야 하며, 특정 상황에 따라 전문의의 모니터링을 받아야 함을 참고하시기 바랍니다. 이 약을 사용하기 전에 약품 지침을 주의 깊게 읽고 따르고 의사의 지시와 권장 사항을 따르십시오.
QiZhen-중국어-LLaMA-7B- Checkpoint-3500: 이 제품은 정신분열증, 조증 등에 사용됩니다. 근긴장성 통증에도 사용할 수 있습니다.
QiZhen-CaMA-13B-Checkpoint-3600: 이 제품은 정신분열증의 다양한 증상에 사용됩니다.
입력: 티베트 녹색 과일차의 주요 기능은 무엇입니까?
ChatGLM: 티베트 녹색 과일 차는 주로 녹색 과일, 찻잎, 꿀 및 기타 재료로 만든 천연 음료입니다. 주요 기능은 다음과 같습니다. 1. 면역력 향상: 티베트 녹차 과일차에는 비타민 C, 비타민 E 등과 같은 영양소가 풍부하여 신체의 면역력을 강화하고 신체의 저항력을 향상시키며 질병 발생을 예방할 수 있습니다. 2. 소화 촉진: 티베트 녹차에는 섬유질이 풍부하여 위장 운동을 촉진하고 소화를 돕고 변비를 예방할 수 있습니다. 3. 항산화 효과: 티베트 녹차 과일차의 녹색 과일 추출물은 강력한 항산화 효과가 있어 체내 활성산소를 제거하고 노화를 지연시키며 질병을 예방할 수 있습니다. 4. 혈중 지질 감소: 티베트 녹차 과일차의 차 추출물은 혈중 지질을 낮추는 데 특정 효과가 있으며 고지혈증을 예방하고 치료할 수 있습니다. 5. 수면 개선: 티베트 녹차 과일차의 꿀에는 특정 진정 효과가 있어 스트레스를 완화하고 수면의 질을 개선하며 신체의 자가 치유 능력을 향상시키는 데 도움이 됩니다.
ChatGPT: 티베트 녹색 과일차는 티베트 녹색 과일을 주원료로 하여 만든 차 음료로, 제가 아는 한 주요 기능은 다음과 같습니다.
1. 항산화 효과: 티베트 녹색 과일에는 폴리페놀, 비타민C 등 다양한 천연 항산화제가 풍부하여 체내 활성산소를 제거하고 세포 노화를 늦추며 면역력을 강화하는 데 도움이 됩니다.
2. 소화 촉진: 티베트 녹차 과일차는 소화 자극 효과가 좋고, 위장 운동 촉진에 도움을 주며, 소화 기능을 개선하고, 위 불편감과 소화 불량을 완화시킵니다.
3. 영양 공급: 티베트 녹색 과일에는 비타민 C, 비타민 E, 비타민 B 복합체, 미네랄 및 기타 영양소가 풍부합니다. 티베트 녹색 과일 차를 마시면 신체에 필요한 영양분을 공급할 수 있습니다.
4. 체중 감량: 티베트 녹차는 체중 감량 효과가 있는 것으로 간주되며 신진대사를 촉진하고 지방 분해 및 연소를 촉진하며 체중과 지방 축적을 줄이는 데 도움이 됩니다.
5. 항염증 및 진통제: 티베트 녹차에는 항염증 및 진통 효과가 있는 일부 성분이 포함되어 있어 관절통, 근육통, 두통 등의 불편함을 완화할 수 있습니다.
6. 수면 개선: 티베트 녹차 과일 차는 신경계를 이완시키고 진정 효과가 있으며 수면의 질을 개선하고 불면증 문제를 완화할 수 있습니다.
위의 효과는 주로 티베트 녹색 과일차의 전통적인 용도와 특정 연구 결과를 기반으로 한 것이며 구체적인 효과는 사람마다 다르며 개인차와 사용 방법에 따라 영향을 받을 수 있습니다. 특정 건강 상태가 있거나 약을 복용해야 하는 경우 의사나 의료 전문가의 조언을 구하는 것이 좋습니다.
QiZhen-중국어-LLaMA-7B- Checkpoint-3500: 열을 제거하고 해독하며 체액을 생성하고 갈증을 해소합니다. 발열, 갈증, 인후통 등의 증상을 완화할 수 있습니다.
QiZhen-CaMA-13B-Checkpoint-3600: 숨겨진 푸른 과일차는 열을 제거하고 목을 진정시키며 붓기를 줄이고 통증을 완화시키는 효과가 있습니다.
티베트 녹차는 목의 발적과 통증, 건조하고 타는 목, 쉰 목소리 및 기타 증상과 같은 증상을 완화하는 데 사용할 수 있습니다.
입력: 라이터 증후군의 임상 증상은 무엇입니까?
ChatGLM: 라이터 증후군(라이터 증후군 1형)은 선천성 심장 잡음으로, 임상 증상은 다음과 같습니다.
심장 잡음: 라이트 증후군 제1형의 특징적인 심장 잡음은 난원공 개존으로 인해 발생하는 오른쪽에서 왼쪽으로의 션트 잡음으로, 일반적으로 잡음 강도, 위치 및 빈도의 다양성을 특징으로 합니다.
폐고혈압: 라이터 증후군 제1형 환자는 종종 폐고혈압을 앓고 있으며 이는 호흡 부전 및 심부전으로 이어질 수 있습니다.
성장 및 발달 이상: 라이터 증후군 유형 I을 가진 대부분의 사람들은 유년기와 청소년기에 저신장, 영양실조, 거대증과 같은 성장 및 발달 이상을 나타냅니다.
심장의 구조적 이상: 심잡음이 제1형 라이터 증후군의 주요 임상 증상이지만, 일부 환자는 심장 판막 질환, 부정맥과 같은 심장의 다른 구조적 이상을 나타낼 수도 있습니다.
기타 증상: 라이터 증후군 제1형 환자는 피로, 호흡 곤란, 흉통, 기침, 팽만감, 변비 등의 다른 증상도 나타날 수 있습니다. 이러한 증상은 심장 잡음 및 폐고혈압과 관련될 수 있지만 다른 요인과 관련될 수도 있습니다.
1형 라이터증후군은 드문 질환으로 개인차에 따라 임상양상이 달라질 수 있다는 점을 참고하시기 바랍니다. 라이터 증후군 제1형이 의심된다면 즉시 의사와 상담하여 진단과 치료를 받으세요.
ChatGPT: 라이터 증후군은 위식도 역류 질환(GERD)으로 인해 하부 식도 괄약근의 이완증과 식도 운동성 약화로 인해 발생하는 질병을 말합니다. 주요 임상 증상은 다음과 같습니다.
삼킴곤란: 환자는 삼킬 때 막히는 듯한 느낌을 받고 음식을 삼키기 위해 여러 번 삼켜야 합니다.
흉통: 라이터 증후군 환자는 특히 먹거나 누운 후에 흉통을 경험하는 경우가 많습니다.
트림 및 위산 역류: 환자는 특히 먹거나 누운 후에 트림과 위산 역류를 경험하는 경우가 많습니다.
쉰 목소리: 역류 물질로 인해 입과 목 부위가 자극되어 환자의 목소리가 쉬어질 수 있습니다.
인후통: 역류 물질이 인후 점막을 자극합니다.
라이터증후군의 증상은 다른 질환의 증상과 유사하므로 관련 검사와 진단방법을 통해 진단을 확정하는 것이 중요하다는 점을 알아두셔야 합니다.
QiZhen-CaMA-13B-Checkpoint-12400: 라이터 증후군의 주요 임상 증상은 급성 또는 만성 관절염, 요도염, 결막염, 피부 및 점막 병변입니다.
라이터증후군(Reiter's Syndrome)은 원인이 불분명한 만성 비특이적 염증성 질환으로 혈청음성척추관절염의 일종으로 재발성, 이동성, 비대칭 다발성 관절염이 특징이며, 요도 염증성 질환, 결막염, 피부, 점막 등이 동반될 수 있다. 그리고 눈 병변.
라이터 증후군의 주요 임상 증상은 급성 또는 만성 관절염, 요도염, 결막염, 피부 및 점막 병변입니다.
1. 관절염 : 가장 흔하며 모든 관절에 영향을 미칠 수 있으며 무릎, 발목, 발의 작은 관절에 더 흔하게 발생하며 국소적인 발적, 부기, 발열, 통증 및 기능 장애가 발생할 수 있습니다.
2. 요도염 : 잦은 배뇨, 절박뇨, 배뇨 곤란, 요도 입구의 발적 및 부기, 요도 분비물 증가 등으로 나타납니다.
3. 결막염: 일측 또는 양측 결막염증으로 나타나며 결막충혈, 부종, 눈꺼풀 부종, 분비물 증가 등이 나타날 수 있습니다.
4. 피부 및 점막 병변: 지루성 홍반, 생식기 홍반, 농포, 피부 농포 및 피부 궤양으로 나타납니다.
평가 기준: 94
종의 약물 데이터를 무작위로 선택하고, "{약물}에 대한 적응증" 구성 지침에 따라 ChatGPT(gpt3.5), ChatGLM, QiZhe가 각각 답변하게 한 후 전문 의료진에게模型的答案
하도록 요청 비교 다음은 세 가지 점수该药品的药品说明书
입니다.
표준 1: 모델 답변이 하나의 표시에 도달하면 답변이 정확합니다.
표준 2: 모델 답변에 표시된 적응증 수가 의약품 패키지 삽입물에 있는 적응증 수의 1/2보다 크거나 같으면 대답은 정확합니다.
표준 3: 모델 답변에 표시된 적응증 수가 의약품 패키지 삽입물에 있는 적응증 수의 2/3 이상이면 정답입니다.
모델 | 표준 1 | 표준 2 | 표준 3 |
---|---|---|---|
채팅GLM | 39.36% | 23.16% | 14.74% |
채팅GPT | 47.87% | 30.85% | 15.96% |
QiZhen-중국어-LLaMA-7B-Checkpoint-3500 | 77.66% | 55.32% | 40.00% |
QiZhen-중국어-LLaMA-7B-Checkpoint-6000 | 90.43% | 73.40% | 65.96% |
QiZhen-CaMA-13B-체크포인트-3600 | 82.29% | 60.62% | 47.92% |
QiZhen-CaMA-13B-체크포인트-6000 | 90.43% | 80.85% | 72.34% |
QiZhen-CaMA-13B-Checkpoint-12400 | 91.49% | 82.98% | 72.34% |
주목:
repetition_penalty
매개변수를 늘리십시오.QiZhen-CaMA-13B-Checkpoint-3600
과 비교하여 LoRA의 매개변수 양이 증가하여 효과가 효과적으로 향상되었습니다. 평가 기준: 무작위로 100
질병 데이터를 선택하고, "{질병}을 치료할 수 있는 약물은 무엇입니까?", "{질병}에 대해 어떤 검사가 필요합니까?", "{질병}의 임상양상은 무엇입니까?"에 따라 "치료약물"을 구성합니다. ?", "검사" 및 "임상적 발현"은 다음을 의미합니다. 주문하고, ChatGPT(gpt3.5), ChatGLM, QiZhen0이 각각 답변하도록 한 후, 전문 의료진에게 질문하여启真医学知识库疾病知识
으로模型的答案
비교하고 점수를 매기도록 하십시오. 다음은 세 가지 채점 기준입니다. :
표준 1: 모델 답변이 "치료 약물"("검사 테스트", "임상 발현")에 해당하는 경우 답변이 정확합니다.
기준 2 : 모범답변에 해당하는 "치료약물"("검사시험", "임상징후")의 수가 약품설명서의 적응증 수의 1/2 이상이면 정답이다. ;
기준 3: 모델답변에 해당하는 "치료약물"("검사시험", "임상징후")의 수가 약품설명서의 적응증 수의 2/3 이상이면 정답이다. ;
모델 | 임상 성능 표준 1 | 임상 수행 기준 2 | 임상 수행 기준 3 | 검사기준 확인 1 | 검사기준 2를 확인하세요 | 검사기준 3을 확인하세요 | 치료의약품 기준 1 | 치료의약품 기준 2 | 치료의약품 기준 3 |
---|---|---|---|---|---|---|---|---|---|
chatglm | 90.00% | 6.00% | 3.00% | 93.00% | 11.00% | 6.00% | 60.00% | 10.00% | 5.00% |
chatgpt | 94.00% | 11.00% | 4.00% | 97.00% | 8.00% | 5.00% | 62.00% | 11.00% | 4.00% |
QiZhen-CaMA-13B-Checkpoint-12400 | 95.00% | 15.00% | 7.00% | 97.00% | 20.00% | 7.00% | 75.00% | 36.00% | 23.00% |
아울러, 본 프로젝트는 아래의 오픈소스 프로젝트의 2차 개발을 기반으로 진행되며, 관련 프로젝트와 연구개발 인력 여러분께 감사의 말씀을 드립니다.
자세한 내용은 라이선스를 참조하세요.
본 프로젝트와 관련된 자료는 학술 연구 목적으로만 사용되며, 상업적인 이용을 엄격히 금지합니다. 타사 코드가 포함된 부분을 사용하는 경우 해당 오픈 소스 계약을 엄격히 따르십시오. 모델에 의해 생성된 콘텐츠는 모델 계산, 무작위성, 수량화 정확도 손실 등의 요인에 의해 영향을 받으며, 본 프로젝트는 그 정확성을 보장하지 않습니다. 본 프로젝트는 모델에 의해 출력된 콘텐츠에 대해 어떠한 법적 책임도 지지 않으며, 관련 리소스의 사용 및 출력 결과로 인해 발생할 수 있는 손실에 대해서도 책임을 지지 않습니다.
기술 문서가 곧 제공될 예정입니다.