구아( Cyamopsis tetragonoloba (L.) Taub.) 유전형 분석 및 GWAS 프로젝트에 대한 데이터 및 코드가 포함된 저장소입니다. 저장소 내용에 대한 간략한 설명:
make_consensus_vcf.py
스크립트는 원시 GATK-HC, NGSEP 및 TASSEL 5 변형 호출을 사용하여 최종 변형 데이터 세트를 생성하는 데 사용되었으며, make_snp_stats.py
스크립트는 변형 호출의 품질 통계를 탐색하기 위해 동일한 입력과 함께 사용되었습니다.
callset_refinement_filtering.ipynb
노트북은 변형 품질 관리를 실행하고 공통 변형의 최종 필터링된 데이터 세트를 구성하는 데 사용되었습니다.
PCA, 연관 불균형 분석, 일반화 선형 모델 기반 연관 분석을 포함한 대부분의 유전자 분석을 수행하는 데에는 genetic_analysis.ipynb
노트북이 사용되었습니다.
prepare_farmcpu.py
스크립트는 FarmCPU 도구의 입력 데이터 형식을 지정하는 데 사용되었습니다(결과 p-값의 QQ 플롯은 논문 및 아래에 표시됨).
admix_file_create.py
파일은 ADMIXTURE 분석을 위한 유전자형을 전처리하는 데 사용되었습니다(이 중 일부는 genetic_analysis.ipynb
의 Hail을 사용하여 수행되었습니다).
guar_stat.R
스크립트는 최종 데이터의 통계 분석을 실행하고 FarmCPU 도구를 사용하여 게놈 전체 연관 분석을 수행하고 주요 수치를 플롯하는 데 사용되었습니다.
parse_vcf_fcpu.py
스크립트는 이 저장소에서 genotypes.xlsx
파일로 사용할 수 있는 최종 SNP 유전자형 테이블의 형식을 지정하는 데 사용되었습니다.