Genome Analysis Tutorial - Intro
❗Public raw Data DNA에서 나타난 유전적 변이(Variant)들을 생물 정보학 툴을 사용해 리눅스 환경에서 찾아보고자 함
- NA 12878이라는 공공데이터 사용
- raw데이터(미 가공 상태의 데이터)인 FASTQ에서 기준 서열이라고 불리는 refernce서열에 맞춰 BAM파일을 만든다
- BAM파일에서 유전적 변이를 찾아내는 Variant calling 과정을 거쳐 VCF 파일을 만든다
📚배울 내용 및 강의 특징
- 리눅스 환경에서 DNA mutation (SNV, Indel)을 검출하는 파이프라인 제작
- 파이프라인을 구성하는 각 툴을 설치하는 방법 학습
- 각 툴들을 실행하여 분석 파이프라인을 완성하고 결과 파일을 생성
- BWA2, GATK4와 같은 최신(2021년 기준) 툴을 사용하여 raw data에서 변이를 검출
- 최소한의 컴퓨팅 자원으로 변이 검출 파이프라인 제작 학습
Genome Analysis Tutorial - 파일 준비하기
📚준비
- 샘플: public data - NA12878 (여기서 chr21만 추출한 데이터)
- 준비물: 리눅스 커맨드 실행 가능한 컴퓨터 (21년 기준 Mac은 불가능)
- 사양: CPU: 1thread 이상, RAM: 2GB이상, HDD: 1GB이상의 여유 공간
chr이란?
"chr"는 "chromosome"의 줄임말로 "염색체"를 뜻한다.
사람의 DNA는 총 23쌍의 염색체에 나뉘어 있다. 이 중 22쌍은 번호로 불리는 자손 염색체(1~22번)이고, 마지막 1쌍은 성 염색체(X와 Y)다. 여자는 XX, 남자는 XY 성 염색체를 가진다.
"NA12878에서 chr21만 추출했다"는 말은 NA12878이라는 사람의 DNA 샘플에서 21번 염색체 부분만 따로 떼어낸 것이다.
✅ 데이터 다운 받기
사용할 데이터 ↓
https://github.com/KennethJHan/GenomeAnalysisTutorial
GitHub - KennethJHan/GenomeAnalysisTutorial: Genome Analysis Pipeline for Lecture
Genome Analysis Pipeline for Lecture. Contribute to KennethJHan/GenomeAnalysisTutorial development by creating an account on GitHub.
github.com
Code 버튼을 누르고
주소를 복사한다
✅ 클론 받기
git colne 명령어에 복사한 주소 붙여 넣기
ls -l로 확인해보면
파일이 잘 다운받아진 것을 확인할 수 있다.
해당 파일로 들어간다
(cd 입력 후 Gen정도만 치고 tab 키를 누르면 자동 입력이 된다!)
✅ 압축 파일 압축해제
recource 폴더로 들어가
ll로 확인해보면
feference라는 폴더가 있다
reference로 들어간다
다시 ll을 통해 확인해보면
위와 같이 gz 파일이 있다. 이 파일의 압축을 푼다
다음 명령어를 통해 압축을 풀어준다
압축이 풀린 후 ll로 확인해보면 다음과 같은 결과가 나올 것이다
👉🏻레포지토리에 어떤 파일이 들어있는지 살펴보기
https://github.com/KennethJHan/GenomeAnalysisTutorial
GitHub - KennethJHan/GenomeAnalysisTutorial: Genome Analysis Pipeline for Lecture
Genome Analysis Pipeline for Lecture. Contribute to KennethJHan/GenomeAnalysisTutorial development by creating an account on GitHub.
github.com
✅ data 디렉토리
에 들어가보면
fastq.gz 파일이 있다
위 두개가 한 샘플을 구성한다 (강사님이 따로 chr21만 추출해서 만든 파일)
✅ resource 디렉토리
- 알려진 변이가 있는 사이트
- 나중에 GATK로 변이를 calling할 때 사용하는 파일
- 레퍼런스 파일과 레퍼런스 파일로 생성된 부가적인 파일들
- 강사님이 chr21에 맞게 제작한 파일들
✅ src 디렉토리
- 최종 스크립트
- 결과적으로 이렇게 생긴 파이프라인을 만들 것
- 각 툴들의 로케이션은 나의 위치를 쓰면 된다
출처: https://youtu.be/BHXHTaMNiYE?si=xU1RJQXBpGrF6jc6
https://youtu.be/PSJ6AGmxHaQ?si=RhXDg478XajDQUuh
'데이터분석 > Bioinformatics' 카테고리의 다른 글
[한주현님강의] DNA 분석 파이프라인(3) (2) | 2023.10.24 |
---|---|
[한주현님강의] DNA 분석 파이프라인(2) (0) | 2023.10.18 |
[한주헌님강의] DNA 분석 파이프라인 - 소개편 (0) | 2023.10.17 |
[한주현님강의] 생물정보학 리눅스 툴 설치하기 (samtools), bam파일 보는 방법 + WSL2 우분투 설치 방법 (0) | 2023.10.13 |
Samtools, BAM파일, FASTQ 알아보기 (0) | 2023.10.11 |