데이터분석/Bioinformatics

[한주현님강의] DNA 분석 파이프라인(1)

묘걍 2023. 10. 18. 18:02

Genome Analysis Tutorial - Intro

 

❗Public raw Data DNA에서 나타난 유전적 변이(Variant)들을 생물 정보학 툴을 사용해 리눅스 환경에서 찾아보고자 함

출처: 강사님 화면

- NA 12878이라는 공공데이터 사용

  1. raw데이터(미 가공 상태의 데이터)인 FASTQ에서 기준 서열이라고 불리는 refernce서열에 맞춰 BAM파일을 만든다
  2. BAM파일에서 유전적 변이를 찾아내는 Variant calling 과정을 거쳐 VCF 파일을 만든다

📚배울 내용 및 강의 특징

  • 리눅스 환경에서 DNA mutation (SNV, Indel)을 검출하는 파이프라인 제작
  • 파이프라인을 구성하는 각 툴을 설치하는 방법 학습
  • 각 툴들을 실행하여 분석 파이프라인을 완성하고 결과 파일을 생성
  • BWA2, GATK4와 같은 최신(2021년 기준) 툴을 사용하여 raw data에서 변이를 검출
  • 최소한의 컴퓨팅 자원으로 변이 검출 파이프라인 제작 학습

Genome Analysis Tutorial - 파일 준비하기

📚준비

  • 샘플: public data - NA12878 (여기서 chr21만 추출한 데이터)
  • 준비물: 리눅스 커맨드 실행 가능한 컴퓨터 (21년 기준 Mac은 불가능)
  • 사양: CPU: 1thread 이상, RAM: 2GB이상, HDD: 1GB이상의 여유 공간
더보기

chr이란?

"chr"는 "chromosome"의 줄임말로 "염색체"를 뜻한다.

사람의 DNA는 총 23쌍의 염색체에 나뉘어 있다. 이 중 22쌍은 번호로 불리는 자손 염색체(1~22번)이고, 마지막 1쌍은 성 염색체(X와 Y)다. 여자는 XX, 남자는 XY 성 염색체를 가진다.

"NA12878에서 chr21만 추출했다"는 말은 NA12878이라는 사람의 DNA 샘플에서 21번 염색체 부분만 따로 떼어낸 것이다.

 

✅ 데이터 다운 받기

사용할 데이터 ↓

https://github.com/KennethJHan/GenomeAnalysisTutorial

 

GitHub - KennethJHan/GenomeAnalysisTutorial: Genome Analysis Pipeline for Lecture

Genome Analysis Pipeline for Lecture. Contribute to KennethJHan/GenomeAnalysisTutorial development by creating an account on GitHub.

github.com

 

Code 버튼을 누르고

주소를 복사한다

 

✅ 클론 받기

git colne 명령어에 복사한 주소 붙여 넣기

 

ls -l로 확인해보면

파일이 잘 다운받아진 것을 확인할 수 있다.

 

해당 파일로 들어간다

(cd 입력 후 Gen정도만 치고 tab 키를 누르면 자동 입력이 된다!)

 

✅ 압축 파일 압축해제

recource 폴더로 들어가

ll로 확인해보면

feference라는 폴더가 있다

reference로 들어간다

다시 ll을 통해 확인해보면

위와 같이 gz 파일이 있다. 이 파일의 압축을 푼다

다음 명령어를 통해 압축을 풀어준다

압축이 풀린 후 ll로 확인해보면 다음과 같은 결과가 나올 것이다

 

 

👉🏻레포지토리에 어떤 파일이 들어있는지 살펴보기

https://github.com/KennethJHan/GenomeAnalysisTutorial

 

GitHub - KennethJHan/GenomeAnalysisTutorial: Genome Analysis Pipeline for Lecture

Genome Analysis Pipeline for Lecture. Contribute to KennethJHan/GenomeAnalysisTutorial development by creating an account on GitHub.

github.com

✅ data 디렉토리

에 들어가보면

fastq.gz 파일이 있다

위 두개가 한 샘플을 구성한다 (강사님이 따로 chr21만 추출해서 만든 파일)

 

✅ resource 디렉토리

- 알려진 변이가 있는 사이트

- 나중에 GATK로 변이를 calling할 때 사용하는 파일

- 레퍼런스 파일과 레퍼런스 파일로 생성된 부가적인 파일들

- 강사님이 chr21에 맞게 제작한 파일들

 

✅ src 디렉토리

- 최종 스크립트

- 결과적으로 이렇게 생긴 파이프라인을 만들 것

- 각 툴들의 로케이션은 나의 위치를 쓰면 된다

 

 

출처: https://youtu.be/BHXHTaMNiYE?si=xU1RJQXBpGrF6jc6

https://youtu.be/PSJ6AGmxHaQ?si=RhXDg478XajDQUuh