🎨 DNA란?
- 생명체의 유전 정보를 담고 있는 물질
DNA는 "디옥시리보핵산"이라는 이름을 가진 분자로, 모든 생명체의 유전 정보를 저장하고 있다. 생각해보면, DNA는 우리의 외모나 특징을 결정하는 매우 복잡한 설명서와 같다. DNA는 특별한 '이중 나선' 구조를 가지고 있으며, 이는 마치 긴 사다리와 같다. 그 사다리의 각 계단은 "베이스 쌍"이라 불리는 두 분자로 이루어져 있다. 이 베이스 쌍은 네 가지, A(아데닌), T(티민), C(시토신), G(구아닌)로 구성되어 있다. 이들 분자의 특별한 배열 순서가 우리의 유전적 특성, 예를 들면 눈의 색이나 키, 피부색 등을 결정한다. 그러니, DNA는 결국 우리 몸의 모든 정보와 지침을 담고 있는 이중 나선 구조의 분자라고 할 수 있다.
- DNA 구성 염기 종류로는 A, C, G, T가 있다
DNA는 네 가지 주요 염기로 구성되어 있다. 이 네 가지 염기는 아데닌(A), 티민(T), 시토신(C), 그리고 구아닌(G)이다.
- 아데닌 (A): 아데닌은 DNA의 한 부분으로, 종종 "A"로 표시된다. 아데닌은 티민과 항상 쌍을 이루는데, 그것은 마치 퍼즐 조각의 일부분이 다른 한 부분과 딱 맞게 들어가는 것과 같다.
- 티민 (T): 티민도 DNA의 중요한 부분이다. 티민은 "T"로 표시되며, 아데닌과 항상 쌍을 이룬다. 아데닌과 티민 사이의 이 관계는 강하고 특별하다.
- 시토신 (C): 시토신은 "C"로 표시되며, DNA의 또 다른 중요한 부분이다. 시토신은 구아닌과 항상 쌍을 이루며, 그들 사이의 연결도 아데닌과 티민 사이의 연결처럼 강하다.
- 구아닌 (G): 구아닌은 "G"로 표시되며, DNA의 마지막 주요 염기다. 구아닌은 시토신과 항상 쌍을 이룬다.
이 네 가지 염기의 순서와 배열 방식이 우리의 유전 정보를 결정한다. 그들의 특별한 조합이 개인의 유전적 특성과 특징을 결정하게 된다.
- 염기들은 이중 나선 구조로 이루어져 있다
🤔한 사람의 유전체(genome)에는 몇 개의 염기 서열이 있을까?
❗30억개
유전체(genome)는 생물체의 모든 유전 정보를 담고 있는 DNA의 전체 집합이다.
유전체는 생물체의 모든 특성과 기능을 결정하는 설계도와 같다.
생각해보면, 집을 지을 때 필요한 설계도가 있다. 이 설계도에는 집의 구조, 크기, 내부의 각 방의 모양 등 모든 정보가 담겨 있다. 유전체는 생물체, 예를 들면 사람이나 동물, 식물의 '설계도'와 같은 것이다.
사람의 유전체는 약 30억 개의 DNA 염기쌍으로 이루어져 있다. 이 염기쌍의 순서는 각각의 사람마다 조금씩 다르며, 그 차이가 바로 우리 개개인의 특성과 차이를 만들어낸다. 예를 들면, 눈 색깔, 키, 피부색, 머리카락의 질감 등의 특성이 그것에 의해 결정된다.
하지만 유전체에는 단순히 외모와 관련된 정보만 있는 것이 아니다. 우리 몸의 모든 기능, 예를 들면 소화나 호흡, 면역 기능 등도 유전체에 의해 조절되고, 그 방법이 담겨 있다.
요약하자면, 유전체는 생물체의 모든 유전 정보를 담은 DNA의 집합으로, 그 생물체의 '설계도'와 같다. 이 설계도에 따라 생물체의 모든 특성과 기능이 결정된다.
Variant(변이)
- 이런 DNA에 변이가 발생하면 어떻게 될까?
DNA → RNA → Protein
- 중심 원리인 센트럴 도그마에 DNA는 RNA로 전사되고 RNA는 Protein으로 번역된다
- 센트럴 도그마 (Central Dogma): 센트럴 도그마는 유전학의 기본 원리다. 이 원리는 생명체의 유전 정보가 어떻게 흘러가는지를 설명한다. 간단하게 말하면, DNA에서 정보를 가져와 RNA를 만들고, 그 RNA에서 정보를 가져와 단백질을 만든다. 즉, DNA -> RNA -> 단백질의 순서로 정보가 전달된다.
- 전사 (Transcription): 전사는 DNA의 정보를 RNA로 복사하는 과정이다. 생각해보면, 우리가 책의 내용을 노트에 적을 때와 비슷하다. DNA는 마치 원본 책과 같고, RNA는 그 내용을 복사해서 적은 노트와 같다. 이 과정에서 DNA의 유전 정보가 RNA로 전달되며, 이후 RNA는 단백질을 만드는 데 필요한 정보를 갖게 된다.
- 번역 (Translation): 번역은 RNA의 정보를 사용하여 단백질을 만드는 과정이다. RNA는 단백질을 만드는 '레시피'와 같다. 이 '레시피'를 따라, 세포는 아미노산이라는 물질들을 연결하여 단백질을 조립한다. 단백질은 우리 몸의 건강과 기능을 유지하는 데 필요한 중요한 물질이다.
요약하자면, 센트럴 도그마는 DNA에서 RNA로, 그리고 RNA에서 단백질로 정보가 전달되는 과정을 설명하는 유전학의 기본 원리다. 전사는 DNA의 정보를 RNA로 복사하는 단계이고, 번역은 RNA의 정보를 단백질로 변환하는 단계다.
- 이러한 변이는 우리 몸을 나타내는 단백질 구조를 바꿀 수 있다
- 단백질 구조가 바뀌면 표현형이 바뀐다
🎨 표현형
- 간단하게 말하면 눈의 색, 머리의 곱슬거림 정도, 질병의 유무를 말한다
표현형은 생물체의 보이는 특징을 의미한다.
예를 들면, 꽃의 색이나 동물의 크기 같은 것이다. 이 특징들은 DNA, 즉 유전 정보에 의해 결정된다.
단백질은 우리 몸에서 여러 가지 중요한 역할을 하는 분자다. DNA의 정보는 결국 이 단백질을 만드는 지침서와 같다. 그런데 DNA에 변이가 생기면, 그 변이에 따른 단백질의 구조도 바뀔 수 있다.
단백질의 구조가 바뀌면 그 기능도 달라질 수 있다. 예를 들어, 꽃 색을 결정하는 단백질의 구조가 바뀌면 꽃의 색도 바뀔 수 있다. 이렇게 바뀐 색이 바로 표현형의 변화다.
👉🏻 DNA를 분석한다는 것은
- DNA 서열을 읽어 기준 서열과 다른 염기를 찾는 것!
- DNA 서열: DNA 서열은 DNA의 구성 분자인 염기들이 어떤 순서로 배열되어 있는지를 나타내는 것이다. 생각해보면, 이것은 책의 글자나 문장 순서와 비슷하다. 책에는 글자들이 특정한 순서로 배열되어 문장을 이루는데, DNA에서는 염기들이 특정한 순서로 배열되어 DNA 서열을 이룬다.
- 기준 서열: 기준 서열은 특정 생물체나 종의 전체 DNA 서열 중에서 대표적으로 사용되는 서열을 의미한다. 예를 들면, 사람의 DNA 서열 중 하나를 선택하여 연구의 기준으로 삼는 것이다. 이것은 마치 학교 교과서의 표준판과 같다. 여러 버전의 교과서가 있을 수 있지만, 특정한 표준판을 기준으로 사용하기도 한다.
- 염기: 염기는 DNA의 기본 구성 요소로, 네 가지 종류가 있다: 아데닌(A), 티민(T), 시토신(C), 그리고 구아닌(G). 이들은 DNA의 "글자"와 같다. 마치 영어 알파벳에 A, B, C 등의 글자가 있는 것처럼, DNA에는 이 네 가지 염기가 특정한 순서로 배열되어 정보를 담고 있다.
❓DNA를 읽는 방법?
❓기준 서열은 무엇?
❓다른 염기(변이)를 찾는 방법?
👉🏻 DNA 서열 읽는 방법
- DNA 추출
- DNA 무작위로 자르기
- 자른 DNA 조각을 시퀀서에 넣고
- DNA조각이 읽혀 나온다 (Read)
시퀀서는 DNA나 RNA의 순서를 읽는 기계다. 이 기계를 사용하면 DNA의 정보를 정확하게 알아낼 수 있다.
시간이 지나면서 이런 시퀀싱 기술은 많이 발전했다. 그 결과, 오늘날에는 많은 DNA 정보를 빠르게 얻을 수 있다.
시퀀서를 사용할 때는 DNA 샘플을 준비하고, 특별한 화학 반응을 통해 DNA의 각 부분을 표시한다. 그 후 시퀀서가 이 표시를 읽어 DNA의 순서를 파악한다. 그리고 컴퓨터 프로그램이 이 정보를 분석해 준다.
이 기술 덕분에, 사람의 전체 DNA를 분석하는 것도 가능해졌다. 이를 통해 질병의 원인을 찾거나 새로운 약을 개발하는 등 여러 가지 연구가 진행되고 있다.
결론적으로, 시퀀서는 DNA의 정보를 읽어내는 중요한 기계로, 많은 연구에서 필수적으로 사용된다.
🎨 기준 서열(Reference Sequence)이란?
- 기준이 되는 서열!
기준 서열은 특정 생물체의 DNA 전체 순서 중에서 대표적으로 사용되는 DNA 순서를 말한다.
이것을 예로 들면, 학교 교과서의 표준판과 비슷하다. 학교에서는 여러 버전의 교과서가 있을 수 있는데, 그 중에서 한 가지 표준판을 기준으로 학습하게 된다.
마찬가지로, 생물체의 DNA도 조금씩 다른 여러 버전이 있을 수 있다. 그 중에서 한 가지를 대표로 선택한 것이 바로 기준 서열이다. 연구자들은 이 기준 서열을 바탕으로 연구를 진행하거나, 다른 DNA 서열과 비교한다.
간단히 말하면, 기준 서열은 특정 생물체의 DNA 중에서 대표적으로 사용되는 "표준판" DNA 순서를 의미한다.
- Genome Reference Consortium에서는 사람을 포함한 여러 종들의 기준이 되는 서열을 만들어 변이를 찾는 등의 분석에 활용할 수 있게 기준 서열을 만듦
https://www.ncbi.nlm.nih.gov/grc
Genome Reference Consortium
Responded back to the user the MANE policies for updating a transcript in the Reference. This is a duplicate of HG-2609.
www.ncbi.nlm.nih.gov
👉🏻 다른 염기(변이)를 찾는 방법
- 시퀀서에서 DNA 조각을 읽으면 Read라는 단위로 나온다
시퀀서는 DNA의 정보를 읽는 기계다. 이 기계를 사용하면 DNA의 순서를 알아낼 수 있다. 이 때 시퀀서에서 읽힌 DNA의 정보 조각을 "리드"라고 부른다.
리드를 간단하게 설명하면, DNA의 작은 조각이나 부분을 의미한다. 생각해보면, 긴 문장에서 몇 글자나 몇 단어를 잘라낸 것과 비슷하다. 시퀀서는 이 긴 DNA 문장을 작은 조각, 즉 리드로 잘라서 읽어낸다.
이렇게 읽어낸 리드들은 나중에 컴퓨터 프로그램을 통해 모아서 원래의 긴 DNA 순서를 재구성한다. 마치 퍼즐 조각들을 모아서 전체 그림을 완성하는 것과 비슷하다.
요약하면, 리드는 시퀀서로 읽어낸 DNA의 작은 정보 조각을 말하며, 이 리드들을 모아서 전체 DNA의 순서를 알아낼 수 있다.
- 기준 서열에 결과로 나온 Read들을 붙여본다
- 비교해서 바뀐 염기를 찾아 테이블 형태로 정리
🧩 FASTQ
- 리드를 포함한 파일
FASTQ는 DNA 시퀀싱 결과를 저장하는 파일 형식이다.
이 파일 안에는 시퀀서에서 읽어낸 DNA의 작은 조각들, 즉 "리드"의 정보가 들어 있다. 또한 각 리드의 품질 정보도 함께 저장된다. 생각해보면, 이것은 읽어낸 DNA 정보와 그 정보의 정확도를 나타내는 점수가 적힌 목록 같은 것이다.
🧩 BAM
- 리드를 정렬해서 나온 것
BAM 파일은 DNA 리드들을 참조 DNA 서열에 맞춰 정렬한 후 그 결과를 저장하는 파일 형식이다.
간단히 말하면, 리드들이 원래 DNA의 어느 부분에서 왔는지를 보여주는 파일이다. 마치 퍼즐 조각들을 전체 그림에 맞춰 놓은 것과 비슷하다.
🧩 VCF
- 변이를 테이블 형태로 정리한 것
VCF는 DNA의 변이 정보를 저장하는 파일 형식이다.
DNA 서열 중에서 어떤 부분이 변했는지, 그 변이가 어떤 것인지를 나타내는 정보가 들어 있다. 예를 들면, 특정 위치에서 A 염기가 T 염기로 바뀐 것과 같은 변이 정보를 담고 있다.
➡️이러한 과정이 변이를 찾는 파이프라인
파이프라인이란?
파이프라인은 여러 단계의 과정을 순서대로 진행하는 방식을 말한다. 일상에서의 파이프라인은 물이나 기름을 흐르게 하는 통로 같은 것을 생각하면 되는데, 여기서는 연속적인 작업 과정을 의미한다.
컴퓨터나 연구에서의 파이프라인은 여러 작업을 차례대로 연결해서 처리하는 방법이다. 마치 제조 공장에서 원자재가 여러 공정을 거쳐 완제품이 되는 것처럼, 데이터도 파이프라인의 여러 단계를 거쳐 원하는 결과를 얻게 된다.
Variant Calling Pipeline
GATK Best Practice
- 미국의 Borad institute라는 연구소에서 DNA 변이를 찾는 일련의 과정을 표준화
- 이를 GATK Best Practice라고 함
https://gatk.broadinstitute.org/hc/en-us
출처: https://youtu.be/6GJ3GqkUK94?si=NfgdKETtRnQdhtih
'데이터분석 > Bioinformatics' 카테고리의 다른 글
[한주현님강의] DNA 분석 파이프라인(2) (0) | 2023.10.18 |
---|---|
[한주현님강의] DNA 분석 파이프라인(1) (1) | 2023.10.18 |
[한주현님강의] 생물정보학 리눅스 툴 설치하기 (samtools), bam파일 보는 방법 + WSL2 우분투 설치 방법 (0) | 2023.10.13 |
Samtools, BAM파일, FASTQ 알아보기 (0) | 2023.10.11 |
[한주현님강의] 바이오파이썬 설치와 jupyter notebook에서 실행 (1) | 2023.10.11 |