원래 이전 게시글에 정리하려다가 너무 복잡해지는 것 같아서 따로 정리했어요
이전 게시글 보러 가기👇🏻
https://dev-study-501.tistory.com/151
🎨 Samtools
= BAM 파일을 다루는 툴이다
생물정보학은 생물학적 데이터를 수집, 저장, 분석하고 해석하는 학문 분야로, 이러한 데이터 분석에는 다양한 컴퓨터 프로그램과 툴이 사용됩니다. Samtools는 이러한 툴 중 하나로, 특히 DNA와 RNA의 시퀀싱 데이터를 다루는데 널리 사용됩니다.
👉🏻 생물정보학에서 주로 다루는 데이터 형식
- SAM (Sequence Alignment/Map) 파일: DNA나 RNA 시퀀싱 데이터와 그 데이터가 참조 게놈에 어떻게 정렬되었는지에 대한 정보를 담고 있는 텍스트 형식의 파일입니다.
- BAM 파일: SAM 파일을 압축한 이진 형식의 파일로, 큰 용량의 시퀀싱 데이터를 효율적으로 저장하고 다루기 위해 사용됩니다.
👉🏻 Samtools의 주요 기능
- 파일 변환: SAM 파일을 BAM 파일로, 또는 그 반대로 변환할 수 있습니다.
- 파일 보기: BAM 파일의 내용을 텍스트 형식으로 볼 수 있습니다.
- 파일 정렬: 시퀀싱 데이터를 참조 게놈에 따라 정렬합니다.
- 인덱싱: BAM 파일을 빠르게 탐색할 수 있도록 인덱스를 생성합니다.
- 통계 및 분석: 정렬된 시퀀싱 데이터에 대한 다양한 통계 정보를 제공합니다.
Samtools를 사용하여 시퀀싱 데이터를 분석하려면, 리눅스 기반의 환경에서 명령어를 통해 작업을 수행합니다. 따라서 Samtools를 효과적으로 사용하려면 기본적인 리눅스 명령어와 시퀀싱 데이터에 대한 이해가 필요합니다.
결론적으로, Samtools는 생물정보학 연구에서 DNA와 RNA의 시퀀싱 데이터를 다루는 데 필수적인 리눅스 툴입니다. 시퀀싱 데이터를 정렬, 변환, 인덱싱하고, 데이터에 대한 다양한 통계 정보를 얻을 수 있습니다.
🎨 BAM 파일
- BAM 파일은 FASTQ를 맵핑한 파일 포맷
BAM 파일을 이해하기 위해서는 먼저 DNA 시퀀싱에 대한 간단한 배경지식이 필요합니다. DNA 시퀀싱은 생물의 DNA 서열을 읽어내는 과정입니다. 현대의 DNA 시퀀싱 기술은 수백만 개의 DNA 조각을 동시에 읽어낼 수 있습니다. 이렇게 읽어진 DNA 조각들을 "리드(reads)"라고 부릅니다.
이제 BAM 파일에 대해 설명하겠습니다:
- BAM 파일이란?
- BAM 파일은 DNA나 RNA 시퀀싱 데이터를 저장하는 파일 형식입니다. 특히, 이 파일은 "리드"가 어떻게 참조 게놈에 정렬되었는지에 대한 정보를 포함하고 있습니다.
- BAM은 사실 SAM (Sequence Alignment/Map) 파일의 압축 버전입니다. SAM 파일은 텍스트 기반인 반면, BAM 파일은 이진 형식으로, 컴퓨터가 더 빠르게 읽고 쓸 수 있게 되어있습니다.
- BAM 파일의 중요성
- 시퀀싱 데이터는 굉장히 큰 용량을 차지할 수 있습니다. BAM 형식은 이 데이터를 효율적으로 저장하고, 빠르게 접근하고 분석할 수 있도록 도와줍니다.
- BAM 파일을 사용하면, 특정 위치의 게놈에 어떤 리드들이 정렬되었는지 쉽게 파악할 수 있습니다. 이는 질병 연구나 변이 찾기 등 여러 분야에서 중요합니다.
- BAM 파일의 구조
- BAM 파일은 헤더와 정렬된 리드 두 부분으로 구성됩니다.
- 헤더: 참조 게놈의 정보, 정렬에 사용된 프로그램의 정보, 그외 메타데이터 등을 포함합니다.
- 정렬된 리드: 각 리드와 그 리드가 참조 게놈의 어디에 위치하는지에 대한 정보를 포함합니다.
- BAM 파일은 헤더와 정렬된 리드 두 부분으로 구성됩니다.
간단히 말하면, BAM 파일은 DNA 시퀀싱 데이터를 효과적으로 저장하고 관리하는 도구입니다. 생물정보학 연구에서는 이 BAM 파일을 사용하여 DNA의 변이, 특정 유전자의 발현 등 다양한 정보를 분석합니다.
🎨 FASTQ
DNA나 RNA를 시퀀싱할 때, 가장 처음 얻게 되는 원시 데이터를 저장하는 파일 포맷이 바로 FASTQ입니다. 이 파일 포맷을 이해하기 위해서는 DNA 시퀀싱의 기본적인 개념을 알고 있어야 합니다. DNA 시퀀싱은 DNA의 서열, 즉 A, T, C, G로 이루어진 문자열을 읽어내는 과정입니다.
이제 FASTQ 파일에 대해 설명하겠습니다:
- FASTQ란?
- FASTQ는 DNA나 RNA 시퀀싱에서 얻은 리드(reads)와 그 리드의 품질 정보를 함께 저장하는 파일 포맷입니다.
- 각 리드는 DNA 또는 RNA 조각의 서열을 나타냅니다.
- 품질 정보는 각 서열의 문자(A, T, C, G)마다 얼마나 확신을 가지고 읽었는지를 나타내는 점수입니다.
- FASTQ의 구조
- FASTQ 파일은 주로 4줄의 세트로 구성됩니다:
- 리드의 설명: 리드의 ID나 기타 정보를 포함할 수 있습니다.
- 리드의 서열: A, T, C, G로 이루어진 문자열입니다.
- 설명 구분자: '+' 문자가 주로 사용됩니다.
- 품질 점수: 리드의 각 서열 문자에 대한 품질 정보입니다. 일반적으로 ASCII 문자로 표시됩니다.
- FASTQ 파일은 주로 4줄의 세트로 구성됩니다:
- FASTQ의 사용
- FASTQ 파일은 시퀀싱 데이터의 초기 분석 단계에서 사용됩니다. 이 파일을 바탕으로 참조 게놈에 리드를 정렬(mapping)하게 되며, 그 결과가 BAM 파일로 저장됩니다.
- 리드의 품질 정보는 해당 리드의 신뢰도나 정확도에 대한 평가를 할 때 중요하게 사용됩니다.
간단히 말하면, FASTQ는 DNA나 RNA 시퀀싱 결과와 그 결과의 품질 정보를 함께 저장하는 파일 포맷입니다. 시퀀싱 기계에서 바로 얻는 원시 데이터 형태이며, 이 데이터를 바탕으로 여러 생물정보학적 분석을 수행하게 됩니다.
🧩 DNA

DNA란 무엇인가?
DNA(Deoxyribonucleic Acid, 디옥시리보핵산)는 우리 몸의 세포 안에 있는 작은 명령서 같은 것입니다. 이 명령서는 우리의 생물학적 특성, 예를 들면 키, 눈 색, 피부 색 등을 결정합니다.
DNA의 구조
DNA는 더블 헬릭스(double helix)라는 나선형 구조를 가지고 있습니다. 이것은 두 개의 긴 나선이 서로 얽힌 모양을 생각하시면 됩니다.
DNA의 구성요소
DNA는 작은 부품들로 이루어져 있는데, 이 부품들을 '뉴클레오티드'라고 부릅니다. 각 뉴클레오티드는 세 가지 부분으로 구성되어 있습니다:
- 인산 (Phosphate)
- 당 (Deoxyribose sugar)
- 베이스 (Base): 4가지 종류가 있으며, 이들은 A (아데닌), T (티민), C (시토신), G (구아닌)로 알려져 있습니다.
이 베이스들은 특별한 방식으로 서로 짝을 이룹니다: A는 항상 T와, C는 항상 G와 짝을 지어 나선형 구조를 만들게 됩니다.
DNA의 역할
DNA는 우리 몸의 모든 세포에 정보를 저장하는 역할을 합니다. 이 정보는 생명체가 자라고, 발달하며, 정상적으로 기능하도록 지시를 내립니다. 때때로, 이 DNA 정보를 '유전자'라는 단위로 나눠서 생각하기도 합니다. 각 유전자는 특정한 단백질이나 기능을 만들도록 하는 정보를 포함하고 있습니다.
요약
DNA는 우리 몸의 세포에 저장된 명령서와 같습니다. 이 명령서는 우리가 어떻게 생겼는지, 우리 몸이 어떻게 동작해야 하는지에 대한 정보를 담고 있습니다. DNA는 특별한 나선형 구조를 가지고 있으며, 그 구조 안에는 우리의 유전 정보가 암호화되어 있습니다.
DNA - 나무위키
DNA의 정보를 분석하여 의료 정보 등에 활용하는 것이다. 유전병 등을 파악하는데 사용되며, 미래에 발생할 수 있는 건강상의 문제를 미리 알아보는 용도로도 사용된다. DNA를 사용하여 범인을 잡
namu.wiki
🧩 RNA
RNA란 무엇인가?
RNA(ribonucleic acid, 리보핵산)는 DNA와 유사한, 하지만 몇 가지 중요한 차이점이 있는 분자입니다. RNA는 우리 몸의 세포에서 특정 기능을 수행하기 위한 메시지 또는 도구로써 역할을 합니다.
RNA와 DNA의 차이:
- 구조: DNA는 더블 헬릭스 구조를 가지는 반면, RNA는 주로 단일 나선 구조를 가집니다.
- 당: RNA는 ribose라는 당을 포함하며, DNA는 deoxyribose 당을 포함합니다.
- 베이스: RNA에는 DNA의 T (티민) 대신 U (우라실)이라는 베이스가 있습니다. 따라서 RNA는 A (아데닌)과 U (우라실), C (시토신)과 G (구아닌)의 짝을 이룹니다.
RNA의 주요 형태와 기능:
- mRNA (메신저 RNA): DNA에 저장된 정보를 담아 세포의 다른 부분으로 전달하는 역할을 합니다. 즉, DNA의 메시지를 "읽어서" 단백질 생성에 필요한 지시사항으로 번역하는 중재자 역할을 합니다.
- rRNA (리보솜 RNA): 리보솜이라는 세포 내 구조에서 단백질을 생성하는데 중요한 역할을 합니다.
- tRNA (전송 RNA): 아미노산(단백질의 구성 요소)을 가져와 mRNA의 지시에 따라 단백질을 조립하는 과정에서 중요한 역할을 합니다.
RNA의 중요성
RNA는 세포 내에서 DNA의 정보를 실제로 동작하게 만드는 중요한 과정, 즉 단백질 합성에서 중요한 역할을 합니다. 단백질은 우리 몸의 구조와 기능을 결정하는 주요 분자 중 하나입니다.
요약
RNA는 세포 내에서 DNA의 정보를 사용하여 단백질을 만드는 데 필요한 메시지와 도구 역할을 하는 분자입니다. RNA는 여러 가지 형태와 기능을 가지며, 이를 통해 세포와 생명체가 올바르게 기능하도록 지원합니다.
추가: https://ko.wikipedia.org/wiki/RNA
RNA - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 리보핵산(RNA)은 유전자의 코딩, 디코딩, 조절 및 발현에서 다양한 생물학적 역할에 필수적인 고분자 분자이다. RNA와 디옥시리보핵산(DNA)은 핵산이다. 지질, 단
ko.wikipedia.org
🧩 시퀀싱
DNA와 RNA는 생명체의 유전 정보를 담고 있는 분자입니다. 이 분자들은 네 가지 주요 '빌딩 블록' 또는 '기본 단위'로 이루어져 있습니다. DNA의 경우 이러한 기본 단위를 "네클레오티드"라고 부르며, 각각 A(아데닌), T(티민), C(시토신), G(구아닌)로 표현됩니다. RNA의 경우 T 대신 U(우라실)이 사용됩니다.
- 시퀀싱(Sequencing)은 이 네클레오티드들이 DNA나 RNA 분자 내에서 어떤 순서로 배열되어 있는지를 확인하는 과정입니다. 즉, DNA나 RNA의 '서열'을 읽는 것입니다.
시퀀싱을 좀 더 쉽게 이해하기 위한 비유를 들어보겠습니다:
상상해보세요, 우리는 방대한 책의 페이지들 속에서 글자들의 정확한 순서를 알아내려고 합니다. 이 책의 각 글자는 A, T, C, G 중 하나이며, 이 글자들의 정확한 순서가 우리가 알아내려는 '서열'입니다. 시퀀싱은 이 책의 페이지를 하나씩 읽어가며, 각 페이지에 어떤 글자들이 어떤 순서로 배열되어 있는지를 확인하는 과정이라고 볼 수 있습니다.
최근의 시퀀싱 기술은 한 번에 수백만 개의 짧은 DNA 조각들을 동시에 읽을 수 있습니다. 그러나 이 짧은 조각들을 원래의 순서대로 다시 배열하는 것은 큰 도전과제입니다. 이러한 도전을 극복하기 위해 다양한 컴퓨터 알고리즘과 소프트웨어 도구들이 사용됩니다.
요약하면, 시퀀싱은 DNA나 RNA의 네클레오티드 서열을 읽는 과정입니다. 이 서열은 생물체의 유전 정보를 담고 있으므로, 이를 통해 유전병, 진화, 발달 등 다양한 생물학적 현상을 연구할 수 있습니다.
🧩 참조 게놈
참조 게놈(Reference Genome)이란?
게놈(genome)은 생물체의 모든 유전 정보를 담고 있는 DNA의 전체 집합을 말합니다. 각 생물체의 게놈은 그 생물체의 모든 특징과 기능을 결정짓는 정보를 포함하고 있습니다.
참조 게놈은 특정 종의 표준 게놈으로, 그 종에 속하는 개체들의 게놈을 연구하고 분석할 때 기준으로 사용되는 게놈입니다. 다시 말해, 참조 게놈은 그 종의 "대표적인" 게놈으로 생각할 수 있습니다.
왜 참조 게놈이 필요한가?
- 비교: 다른 개체의 게놈을 참조 게놈과 비교함으로써, 특정 게놈의 차이점이나 변이를 쉽게 파악할 수 있습니다.
- 정렬: DNA 시퀀싱에서 얻은 조각들(fragment)을 올바른 순서대로 배열하기 위해 참조 게놈을 사용하여 정렬합니다.
- 정보의 표준화: 연구자들 사이에서 같은 기준으로 연구를 진행할 수 있게 해줍니다.
예시로 이해하기
생물체의 게놈을 큰 책에 비유해보겠습니다. 이 책에는 그 생물체의 모든 특징과 기능에 대한 정보가 담겨 있습니다. 이제, 우리는 특정 종의 모든 개체들에 대한 책을 모두 모아놓고 한 권의 "대표 책"을 만들기로 결정했다고 가정해봅시다. 이 대표 책이 바로 참조 게놈입니다. 다른 개체의 게놈(=책)이 참조 게놈(=대표 책)과 얼마나 다른지, 어떤 특징이 추가되었는지, 어떤 부분이 빠졌는지를 비교하기 위해 참조 게놈을 사용합니다.
요약
참조 게놈은 특정 종의 "대표적인" 게놈으로, 다른 개체의 게놈을 연구하고 분석할 때 기준으로 사용됩니다. 이를 통해 연구자들은 게놈의 변이나 특징을 쉽게 파악하고, 그 정보를 표준화된 방식으로 공유할 수 있습니다.
'데이터분석 > Bioinformatics' 카테고리의 다른 글
[한주현님강의] DNA 분석 파이프라인(1) (1) | 2023.10.18 |
---|---|
[한주헌님강의] DNA 분석 파이프라인 - 소개편 (0) | 2023.10.17 |
[한주현님강의] 생물정보학 리눅스 툴 설치하기 (samtools), bam파일 보는 방법 + WSL2 우분투 설치 방법 (0) | 2023.10.13 |
[한주현님강의] 바이오파이썬 설치와 jupyter notebook에서 실행 (1) | 2023.10.11 |
세포를 컴퓨터처럼 프로그래밍…癌치료 등 인류 난제 해결한다 (0) | 2023.10.06 |