데이터분석/Bioinformatics 10

[한주현님강의] 코로나 19 바이러스 서열 분석

🎨Weblogo - DNA, RNA, 및 단백질 서열의 로고 형태로 시퀀스 정렬을 생성하는 데 주로 사용되는 유명한 툴이다. - 시퀀스 로고는 여러 시퀀스들의 정렬에서 특정 위치에서의 문자(뉴클레오티드나 아미노산)의 분포와 중요도를 시각적으로 표현하는 그림이다. - 각 포지션마다 어떤 서열이 분포하는지 👉🏻 WebLogo의 특징 각 위치에서의 문자의 높이는 그 문자의 상대적 빈도나 중요도를 나타낸다. 로고의 높이는 각 위치에서의 정보 콘텐츠를 나타내고, 보통 비트(bit) 단위로 표현된다. WebLogo는 다양한 서열 정렬 형식, 예를 들어 FASTA, NBRF/PIR, ClustalW, GCG MSF, Phylip 등을 지원한다. 결과 로고는 PNG, SVG, PDF 같은 다양한 이미지 형식으로 출력할..

[한주현님강의] DNA 분석 파이프라인(4)

Genome Analysis Tutorial - Duplication 리드 marking 🎨Duplication Read - NGS에서 서열을 읽는 과정에서 필연적으로 PCR과 같이 DNA를 증폭시키는 과정이 있다 더보기 PCR은 DNA 증폭 방법이다. 증폭이라는 말은 '많이 만들어내는 것'이다. PCR을 사용하면 작은 양의 DNA를 가지고 그 DNA의 많은 복사본을 만들 수 있다. 생각해보면, 복사기를 사용해서 한 장의 문서를 여러 장으로 복사하는 것과 비슷하다. PCR은 DNA 복사기와 같은 역할을 하는데, 이를 통해 DNA의 매우 작은 부분을 많이 복사하여 연구나 검사에 사용할 수 있다 더보기 간단히 설명하면, PCR 검사는 바이러스의 조그만 부분을 크게 확대해서 볼 수 있게 만드는 도구라고 생각하..

[한주현님강의] DNA 분석 파이프라인(3)

Genome Analysis Tutorial - 툴 체크와 셋팅 에서 시작! 👉🏻Samtools 나는 첫 번째 영상 보고 따라해서 이 위치에 samtools가 깔려 있다. 그래서 강사님과 달리 이렇게 입력했고 이렇게 결과를 볼 수 있다 이 자체를 실행해보면 다음과 같은 결과가 나온다 👉🏻 BWA BWA 부터는 이 튜토리얼을 따라 설치했기 때문에 강사님과 같은 명령어를 입력하면 됐다 다시 이 자체를 실행해서 이렇게 결과가 나오면 된다 👉🏻 GATK4 - jar 파일은 자바로 실행 자바가 잘 깔려 있는지 확인 잘 깔려 있다 - Java버전이 1.8이상이어야한다 자바 버전 체크 8보다 높아서 괜찮음 GATK 실행해보기 이렇게 나오면 잘 된 것! 👉🏻환경설정 (필수는 아님) samtools 사용할 때 마다 해당..

[한주현님강의] DNA 분석 파이프라인(2)

Genome Analysis Tutorial - 툴 설치 📚 툴 설치 BWA2: FASTQ 리드를 기준 서열에 mapping해주는 툴 Samtools: BAM 파일을 다루는 툴 GATK4: BAM 파일에서 변이를 calling하여 VCF를 생성하는 툴 👉🏻 BWA2 설치 1️⃣ 첫 번째 방법 ✅ 툴을 위한 디렉토리를 만들기 홈 디렉토리에서 진행 mkdir 명령어를 통해 tool이라는 디렉토리 생성 cd를 통해 tool 디렉토리로 이동 이동 완료 ✅ 명령어 실행하기 다음 명령어들을 순서대로 터미널 창에 붙여넣기 한다 curl -L https://github.com/bwa-mem2/bwa-mem2/releases/download/v2.0pre2/bwa-mem2-2.0pre2_x64-linux.tar.bz2 ..

[한주현님강의] DNA 분석 파이프라인(1)

Genome Analysis Tutorial - Intro ❗Public raw Data DNA에서 나타난 유전적 변이(Variant)들을 생물 정보학 툴을 사용해 리눅스 환경에서 찾아보고자 함 - NA 12878이라는 공공데이터 사용 raw데이터(미 가공 상태의 데이터)인 FASTQ에서 기준 서열이라고 불리는 refernce서열에 맞춰 BAM파일을 만든다 BAM파일에서 유전적 변이를 찾아내는 Variant calling 과정을 거쳐 VCF 파일을 만든다 📚배울 내용 및 강의 특징 리눅스 환경에서 DNA mutation (SNV, Indel)을 검출하는 파이프라인 제작 파이프라인을 구성하는 각 툴을 설치하는 방법 학습 각 툴들을 실행하여 분석 파이프라인을 완성하고 결과 파일을 생성 BWA2, GATK4와..

[한주헌님강의] DNA 분석 파이프라인 - 소개편

🎨 DNA란? 생명체의 유전 정보를 담고 있는 물질 DNA는 "디옥시리보핵산"이라는 이름을 가진 분자로, 모든 생명체의 유전 정보를 저장하고 있다. 생각해보면, DNA는 우리의 외모나 특징을 결정하는 매우 복잡한 설명서와 같다. DNA는 특별한 '이중 나선' 구조를 가지고 있으며, 이는 마치 긴 사다리와 같다. 그 사다리의 각 계단은 "베이스 쌍"이라 불리는 두 분자로 이루어져 있다. 이 베이스 쌍은 네 가지, A(아데닌), T(티민), C(시토신), G(구아닌)로 구성되어 있다. 이들 분자의 특별한 배열 순서가 우리의 유전적 특성, 예를 들면 눈의 색이나 키, 피부색 등을 결정한다. 그러니, DNA는 결국 우리 몸의 모든 정보와 지침을 담고 있는 이중 나선 구조의 분자라고 할 수 있다. DNA 구성 염..

[한주현님강의] 생물정보학 리눅스 툴 설치하기 (samtools), bam파일 보는 방법 + WSL2 우분투 설치 방법

👉🏻 오늘 설치할 툴 samtools BAM파일을 다루는 툴 BAM파일은 FASTQ를 맵핑한 파일 포맷 👉🏻 리눅스 툴 설치의 어려움 윈도우에서 설치하던 것 처럼 더블클릭으로 쉽게 되지 않는다 리눅스에서는 툴을 설치하기 위해 필요한 프로그램 (즉, dependency)들을 미리 설치해야 설치가 진행된다 👉🏻 실습 준비물 인터넷이 연결된 리눅스 운영체제 아무것도 안 깔려 있는 기본 ubuntu를 gcp(Google Cloud Platform)에서 구동함 저는 리눅스부터 설치해야하는 상황이라 리눅스 설치를 하겠습니다. 설치 되어있는 분들은 이 단계를 넘어가주세요! ✅ 리눅스 설치하기 더보기 Windows Subsystem for Linux (WSL) 사용: 최근의 윈도우 버전들은 WSL을 지원합니다. WSL..

Samtools, BAM파일, FASTQ 알아보기

원래 이전 게시글에 정리하려다가 너무 복잡해지는 것 같아서 따로 정리했어요 이전 게시글 보러 가기👇🏻 https://dev-study-501.tistory.com/151 🎨 Samtools = BAM 파일을 다루는 툴이다 생물정보학은 생물학적 데이터를 수집, 저장, 분석하고 해석하는 학문 분야로, 이러한 데이터 분석에는 다양한 컴퓨터 프로그램과 툴이 사용됩니다. Samtools는 이러한 툴 중 하나로, 특히 DNA와 RNA의 시퀀싱 데이터를 다루는데 널리 사용됩니다. 👉🏻 생물정보학에서 주로 다루는 데이터 형식 SAM (Sequence Alignment/Map) 파일: DNA나 RNA 시퀀싱 데이터와 그 데이터가 참조 게놈에 어떻게 정렬되었는지에 대한 정보를 담고 있는 텍스트 형식의 파일입니다. BAM ..

[한주현님강의] 바이오파이썬 설치와 jupyter notebook에서 실행

Anaconda Prompt로 들어가 where python 명령어 실행 : 파이썬이 어디 설치되어 있는지 알려줌 더보기 where pip 명령어 실행 : pip라는 파이썬 라이브러리를 설치해주는 프로그램이 어디 설치되어있는지 알려줌 더보기 파이썬 실행 import Bio 설치가 되어 있지 않기 때문에 에러남 pip install Biopython 설치 완료 다시 python으로 들어가 import Bio 해보면 잘 실행되는 것을 볼 수 있다. Bio.__version__ 설치된 버전을 확인할 수 있다 (강의가 촬영된 3년 전에는 1.77이었다고 한다) Jupyter notebook에서 실행해보기 (주피터 노트북 오랜만이다..) New → Folder를 통해 알맞은 위치에 폴더를 생성한다 해당 경로에서 ..