공부/바이오인포매틱스

FASTQC 설치 방법 및 실행법

Mosser 2022. 9. 12.
728x90
반응형

서론

이번 시간에는 RNA-Sequencing 데이터 분석 과정중 가장 첫번째로 해야하는 과정인 Quality control(QC) 과정에 대해서 알아보겠습니다. RNA-Sequencing을 하게 되면 FASTQ파일이 나오게 되는데요. 보통 raw fastq파일이라고 합니다. 이 fastq 파일의 퀄리티를 확인하는 과정이 먼저 필요하게 되는거죠!

 

 

[바이오인포매틱스] Fastq 파일형식

FASTQ format ​ 'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequenci..

develsw.tistory.com

 

 

NGS란?

서론 이번 게시글에서는 Next Generation Sequencing (NGS)가 무엇인지에 대해 알아보도록 하겠습니다. NGS는 한국어로 해석하면 차세대 염기서열 분석법이라고 부릅니다. 물론 현재는 차세대라고 하기에

develsw.tistory.com

 

그래서 quality control을 해주는 대표적인 툴로 FASTQC 를 소개시켜드리도록 하겠습니다.

 

FastQC란?

FASTQC는 말 그대로 raw fastq 파일의 QC를 해주는 소프트웨어입니다. 

 

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

위 링크에서 다운받을 수 있습니다. 

 

한번 다운을 받아볼까요?

 

FastQC 설치방법 및 실행

위 홈페이지에 들어가셔서 Download now 버튼을 클릭하면 페이지가 이동됩니다.

그럼 제일위에 아래와 같은 내용이 있습니다.

 

여기서는 사용하고자 하는 플랫폼에 따라서 FastQC파일을 다운받으면 됩니다. 보통은 Window나 리눅스에서 사용하기 때문에 해당 플랫폼의 FastQC를 설치하면 됩니다.

 

저는 리눅스에 설치 할 예정이기 때문에 오른쪽 버튼을 눌러 링크 주소를 복사했습니다.

 

그래서 리눅스 터미널 창에서 wget을 이용하여 다운받았습니다.

wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip

그러면 다운로드가 됩니다.

 

 

unzip fastqc_v0.11.9.zip

unzip을 이용해서 풀어주시면 이제 디렉토리가 나옵니다.

 

 

 

해당 디렉토리로 들어가면 위와 같은 내용들이 나옵니다. 저기서 fastqc 파일이 실행파일인데요.

 

fastqc 파일을 실행하기 위해서는 java가 기본적으로 필요합니다. 그래서 java 환경이 설정되어 있지 않다면 

 

리눅스 배포판 버전에 따라서 설치해줘야합니다.

#### Ubuntu or Debian ####
sudo apt install default-jre

#### CentoOS or Redhat ####
sudo yum install java-1.8.0-openjdk

 

그 후에, ./fastqc를 입력하면 실행이 되어야 하는데, 위에서 보듯이 fastqc 파일에 실행옵션이 없습니다.

 

그래서 아래 명령어로 실행옵션을 넣어줍시다.

 

chmod +x fastqc

 

그 후,

./fastqc <fastq 파일 이름>

 

위 그림의 옵션에 따라 인풋값을 넣어주면 됩니다.

 

그러면 알아서 fastqc가 fastq파일에 대한 quality를 확인해주고 아래와 같은 결과가 저장됩니다.

 

 

위에서 html 파일을 윈도우로 옮기신 후에 더블클릭하시면 아래와 같은 레포트를 볼 수 있을것입니다.

 

 

위 레포트를 기준으로 데이터에 대한 퀄리티를 판단하시면 됩니다. 녹색 체크표시는 QC를 PASS 했다는 의미이고, 주황색은 WARNING을 의미하고, 빨간색은 FAIL을 의미합니다. 각 항목에 대한 소개는 FASTQC 홈페이지에 들어가서 메뉴얼을 확인해보시면 됩니다!

 

다음에는 Trimmomatic을 설치하는 방법과 Adapter 및 퀄리티가 낮은 염기서열을 제거하는 방법에 대해 알아보도록 하겠습니다!

반응형

댓글