공부/바이오인포매틱스

[바이오인포매틱스] Fastq 파일형식

Mosser 2021. 10. 6.
728x90
반응형

FASTQ format

'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다.

파일 내용

대부분 위와 비슷한 형식이나 사용한 시퀀서의 회사별로 파일 형식이 조금씩은 다르다.

첫번째 줄

Sequence identifier 부분

Run id

Flowcell id

Flowcell lane

NGS에서는 여러 개의 샘플을 섞어서 load 하는데 8개의 lane을 가지고 있는 flow cell 즉 한꺼번에 8개의 load를 한꺼번에 처리 가능

Flowcell lane 안의 타일 개수

타일 내 클러스터 내의 x좌표

타일 내 클러스터 내의 y좌표

리드의 길이

두번째 줄

'ACGT'로 구성되어있다. N은 ACGT중 무엇인지 모를 때 존재한다.

세번째 줄

중요하지는 않은 라인

네번째 줄

Quality Score가 아스키코드로 인코딩되어 나타나 있다.

Quality score란?

하나의 Sequence position에서 base call 에러 확률에 대해 계산한 값

P: Probability of color call error

즉 염기를 잘못 해독할 확률

반응형

댓글