공부/바이오인포매틱스
[바이오인포매틱스] Fastq 파일형식
728x90
반응형
FASTQ format
'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다.
파일 내용
대부분 위와 비슷한 형식이나 사용한 시퀀서의 회사별로 파일 형식이 조금씩은 다르다.
첫번째 줄
Sequence identifier 부분
Run id
Flowcell id
Flowcell lane
NGS에서는 여러 개의 샘플을 섞어서 load 하는데 8개의 lane을 가지고 있는 flow cell 즉 한꺼번에 8개의 load를 한꺼번에 처리 가능
Flowcell lane 안의 타일 개수
타일 내 클러스터 내의 x좌표
타일 내 클러스터 내의 y좌표
리드의 길이
두번째 줄
'ACGT'로 구성되어있다. N은 ACGT중 무엇인지 모를 때 존재한다.
세번째 줄
중요하지는 않은 라인
네번째 줄
Quality Score가 아스키코드로 인코딩되어 나타나 있다.
Quality score란?
하나의 Sequence position에서 base call 에러 확률에 대해 계산한 값
P: Probability of color call error
즉 염기를 잘못 해독할 확률
반응형
'공부 > 바이오인포매틱스' 카테고리의 다른 글
NGS란? (0) | 2022.09.05 |
---|---|
시퀀싱이란? (0) | 2021.10.11 |
[바이오인포매틱스] Annotation 파일 다운받기 (0) | 2021.10.06 |
[바이오인포매틱스] SRAtoolkit 설치 (0) | 2021.10.06 |
[Sequence assembly] Overlap Consensus Graph (0) | 2021.09.13 |
댓글