728x90
반응형

Fastq 3

시퀀싱이란?

시퀀싱이란 무엇인가? 시퀀싱에 대해서 알아보기 전에, 우선 시퀀스에 대해서 알아보자. 시퀀스란 무엇인가? 시퀀스(Sequence)? 네이버 영어사전을 참고해보자. 연속적인 사건들이라고 나와있다. 그렇다면 어떤 사건들이 연속적으로 나열되어있다는건데? 생물학에서의 시퀀스는 무엇일까? 생물체의 유전정보는 DNA 서열로 구성되어 있다. DNA 서열은 4개의 염기(A, G, C, T)로 구성되어있다. 아데닌, 구아닌, 사이토신, 티민이라고 읽는다. 예를 들어보자. 우리는 인간이다. 위에서 DNA 염기서열은 4개의 염기로 구성되어 있다고 했다. DNA? 염기서열? 이건 나중에 게시글로 추가하겠다. 우선은 아래 이어지는 글에 집중하자. 그럼 인간의 DNA 염기서열은 위 4개의 염기가 몇개로 구성되어 있을까? 무려....

[바이오인포매틱스] Fastq 파일형식

FASTQ format ​ 'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다. ​ 파일 내용 ​ 대부분 위와 비슷한 형식이나 사용한 시퀀서의 회사별로 파일 형식이 조금씩은 다르다. ​ 첫번째 줄 Sequence identifier 부분 Run id ​ Flowcell id ​ Flowcell lane ​ ​ NGS에서는 여러 개의 샘플을 섞어서 load 하는데 8개의 lane을 가지고 있는 flow cell 즉 한꺼번에 8개의 load를 한꺼번에 처리 가능 Flowcell la..

[바이오인포매틱스] SRAtoolkit 설치

1. 우선 SRA toolkit을 다운 받는다. https://github.com/ncbi/sra-tools GitHub - ncbi/sra-tools: SRA Tools SRA Tools. Contribute to ncbi/sra-tools development by creating an account on GitHub. github.com 2. Download에 들어가서 운영체제의 아키텍쳐에 맞는 파일을 다운받는다. ​ 3. 압축을 푼다. 대부분 tar 파일이기 때문에, tar -xvf 파일이름.tar 이렇게 하면 압축이 풀린다. 압축을 풀었으면 그 폴더 안의 bin 폴더에 들어가면 fastq-dump 파일이 있다. 3. 다운받을 파일이 single-end 일 때는 ​ fastq-dump ​ 4. p..

728x90
반응형