공부/바이오인포매틱스

시퀀싱이란?

Mosser 2021. 10. 11.
728x90
반응형

시퀀싱이란 무엇인가?

시퀀싱에 대해서 알아보기 전에, 우선 시퀀스에 대해서 알아보자.

 

시퀀스란 무엇인가?

시퀀스(Sequence)?

 

네이버 영어사전을 참고해보자.

 

연속적인 사건들이라고 나와있다.

 

그렇다면 어떤 사건들이 연속적으로 나열되어있다는건데?

 

생물학에서의 시퀀스는 무엇일까?

 

생물체의 유전정보는 DNA 서열로 구성되어 있다. DNA 서열은 4개의 염기(A, G, C, T)로 구성되어있다.

아데닌, 구아닌, 사이토신, 티민이라고 읽는다.

 

예를 들어보자.

 

우리는 인간이다. 위에서 DNA 염기서열은 4개의 염기로 구성되어 있다고 했다.

 

DNA? 염기서열? 이건 나중에 게시글로 추가하겠다. 우선은 아래 이어지는 글에 집중하자.

 

그럼 인간의 DNA 염기서열은 위 4개의 염기가 몇개로 구성되어 있을까?

 

무려.. 30억개이다. 바이오인포매틱스에서 염기 하나를 bp(base pair)라고 표현한다.

즉, 인간의 DNA는 무려 30억개의 base pair로 구성되어 있다.

 

이해가 잘되지 않는가? 그림을 보면 이해가 쉽게 될 것이다.

 

출처: https://compgenomr.github.io/book/fasta-and-fastq-formats.html

즉 위 그림처럼, 인간에게는 A,C,G,T 네개의 문자가 무려 30억개가 있는 것이다.

 

그래서 서로 다른 인간의 DNA 염기서열은 99.9% 정도가 비슷하다고 한다.

우리의 생김새가 다른 이뉴는 0.1%의 차이에 의해서 유전병이나 질병, 생김새 등의 차이가 나타난다.

30억의 0.1%가 어느정도인가 3,000,000 개이다.

대략적인 300만개의 차이로 인해서 우리의 생김새가 달라진다는 것이다.

 

자 그러면 우리는 시퀀스에 대해서 알아봤다.

 

그렇다면,

 

시퀀싱은 무엇일까?

쉽게 말하면, 염기서열을 읽어내는것이다.

 

설마 저렇게 A,C,G,T로 구성되어있다고 해서, 우리의 DNA 속을 들여다봤을때, 저런 영어 알파벳문자로만 구성되어있을까?

 

절대 그렇지 않다.

 

DNA에 존재하는 염기들을 읽어내는 기술을 시퀀싱이라고 한다.

 

그럼 어떻게 읽어낼까? 

 

염기서열을 읽어주는 기계가 존재한다.

 

우리가 혈액이나, 머리카락을 통해서 DNA 검사를 할 수 있는데, 이 머리카락이나 혈액에 존재하는 DNA 염기서열을 읽어내기 위해서 사용하는 기계가 시퀀서(Sequencer)이다.

 

 

일루미나 시퀀서

현재는 다양한 회사에서 시퀀서를 만들어서 제공하고 있다.

대표적인 회사가 일루미나(ilumina)이다.

 

그러면, 우리의 샘플들이 시퀀서에 들어가서 나오면 어떤 결과가 나오게 될까?

 

시퀀서에 들어가서 염기서열을 읽은 후, 우리가 이해할 수 있는 A,C,G,T가 구성된 파일로 만들어준다.

 

이 파일을 Fastq파일 형식이라고 한다

 

이전 게시글에서 Fastq에 대해서 어느정도 설명했지만, 다음 게시글에 좀 더 구체적으로 설명하겠다.

 

 

 

 

 

반응형

댓글