본문 바로가기

studio/scienza

[Chapter 10] How to sequence a genome




모든 내용은 Gene Cloning and DNA Analysis, 6th edition, T.A.Brown, Wiley-Blackwell을 참고하여 작성하였습니다.

본 글의 제목은 언급된 도서의 각 챕터의 절 이름과 동일합니다.

대부분의 그림 역시 본 책에서 왔으며, 그 이외에는 따로 표시합니다.

도움이 되었다는 댓글 하나가 큰 힘이 됩니다!




Chapter 10

Sequencing Genes and Genomes

 

10.2 How to sequence a genome

Genome은 매우 큰 유전물질이므로 chain termination sequencing이나 pyrosequencing같은 방법으로는 sequencing 하기가 굉장히 힘듦

최근에는 대량의 긴 DNA를 한 번에 자동으로 sequencing 할 수 있게 하는 기술들이 발전하고 있음

Shotgun approach, clone contig approach



The shotgun approach to genome sequencing

Genome을 서로 일정 부분이 겹치는 짧은 조각으로 랜덤하게 자른 뒤 각각의 서열을 밝혀내 최종적으로 전체의 서열을 알아내는 방법. Overlap 되는 부분을 찾는 것이 핵심

Genome 크기가 증가할수록 overlap 되는 부분이 많아지고, 각 조각의 서열을 잇는 과정에서 순서가 뒤바뀌거나 중간 부분 서열을 빠뜨리는 등의 실수가 생기므로 비교적 genome 크기가 작은 bacteriavirus의 유전체를 분석하는 데에 쓰임

The Haemophilus influenzae genome sequencing project

1995년에 Haemophilus influenzae의 유전체 서열이 shotgun apporach를 통해 밝혀짐

초음파를 이용해 DNA를 임의로 잘라(sonication) sequencing에 적합한 길이의 1.6-2.0kb 조각들을 얻어낸 후 이를 cloning시켜 총 28,643개의 clone을 얻어냈고, 19,687개를 이용해 sequencing (길이가 짧아서 등의 이유로 나머지는 제외)

컴퓨터가 sequencing 결과를 분석하여 140개의 contiguous sequence, 11.6Mb 정도 길이의 genome을 얻어냄. 겹치는 부분을 분석해 서열들을 일렬로 이었으나 중간에 gap이 생겨 contiguous sequence들이 얻어짐



11.6Mb는 실제 genome 길이의 약 6배이므로, 수작업을 통해 올바른 gap을 찾는 과정이 필요했음

Gap closure을 위해 λ vector를 이용한 genome library를 이용

서열을 아는 140contig(contiguous sequence)들의 양쪽 말단에 대해 probe를 생성

probelibrary에 처리해 어느 clone에 이 probe(contig의 말단)가 속하는지를 알아냄

Contig 1contig 14probe들이 library의 같은 clone에서 신호를 낸다면 이는 contig 1contig 14가 서로 인접한 서열임을 뜻함. clone에 대해 sequencing을 진행한 뒤 contig 1 clone clontig 14(혹은 반대)의 순서로 서열을 이어 gap을 메꿀 수 있음



Problems with shotgun sequencing

비교적 단순하고 작은 크기의 bacterial genome에는 이 방법이 적합하지만 진핵세포에는 부적합

진핵세포는 repeat elements들을 많이 가지고 있어 overlapping을 잘못하면 genome 일부분이 빠진 채 결과가 얻어질 수 있음

The clone contig approach

임의로 잘린 DNA 조각들을 얻어내는 shotgun sequencing과 달리 clone contig approach는 사전에 서열 일부 정보를 아는 DNA 조각들을 이용해 미리 overlap을 아는 상태에서 sequencing을 진행. 각 조각(contig)에 대해서는 shotgun sequencing을 시행하지만 overlap이 파악되었으므로 repeat elements를 가지는 진핵생물에 대해서도 적용 가능

굉장히 정확한 방법이지만 그에 비례하여 많은 일과 돈을 요구

많은 양의 fragment를 사용하므로 그 수를 줄이기 위해 high capacity vector를 사용

S. cerevisiae3번 염색체가 이 방법으로 분석됨 (cosmid vector 사용)

Clone contig assembly by chromosome walking

Chromosome walking method를 이용해 서로 겹치는 DNA fragment들을 library 상에서 찾아냄

하나의 클론을 임의로 library에서 선택하여(아래 그림에서는 A1을 선택했다고 가정) 이 전체 서열을 probe로 하여 library에 혼성화시키면 A1과 양쪽으로 연결된 두 개의 library가 탐지됨

탐지된 B4I4 중 하나를 선택(여기서는 I4를 선택)하여 I4probe로 만들어 같은 과정을 행하면 I4와 연결된 기존 cloneA1와 또 다른 clone이 탐지됨(F2)

새롭게 탐지되는 clone에 대해서 위의 과정을 반복하면 library clone들의 연결 고리를 알 수 있음



Rapid methods for clone contig assembly

Chromosome walking method는 정확하지만 하나의 시작점에서부터 한 단계씩 진행되므로 매우 느림

고정된 시작점 대신 모든 clone을 시작점으로 하여 overlap을 찾아 연결해 pair를 만든 후, 이것들을 다시 서로 연결하면 단계를 훨씬 줄일 수 있음 clone fingerprinting

Clone fingerprinting의 한 방법은 각 clone을 여러 RE로 자른 뒤 같은 RE fragment를 공유하는 contig들을 pair로 잇는 것. 하지만 fragment size를 알기 위해서는 전기영동을 해야 하므로 많은 일이 요구되고, 적절한 RE가 사용되지 못했을 경우 공유되는 조각이 얻어지지 않을 수 있음



Repetitive DNA PCR(interspersed repeat element PCR, IRE-PCR)은 진핵생물에 많이 존재하는 repeatprimer로 함. Repeat은 유전체 상에 불규칙적으로 존재하므로 각 clone에 대해 이 primer를 이용한 PCR을 진행시키면 다양한 길이의 산물이 나올 것. 만약 두 clone이 특정 길이의 repeat을 공유한다면 두 clone은 서로 겹치는 조각이라고 할 수 있음. Restricted fragment의 크기는 역시 전기영동을 통해 비교 가능

Clone contig assembly by sequence tagged site content analysis

이미 알려진 서열이며 전체 유전체 상에 단 한 군데에만 존재한다고 알려진 sequence tagged site(STS)를 기준으로 해서 contig를 이을 수 있음. 보통 STS는 이전 연구에서 밝혀진 유전자인 경우가 많음

STS에 대해 primer를 만들어 이것으로 contig들에 대한 PCR을 진행했을 때 두 contig가 이 primer에 대해서 산물을 만들어낸다면 두 contig는 인접 서열일 것

정리하자면, clone contig assemly는 다음의 네 가지 방법으로 가능

- Chromosome walking method

- Clone fingerprinting

- Repetative DNA PCR (IRE-PCR)

- STS content analysis

Using a map to aid sequence assembly

STS content analysisSTS로 선정된 gene 혹은 sequencegenome 상의 위치를 알 수 있게 하므로 다른 방법보다 유용하게 쓰임 genetic mapping, physical mapping

Genetic maps

염색체 상의 유전자의 상대적인 위치 혹은 유전 패턴을 알려줌

유전자가 분석 대상일 경우 접적인 교배 혹은 가계도(pedigree) 분석을 통해 연구 가능

Genetic mapping을 위해 gene뿐만 아니라 다음의 DNA marker들을 사용할 수도 있음

Single nucleotide polymorphisms (SNPs): 한 종 내 다른 개체들이 가지는 nucleotide 차이. 몇 개의 version이 있는 지로 분류됨. Hybridization을 이용해 비슷한 서열을 찾은 후 SNP의 유무를 찾을 수 있음

Restriction fragment length polymorphisms (RFLPs): SNPs의 한 종류로, restriction site의 서열 변화를 탐지하는 방법. RS의 서열이 바뀌면 그 부분은 더 이상 잘리지 않으므로 두 종의 제한효소 처리 결과는 다르게 나옴. Southern blot보다는 PCR로 분석하는 것이 더 간편함

Short tandem repeats (STRs): Microsatellites라고도 불림. 1-13nt 길이의 서열이 반복되는 횟수가 개체마다 다름. repeat에 대한 primer를 만든 후 PCR 하여 얻어진 산물을 전기영동 시켜 반복 횟수가 어떻게 다른지 길이를 통해 비교 가능

이들 DNA marker 역시 유전자들과 마찬가지로 genetic map 위에 표시될 수 있음





Physical maps

특정 서열이나 유전자의 절대적인 위치를 염색체 상에 표시

Expressed sequence tags (ESTs): cDNA의 양쪽 말단에서 얻어진 짧은 서열. , 유전자의 일부분으로, 이것을 probe로 이용하여 염색체 상에서 유전자의 위치를 알아낼 수 있음

Physical mapping을 위한 기술에는 두 가지가 있음

Fluorescence in situ hybridization (FISH): 형광표지 된 DNA fragment(ex: EST)를 유리 슬라이드 위에 고정된 염색체에 혼성화시키는 방법. 서로 다른 형광을 내게 하면 한 번에 둘 이상의 유전자위를 확인할 수 있으며, 이는 현미경 상에서 확인 가능. 염색체를 일렬로 펴 정확성을 높이는 것이 관건

Mapping reagent: 이미 밝혀진 DNA 조각으로 염색체 위에서 서로 overlapping 되면서 존재하는 것들의 집합. 위치를 알아내고자 하는 marker들을 여러 개 사용해서 그들 사이의 상대적 거리를 추정. marker가 여러 mapping reagent에서 발견되었다면 두 marker는 상대적으로 가까이 위치하고, 적은 수의 mapping reagent에서 발견되었다면 두 marker는 상대적으로 멀리 위치




The importance of a map in sequence assembly

Genetic map이나 physical map을 사용하지 않고서 genome sequence를 얻는 것은 가능

하지만 큰 유전체일수록 정확한 순서를 맞추는 것이 어렵기 때문에 mapguide로 삼아 올바르게 contig들이 연결되었는지를 점검할 수 있음

특히 shotgun method를 사용할 때는 genetic map 혹은 physical map이 매우 중요하게 사용됨

directed shotgun approach