• menu1
  • menu2
  • menu3
  • menu4
LOGIN

Home > 표준게놈데이터 > 조직적합성


SNP

  SNP(Single Nucleotide Polymorphism, 단일염기변이)란 개인과 개인 간의 DNA에 존재하는 한 염기쌍의 차이(single base-pair variation)로 DNA sequence 다형성 중에서 가장 많이 존재하는 형태이다. 인간의 경우 대략 1000 base-pair (이하 bp)에 1개의 SNP가 존재한다고 알려져 있으며, 인종간의 차이를 고려한다면 이보다 더 높은 변이를 가질 것으로 추정하고 있다. 전체적으로 100~500 bp 에서 유전자 다형성(genetic polymorphism)이 발생할 수 있다.

  인체의 유전자 변이 중 90 % 이상이 SNP에 의해 일어나게 된다. 가계나 체질이 비슷한 사람들은 SNP의 패턴이 일치하기 때문에 SNP 패턴과 질병기록을 비교하면 국민적인 의학통계가 수립될 수 있다. 질병과 연관된 SNP data base (DB)가 완성되면 태어나자마자 피를 채취해 진단용 칩에 떨어뜨려 몇 살 때 어떤 병에 걸리게 될 확률이 몇 %인지 진단과 예방이 가능하다. 치료도 체질에 따라 개인에게 잘 맞는 약을 골라 쓰는 미래형 맞춤의학의 시대가 현실화하는 것이다. 이론적인 모델에 따르면, ‘Linkage Disequilibrium’ 현상에 기초하여 병에 걸린 집단과 걸리지 않은 대조군 집단 사이에 genotype을 비교할 경우 특정 유전자형이 병에 걸린 집단의 유전자형과 연관성이 있다는 것을 알 수 있다[참고]. 이러한 현상의 연구를 통하여 특정 질병과 연관된 유전자에 근접한 마커를 추적 할 수 있게 됨으로써 질병과 유전자를 발견하는 연구를 수행할 수 있게 된다. 암이나 심장병, 정신병, 자가 면역병과 같은 질병뿐만 아니라, 어떤 특정약물에 대한 반응성도 역시 수많은 유전자에 의해 조절되는 복잡한 형질이다. 즉, 각개인의 genotype에 따라서 특정 약물에 대한 반응성이 다르다는 것이다. 이는 실제 임상에서도 자주 관찰되는 현상으로 각 제약회사들은 궁극적으로 각 개인의 genotype에 따른 최적의 약물을 개발하고 투여하는 것을 목표로 하고 있다. 이러한 연구방법론은 약물유전체학이라는 새로운 분야의 발생 토대가 되었다. 

 

[참고] Reporting, Appraising, and Integrating Data on Genotype Prevalence and Gene-Disease Associations. American Joumal of Epideniology 2002

SNP chip과 SNP genotyping

  생명과학 분야 연구기기들의 발전과 더불어 SNP Chip이 개발됨에 따라 SNP를 대량으로 분석하는 것이 가능해 졌으며 이를 통해 인종 및 그의 유래, 특정 집단(가계도), 질병 및 표현형, 개인 인식, 유전, 약물반응 및 면역 등 광범위한 응용을 할 수 있게 되었다. 현재 개발되어 상업화가 잘 되어있는 Affymetrix와 Illumina는 분석기법 및 다양한 정보를 제공하고 있다. 그러나 국내 보급률이 높은 Affymetrix나 Illumina 플랫폼에서 사용하고 있는 SNP genotyping 데이터의 대조군 값은 모두 외국인(Caucasian, Yoruba, China and Japan)에 대한 정보를 나타내고 있으며 한국인과 population genetics 측면에서 가까운 일본과 중국의 SNP genotyping 데이터 set이라 해도, 한국인 데이터와의 차이를 가지고 있다. 그래서 대조군 데이터와 실험 데이터의 오차 값을 제거하기 위해서는 한국인에 대한 대조군 정보가 필요하다. SNP genotyping을 위해서 Affymetrix의 경우 calling algorithm인 birdseed 2를 이용하여 signal intensity를 clustering하여 분포를 기준으로 평가한다. 동일 대립유전자형(allele)을 검출하기 위한 probe의 시그널 강도의 대표값을 각 allele에 대해 얻어낸 다음, A, B allele 시그널의 contrast와 strength를 X, Y 평면에 표현한 후 clustering하는 방법이다.

 

Contrast = (A-B)/(A+B)
Strength = log10(A+B)

유전적 거리 측정방법 ASD (allele sharing distance)

  개인 간의 유전적 차이는 allele sharing distance(ASD) 방법을 통해 이루어진다. 이는 개인간의 대립유전자를 상호간에 비교하여 발생빈도를 기준으로 개체별 유전적 거리를 분석하는 방법이다. Allele sharing distance를 구하기 위해 사용되는 SNP marker는 QC를 통과한 것들을 사용하며, 각 SNP의 minor allele frequency(MAF) 값은 0.05이상이여야 한다.

 

ASDi = 1 - Pi
Pi = ΣuS / 2u

 

S = The number of shared alleles(전체 SNP위치에서 두 사람간의 공통되는 Allele의 수)
u = The number of loci(비교대상이 되는 전체 SNP 위치의 수)

측정결과의 재현성(frequency의 재현성)

  제3자에 의해 유전적 거리가 재현 가능하도록 측정방법과 절차가 자세히 명기되었는지 확인하고, 동일 샘플군에 대하여 최소 24명 이상을 마커별로 실시하며 측정한다. 또한 SNP chip의 frequency 재현성을 나타내는 genotype call rate가 98 % 이상 되는지 확인한다. SNP chip의 genotype call rate의 경우 하나의 project(100개 이상 시료)를 기준으로 평균값을 call rate 99 % 이상, reproducibility 99.9 % 이상, mendelian inconsistence 0.1 % 이하로 guarantee하는 것을 기준으로 한다.

 

동일 시료에 대한 반복 실험을 통한 genotype 재현 확인
a = number of concordant call
b = number of discordant call
c = number of missing calls; one or both call is missing
Reproducibility = a / (a+b)

 

  재현성 측정시 포함되지 않는 marker, 즉 Hardy-Weinberg disequilibrium, Low call rate, cluster QC fail, 여러 기관에서의 재현실험에 의해 지속적으로 불일치한 결과를 보고하여 분석에 사용하지 않도록 제거할 것이 권해지는 목록에 들어 있는 marker를 말하며 일반적으로 hidden SNP으로 불린다.

 

유전체 및 그 외 데이터의 종류

유전체 분야의 경우 각 연구 분야에 따라 데이터를 구분할 경우 종류가 너무 많아 어려움이 있다. 따라서 여기서는 데이터 타입에 따라 유전체 데이터를 분류하였다. 데이터 타입은 최종 결과물이 나오기 위해 처리되는 연구접근법, 실험방법을 기초로 하여 분류할 수 있다.

 

가. 유전체 서열데이터

유전체를 이루고 있는 기본 코드 정보를 담고 있는 데이터로서 4개의 염기서열로 구성되어 있는 염기서열데이터가 일반적으로 다루어진다. 최근 이슈화되는 개인유전체 해독도 개인의 서열을 분석하고자 하는 연구로서 이 분야에 속한다. 서열분석기(sequencing machine)의 발달로 데이터는 대량화 및 고속화의 성격을 가진다. 인간뿐만 아니라 일반적인 생물학 실험에 사용되는 쥐, 개, 침팬지 등의 서열분석도 이루어지고 있으며 유전체분야의 가장 기본적인 정보를 제공하는 데이터로서 다른 분야에 다양하게 활용될 수 있다. 세계적으로 크게 NCBI(미국), EMBL(영국), DDBJ(일본)와 같은 기관에서 데이터베이스를 운영하여 데이터를 제공하고 있다.

 

나. 유전체 구조데이터

다양한 실험기법에 의해 생산된 데이터로서 유전체의 한 구성요소인 유전자의 구조를 분석하여 기능적 영향을 조사하여 생산된 데이터이다. 유전자의 구성요소인 promoter region, 5'-UTR, Exon, Intron, 3'-UTR 등에 대한 일반적인 정보뿐만 아니라 특정 기능적 부위(motif, transcription factor binding site, phosphorylation site, signal peptide and cleavage site 등)에 대한 정보도 제공하고 있다. 이와 같은 데이터는 해당 유전자의 기능적 의미의 해석 및 유추에 도움이 되며 종간 비교에도 많이 사용되고 있다.

 

다. 유전체 발현데이터

주로 microarray 실험을 통해 생산되는 데이터로서 대량으로 데이터를 생산할 수 있는 대표적인 방법이다. 특정 실험조건에 따라 정상군과 대조군 간의 유전자들의 발현 양을 비교함으로써 특정 질병이나 환경에 민감하게 반응하는 유전자 리스트를 제공할 수 있다. 이 외에도 EST(Expressed Sequence Tag) 기법을 이용한 EST서열을 이용하여 조직 특이적 혹은 발현 정도를 비교 분석할 수 있다.

 

라. 유전체 문헌정보데이터

생물학관련 실험실, 기관 등에서 다양한 실험방법으로 밝혀진 사실들을 논문 화하여 제공하는 것으로서 유사한 연구 분야에 종사할 경우 이러한 문헌정보데이터를 이용하여 기존의 데이터를 제공받고 공유할 수 있다.

 

마. 단백질체 데이터

단백질체 데이터는 20종의 아미노산으로 구성된 서열데이터와 단백질 3차 구조 데이터로 크게 구분할 수 있다. 서열기반 데이터를 통해 단백질체에서 단백질 간의 상호작용 분석이 가능하며 구조데이터를 통해 ligand와 단백질간의 결합정보를 얻을 수 있다. 단백질의 특성상 단백질체 부분의 경우 실질적으로 생체 내에서 기능을 가지는 단백질에 대해 연구함으로써 의약품 개발과 같은 분야와 깊은 관계를 가지고 있다.

 

참조표준 제정 및 보급에 관한 운영요령

2006년 7월 31일 산업자원부에서 고사한 "참조표준 제정 및 보급에 관한 운영요령(산업 자원부 고시 제 2006-86호)"에서는 참조표준과 참조데이터의 정의와 분류 및 평가기준을 다음과 같이 명시하고 있고, 제9조에서는 제7조 제2항 제4호 규정에 의한 참조데이터의 기술평가기준을 세부항목으로 분류하여 명시하고 있다.

 

가. 참조표준과 참조데이터의 정의

요령 제 2조에 참조표준과 참조데이터를 다음 정의에 따라 구분하고 있다. 참조표준 : 측정데이터 및 정보의 정확도와 신뢰도를 과학적으로 분석․평가하여 공인함으로써 국가 사회의 모든 분야에서 널리 지속적으로 사용되거나 반복사용이 가능하도록 마련된 자료로서 유효참조표준, 검증참조표준, 인증참조표준으로 분류한다. 참조데이터 : 참조표준으로 등록되기 전의 수치 데이터 또는 과학기술적 통계를 말한다.

 

나. 참조표준의 분류

요령 제10조에서 참조표준의 등급을 유효참조표준, 검증참조표준 및 인증참조표준의 3가지로 구분하고 등급부여 기준을 다음과 같이 정하고 있다.

  • 유효참조표준 : 불확도 평가 및 평가의 적절성 여부를 만족시키는 참조표준
  • 검증참조표준 : 유효참조표준 중에서 실험적 경향과 일관성이 검증된 참조표준
  • 인증참조표준 : 검증참조표준 중에서 관련 전문가의 최종종합평가를 거쳐 인증된 최상위 참조표준

 

다. 데이터의 기술평가기준

요령 제9조에서 제7조 제2항 제4호 규정에 의해 데이터를 평가하여 참조표준으로 등급부여하기 위한 기준을 다음과 같이 정하고 있다.

  • 측정대상이 명확하게 명시되어 있는지 여부
  • 측정방법 및 절차에 대한 설명의 명시 여부
  • 측정방법의 적절성 여부
  • 측정결과에 영향을 주는 요인의 제어 여부
  • 불확도(uncertainty) 평가 및 평가의 적절성 여부
  • 실험적 경향과 일관성(consistency) 여부
  • 잘 알려진 이론식 또는 실험식을 통한 데이터 예측가능성 검증 여부
  • 2인이상 관련분야 제3자의 종합검토를 받았는지 여부

 

라. 참조표준의 등급부여 기준

데이터의 기술평가기준 중 참조표준의 기본요건인 제1호부터 제5호까지를 만족하는 데이터는 “유효참조표준”으로 등급부여하며, 제6호에서 제7호까지의 일관성과 예측가능성 기준을 만족시키는 유효참조표준은 검증참조표준으로 등급부여 하며, 전문가의 종합검토를 받아서 모든 기술평가기준을 만족시키는 검증참조표준은 인증참조표준으로 등급부여 한다.