RsID 로 유전자번호와 위치를 알아내는 방법

2023. 5. 6. 18:58Bio Informatics

작성일 : 2019. 3. 27.

 

 

 

DNA, RNA, 단백질 시퀀싱 등에서 발생하는 변이를 variants, mutations or polymorphisms 라고 부른다. 이런 용어의 혼동을 예방하고자 나온 표기법이 HGVS 명명법이다.

 

출처 : http://varnomen.hgvs.org/bg-material/simple/

 

The format of a complete variant description is reference:description, e.g.;

*	NM_004006.2:c.4375C>T *	NC_000023.11:g.32389644G>A 

All variants are described in relation to a reference, the so called reference sequence, in the examples NM_004006.2 and NC_000023.11. After the reference a description of the variant is given, in the examples c.4375C>T and g.32389644G>A.

 

------------------------

 

genomic (nucleotide)

  • NC_ a genomic reference sequence based on a chromosome
    • NC_000023.9:g.32317682G>A (Mar.2006: hg18, NCBI36)
    • NC_000023.10:g.32407761G>A (Feb.2009: h19, GRCh37)
    • NC_000023.11:g.32389644G>A (Dec.2013: hg38, GRCh38)
  • NG_ a genomic reference sequence based on a Gene or Genomic region
    • NG_012232.1:g.954966C>T
  • LRG_ a genomic reference sequence, used in a diagnostic setting, based on a Gene or Genomic region
    • LRG_199:g.954966C>T

------------------------

 

Genotyping Table formatted file, 이하 GT 파일 내용의 일부.

 

rs545442423 13  67461209    AA  0.0 0.24300833  13:67461209 201525280049_R09C02
rs555021149 13  78025101    AA  0.0 0.19853677  13:78025101 201525280049_R09C02
rs530383651 13  85572845    GG  1.0 0.38864195  13:85572845 201525280049_R09C02
rs562886943 13  85967949    TT  0.0 0.06755056  13:85967949 201525280049_R09C02

 

유전체 관련 업무를 진행하다보면 RsID (또는 SNP, 또는 Marker 라고도 부름) 와 Genotype 은 아는데,

chromosome 번호 / position 번호를 몰라서 난감해질 때가 있다.

 

이런 정보는 NCBI 사이트에서 검색할 수 있다.

 

앞서 나열한 지노타이핑 정보 중에서 rs562886943 (rsid) 에 대한 chromosome 번호와 position 을 찾으려면

 

https://www.ncbi.nlm.nih.gov/snp/?term=rs562886943

 

를 웹브라우저 주소창에 넣어서 검색한다.


결과는 다음과 같다.

 

1.

 

rs562886943 [Homo sapiens]
AACGGGGCTACTTAATTGATAGATT[C/T]GTTTTGTTCTAGAAAGAACAAATGA 
Chromosome:
13:85393814
Gene:
LINC00351 (GeneView)
Functional Consequence:
intron variant
Validated:
by 1000G,by cluster,by frequency
Global MAF:
C=0.1090/546
HGVS:
CM000675.2:g.85393814T>C, NC_000013.10:g.85967949T>C, NC_000013.11:g.85393814T>C, NR_046989.1:n.493+29719T>C
 
위의 결과에서 Chromosome 번호는 13 이고, Position 은 85967949 임을 알 수 있다.


 

 

'Bio Informatics' 카테고리의 다른 글

도구  (0) 2023.05.06