논문/바이오인포매틱스

KANN: estimation of genetic ancestry profiles by nearest neighbor regression

Mosser 2025. 8. 30. 16:04
728x90
반응형

서론

인간 집단에서 관찰되는 유전적 변이는 오랜 이주와 혼합(admixture)의 결과입니다.

이러한 조상을 정밀하게 추정하는 것은 집단유전학(population genetics) 유전체 의학(genomic medicine)에서 매우 중요한 과제인데요.

예를 들어, 다유전자 위험 점수(Polygenic Risk Scores, PRS) 의 성능은 개인의 유전적 조상(ancestry) 에 크게 의존하기 때문에, 개인별 조상 정보를 정밀하게 추정하는 것이 필수적입니다.

 

하지만 지금까지 널리 쓰이던 방법들(예: SOURCEFIND, RFMix)은 개인별 하플로타입(haplotype) 데이터를 기반으로 하기 때문에, 정확도는 높지만 계산량이 방대하여 바이오뱅크 규모의 대규모 데이터에는 적용하기 어렵다는 한계가 있었습니다.

 

이번에 소개할 연구에서는 이런 문제를 해결하기 위해 KANN(K-nearest neighbor regression for Ancestry estimation) 이라는 새로운 방법을 제안했습니다. 이 방법은 주성분분석 (Principal Component Analysis, PCA) 기반의 좌표를 활용해 훨씬 빠른 계산을 가능하게 하면서도, 기존 최첨단 방법과 유사한 정확도를 보입니다.

 

본론

1. 기존 방법과 한계

  • 하플로타입 기반 (SOURCEFIND, RFMix)
    • 미세한 집단 구조(fine-scale structure)를 잘 포착
    • 그러나 계산 시간이 매우 오래 걸림 → 수십만 명 단위 분석에는 비효율적
  • 유전체 PCA 기반 (ADMIXTURE, Rye)
    • 계산 속도가 빠르지만, 대부분 불연속적인(discrete) 참조 집단만 사용할 수 있음
    • 현실에서는 개인의 조상이 여러 집단에 걸쳐 연속적으로 섞여 있기 때문에, 정밀한 추정에 한계

2. KANN의 핵심 아이디어

  • KNN (k-nearest neighbor regression) 을 PCA 좌표계에서 적용
  • 참조(reference) 샘플을 불연속(discrete)뿐 아니라 연속(continuous) 조상 비율로도 활용 가능
  • 즉, 한 개인이 100% 특정 집단에 속하지 않고, 여러 집단 비율로 나타나는 경우에도 적용 가능

3. 실제 적용 – 핀란드 바이오뱅크

  • 데이터: 18,125명 핀란드인 샘플
  • 비교 대상: 기존 SOURCEFIND와 최근의 Rye
  • 성능 지표: Total Variation Distance (TVD) – 추정된 조상 비율과 실제 값 간 차이

결과:

  • KANN은 SOURCEFIND와 상관계수 ≥ 0.859으로 높은 일치도를 보임
  • 특히 연속적 참조 집단(continuous profiles) 을 사용했을 때 정확도가 가장 높음
  • 속도 면에서도 KANN은 4~10초, Rye는 약 600초 → 수십 배 빠름

4. 해석

  • KANN은 인접한 지리적 집단(예: 동부 라플란드와 서부 라플란드)에서 SOURCEFIND와 일부 차이를 보였지만, 전반적으로 기존 방법과 유사한 결과를 재현
  • 무엇보다 대규모 데이터에서 실용적인 계산 효율성을 제공

 

결론

이번 연구에서 제안된 KANN빠르면서도 정확한 유전적 조상 추정 도구입니다. 특히 연속적 조상 프로파일을 활용할 수 있다는 점에서, 기존의 한계를 극복하고 현실적인 집단 구조를 더 잘 반영할 수 있다라고하네요.

앞으로 KANN은

  • 대규모 바이오뱅크 연구
  • 개인 유전자 검사 서비스(Direct-to-consumer genetics)
  • 유전학 연구와 질병 예측 모델(PRS)의 정밀화

등 다양한 분야에서 활용될 수 있을 것으로 기대됩니다.

 

 

Reference

 

KANN: estimation of genetic ancestry profiles by nearest neighbor regression
Juha Riikonen, Sini Kerminen, Aki Havulinna, Matti Pirinen
bioRxiv 2025.08.27.671485; doi: https://doi.org/10.1101/2025.08.27.671485

728x90
반응형