서론
인간 집단에서 관찰되는 유전적 변이는 오랜 이주와 혼합(admixture)의 결과입니다.
이러한 조상을 정밀하게 추정하는 것은 집단유전학(population genetics) 과 유전체 의학(genomic medicine)에서 매우 중요한 과제인데요.
예를 들어, 다유전자 위험 점수(Polygenic Risk Scores, PRS) 의 성능은 개인의 유전적 조상(ancestry) 에 크게 의존하기 때문에, 개인별 조상 정보를 정밀하게 추정하는 것이 필수적입니다.
하지만 지금까지 널리 쓰이던 방법들(예: SOURCEFIND, RFMix)은 개인별 하플로타입(haplotype) 데이터를 기반으로 하기 때문에, 정확도는 높지만 계산량이 방대하여 바이오뱅크 규모의 대규모 데이터에는 적용하기 어렵다는 한계가 있었습니다.
이번에 소개할 연구에서는 이런 문제를 해결하기 위해 KANN(K-nearest neighbor regression for Ancestry estimation) 이라는 새로운 방법을 제안했습니다. 이 방법은 주성분분석 (Principal Component Analysis, PCA) 기반의 좌표를 활용해 훨씬 빠른 계산을 가능하게 하면서도, 기존 최첨단 방법과 유사한 정확도를 보입니다.
본론
1. 기존 방법과 한계
- 하플로타입 기반 (SOURCEFIND, RFMix)
- 미세한 집단 구조(fine-scale structure)를 잘 포착
- 그러나 계산 시간이 매우 오래 걸림 → 수십만 명 단위 분석에는 비효율적
- 유전체 PCA 기반 (ADMIXTURE, Rye)
- 계산 속도가 빠르지만, 대부분 불연속적인(discrete) 참조 집단만 사용할 수 있음
- 현실에서는 개인의 조상이 여러 집단에 걸쳐 연속적으로 섞여 있기 때문에, 정밀한 추정에 한계
2. KANN의 핵심 아이디어
- KNN (k-nearest neighbor regression) 을 PCA 좌표계에서 적용
- 참조(reference) 샘플을 불연속(discrete)뿐 아니라 연속(continuous) 조상 비율로도 활용 가능
- 즉, 한 개인이 100% 특정 집단에 속하지 않고, 여러 집단 비율로 나타나는 경우에도 적용 가능
3. 실제 적용 – 핀란드 바이오뱅크
- 데이터: 18,125명 핀란드인 샘플
- 비교 대상: 기존 SOURCEFIND와 최근의 Rye
- 성능 지표: Total Variation Distance (TVD) – 추정된 조상 비율과 실제 값 간 차이
결과:
- KANN은 SOURCEFIND와 상관계수 ≥ 0.859으로 높은 일치도를 보임
- 특히 연속적 참조 집단(continuous profiles) 을 사용했을 때 정확도가 가장 높음
- 속도 면에서도 KANN은 4~10초, Rye는 약 600초 → 수십 배 빠름
4. 해석
- KANN은 인접한 지리적 집단(예: 동부 라플란드와 서부 라플란드)에서 SOURCEFIND와 일부 차이를 보였지만, 전반적으로 기존 방법과 유사한 결과를 재현
- 무엇보다 대규모 데이터에서 실용적인 계산 효율성을 제공
결론
이번 연구에서 제안된 KANN은 빠르면서도 정확한 유전적 조상 추정 도구입니다. 특히 연속적 조상 프로파일을 활용할 수 있다는 점에서, 기존의 한계를 극복하고 현실적인 집단 구조를 더 잘 반영할 수 있다라고하네요.
앞으로 KANN은
- 대규모 바이오뱅크 연구
- 개인 유전자 검사 서비스(Direct-to-consumer genetics)
- 유전학 연구와 질병 예측 모델(PRS)의 정밀화
등 다양한 분야에서 활용될 수 있을 것으로 기대됩니다.
Reference
KANN: estimation of genetic ancestry profiles by nearest neighbor regression
Juha Riikonen, Sini Kerminen, Aki Havulinna, Matti Pirinen
bioRxiv 2025.08.27.671485; doi: https://doi.org/10.1101/2025.08.27.671485