728x90
반응형

전체 글 166

PRS(Polygenic Risk Score)란? 계산 방법, 한계, R/Python 코드 예제 정리

서론유전체 연구에서 질병 위험도를 평가할 때 가장 기본적인 도구 중 하나가 Polygenic Risk Score (다유전자 위험 점수, PRS) 입니다.그런데, 여기서 먼저 짚고 넘어가야 할 개념이 있습니다. 바로 유전적 변이(variant) 입니다.인간의 DNA는 약 30억 개의 염기서열(A, T, G, C)로 이루어져 있는데, 대부분은 사람마다 동일합니다. 하지만 약간씩 다른 부분이 존재하죠. 예를 들어, 어떤 사람은 특정 위치에서 A를 가지고 있는데, 다른 사람은 같은 위치에 G를 가지고 있을 수 있습니다. 이런 차이를 유전적 변이라고 부릅니다. 이러한 변이들이 쌓여서 결국 인간이나 생물의 다양한 모습(표현형) 을 만들어냅니다.우리가 부모님과 비슷한 DNA를 공유하면서도 생김새나 성격이 다른 이유 ..

KANN: estimation of genetic ancestry profiles by nearest neighbor regression

서론인간 집단에서 관찰되는 유전적 변이는 오랜 이주와 혼합(admixture)의 결과입니다.이러한 조상을 정밀하게 추정하는 것은 집단유전학(population genetics) 과 유전체 의학(genomic medicine)에서 매우 중요한 과제인데요.예를 들어, 다유전자 위험 점수(Polygenic Risk Scores, PRS) 의 성능은 개인의 유전적 조상(ancestry) 에 크게 의존하기 때문에, 개인별 조상 정보를 정밀하게 추정하는 것이 필수적입니다. 하지만 지금까지 널리 쓰이던 방법들(예: SOURCEFIND, RFMix)은 개인별 하플로타입(haplotype) 데이터를 기반으로 하기 때문에, 정확도는 높지만 계산량이 방대하여 바이오뱅크 규모의 대규모 데이터에는 적용하기 어렵다는 한계가 있었..

LLM이 단어를 이해하는 방법: Word Embedding으로 보는 자연어의 숫자화

LLM과 Word Embedding대규모 언어 모델 (LLM) 은 어떻게 인간의 언어인 자연어를 이해할 수 있을까요? 사실 따지고 보면, LLM도 결국 컴퓨터에서 구동되는거고, 컴퓨터는 기계이기 때문에 인간의 언어를 이해하지 못합니다. 결국 인간의 언어를 학습하기 위해서는 인간의 언어를 숫자로 바꾸는 과정이 필요한거죠! 결국, LLM은 입력 문장을 먼저 토큰화(tokenization) 해서 잘게 쪼갠 뒤, 각 토큰을 임베딩(embedding) 이라는 숫자 벡터로 바꿔서 처리합니다.이 두 과정이 바로 LLM이 인간 언어를 이해하는 출발점이 되는 거죠. Word Embedding 이란? Word Embedding은 쉽게 말하면 단어 의미를 반영한 숫자 벡터로 바꿔주는 방법입니다.LLM은 이 벡터를 받아들이..

공부/인공지능 2025.08.30

PromptBio: 멀티 에이전트 기반 바이오인포매틱스 AI 플랫폼

PromptBio요즘 AI, 특히 대규모 언어 모델(LLM) 가 핫하다.이게 단순히 챗봇에서만 쓰이는 게 아니라, 생명과학이나 바이오인포매틱스 연구에도 본격적으로 활용되고있다.오늘은 최근 공개된 PromptBio라는 플랫폼을 소개할 예정이다.쉽게 말하면 “AI 연구팀” 같은 개념으로, 여러 개의 AI 에이전트들이 협력해서 복잡한 생물학 데이터를 자동으로 분석해주는 시스템이다. AgentAI란 무엇일까?여기서 궁금해지는 게 에이전트 AI (AgentAI) 가 무엇일까?AgentAI는 간단히 말해서 “특정 역할을 맡아 일하는 작은 AI" 다기존의 LLM, 즉 Foundation Model (ChatGPT, LLaMA, Gemini 같은 범용 모델)은 질문 1 → 답변 1 구조로 동작한다.반면 AgentAI는..

논문/인공지능 2025.08.24

LLM - 자연어 처리란?

자연어 처리 (Natureal Language Processing ; NLP) 란 무엇일까?LLM의 핵심인 Attention 메커니즘을 이해하려면 먼저 기초를 다져야 합니다.바로 자연어 처리(Natural Language Processing ; NLP) 입니다.사람이 사용하는 언어가 어떻게 컴퓨터 안에서 숫자로 바뀌고,다시 문맥을 이해하는 모델로 발전하는지 그 과정을 이해하는 게 중요하죠.자연어 처리란?자연어 처리(NLP)는 사람이 일상적으로 사용하는 언어 (자연어) 를 컴퓨터가 이해하고 다루도록 만드는 기술입니다.쉽게 말하면, 사람 ↔ 기계 간의 언어 장벽을 허무는 다리라고 볼 수 있죠. 예를 들어,우리가 “오늘 서울 날씨 어때?”라고 묻는다면컴퓨터는 이 문장에서 **“서울”, “오늘”, “날씨”**라..

공부/인공지능 2025.08.24

LLM이란?

서론최근 몇 년 사이 인공지능 (AI) 의 가장 큰 화두는 단연 LLM(Large Language Model, 대규모 언어 모델)입니다. ChatGPT를 시작으로 메타의 LLaMA, 구글의 Gemini, 그리고 최근 주목받은 중국의 DeepSeek까지, 모두 이 기술을 기반으로 만들어졌습니다.AI는 하루가 다르게 발전하고 있습니다. 이런 시대에 중요한 것은 무작정 새로운 서비스를 따라가는 것이 아니라, 핵심 원리를 이해하고 올바른 정보를 선별하는 능력입니다. 그래서 이번 글에서는 앞서 언급한 다양한 서비스들의 공통 기반인 LLM이 무엇인지부터 차근차근 살펴보겠습니다.LLM이란 무엇인가?LLM은 말 그대로 대규모 언어 모델입니다. 수많은 텍스트 데이터를 학습해 언어의 패턴을 이해하고, 새로운 문장을 만들어..

공부/인공지능 2025.08.16

FASTQC 설치 방법 및 실행법

서론 이번 시간에는 RNA-Sequencing 데이터 분석 과정중 가장 첫번째로 해야하는 과정인 Quality control(QC) 과정에 대해서 알아보겠습니다. RNA-Sequencing을 하게 되면 FASTQ파일이 나오게 되는데요. 보통 raw fastq파일이라고 합니다. 이 fastq 파일의 퀄리티를 확인하는 과정이 먼저 필요하게 되는거죠! [바이오인포매틱스] Fastq 파일형식 FASTQ format ​ 'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequenci.. develsw.tistory.com NGS란? 서..

RNA-Sequencing 분석 파이프라인을 알아보자

RNA-Sequencing이란? RNA-Sequencing 기술은 NGS 기반으로 시퀀싱을 하는데, DNA에서 전사된 RNA를 시퀀싱하는 것을 말합니다. RNA 수준에서 알 수 있는건 Alternative splicing이나 유전자들의 발현량 등을 확인할 수 있죠. 이번 게시글에서는 대표적인 Bulk RNA-Seq 데이터를 분석하는 과정에 대해서 알아보겠습니다. Single cell RNA-Sequencing 데이터 분석 과정은 나중에 알아보도록할게요! NGS란? 서론 이번 게시글에서는 Next Generation Sequencing (NGS)가 무엇인지에 대해 알아보도록 하겠습니다. NGS는 한국어로 해석하면 차세대 염기서열 분석법이라고 부릅니다. 물론 현재는 차세대라고 하기에 develsw.tisto..

데이터베이스(Database)란 무엇일까!?

서론 이번 게시글에서는 우리가 흔히 들어봤던 데이터베이스가 무엇인지에 대해 알아보겠습니다. 데이터베이스란? 데이터베이스(Database)는 흔히 DB라고도 부릅니다. 즉 DB에서 쿼리문을 가져온다 라던가, DB 검색을 한다. 이런 말들을 자주 들어보셨겠죠. 여기에서 말하는 DB가 바로 데이터베이스입니다. 그럼 이 데이터베이스가 무엇일까요? 바로 Data+Base인데, Base는 기초 혹은 기반을 의미하죠 즉 데이터+기반의 의미를 가지고 있습니다. 즉 해석해보면 데이터가 어느곳에 저장 되어 있다. 이런 의미가 되는거죠. 즉, 데이터를 저장하는 곳입니다. 보통 데이터는 서버에 저장되어 있습니다. 예시 예를 들어볼까요? 일반적으로 우리는 사용하는 은행이 하나씩 있겠죠?? 신한은행이라고 한다면, 신한은행은 우리..

서버(Server) 와 클라이언트(Client)에 대해서 완벽히 이해하자.

서론 이번 게시글에서는 서버와 클라이언트가 무엇인지에 대해 확실히 알아보도록 하겠습니다. 이 분야를 전공하는 분들이라면 필수적으로 알아야하는 개념이니 꼭 이해하시길 바랍니다. 어렵지도 않습니다! 서버란? 우선 서버에 대해서 알아보도록 하죠! 늘 그랬듯이, 서버의 사전적 정의부터 보자면, 무엇인가를 제공해주고 도와준다는 의미를 가지고 있습니다. 그럼 컴퓨터 공학에서의 서버란 무엇일까요? 아마 위와 같은 사진을 본적이 있으실 겁니다. 저게 바로 서버라는 것입니다. 서버는 따지고 보면 컴퓨터랑 다를게 없습니다. 다만 목적이 다를 뿐이죠! 그리고 왜 저렇게 크고 엄청 많을까요?? 가장 큰 이유는 많은 서비스를 제공해야하거든요! 많은 서비스를 빠르고 다양하게 제공해야하기 때문에, 많은 자원이 필요하게 되는거죠! ..

728x90
반응형