MED AI/Radiogenomics study

(진행중) [2506_RNA-seq 분석과 데이터 접근] DESeq2분석, GSEA 개념 체험, TCGA 데이터 접근까지

MGD 2025. 5. 16. 11:06

 

🎯 오늘 할 일: RNA-seq 분석 입문 – Radiogenomics 준비 Task List

📅 목표: DESeq2 분석, GSEA 개념 체험, TCGA 데이터 접근까지 시작!


[1단계] 프로젝트 준비 (개념 이해 & 환경 구축)

  1. RNA-seq란 무엇인가?
    👉 “RNA 발현량을 측정하는 기술. 암세포와 정상세포의 유전자 차이를 알 수 있음.”
    → 예시: "이 유전자는 암일 때만 많이 나와!"
    → 📄 RNAseq_intro.txt에 간단히 메모
RNA-seq란 'RNA sequencing'으로
"세포 안에서 어떤 유전자가 얼마나 활동하고 있는지 알아보는 기술"이다.

<왜 하냐?>
1) 암세포 vs 정상세포: 어떤 유전자가 많이 on 되어있고, 어떤 유전자는 off 되어있는지 비교
2) 치료 반응: 약을 쓴 후 유전자 발현 분석
3) 표적 유전자 찾기: 특정 질병에 과년된 유전자를 찾는 데 사용


<과정>
1 세포에서 RNA 추출(지금 이 세포에서 활동 중인 유전자 정보 수집)
> 2 RNA를 DNA로 변환(cDNA, RNA는 불안정해서 안정적 DNA로 바꿔줌)
> 3 시퀀싱 기계로 읽기(Sequencing)
> 4 컴퓨터로 수치화(유전자별 "발현량" 수치로 정리)



>> "즉, RNA-seq는 유전자들의 "말하기 양(발현량)"을 측정해서, 어떤 유전자가 문제인지 찾는 기술"

 

 

 

  1. DESeq2가 뭔지 개념 이해하기
    👉 "RNA-seq 데이터를 분석해서 유의미한 유전자를 찾는 도구"
    → 📄 DESeq2_intro.txt에 핵심 정리 (한 줄 요약 + 대표 그래프 스샷 첨부)
RNA-seq 데이터에서 '어떤 유전자가 유의미하게 달라졌는지'를 찾아주는 R 패키지
쉽게 말하면, "두 조건 사이에서 유전자 발현량이 많이 달라진 유전자를 찾아주는 통계 분석 도구"

<용도>
1) 어떤 유전자가 유의하게 차이 나는지
2) 그 차이는 통계적으로 의미가 있는지
3) 발현량이 얼마나 증가/감소했는지 (fold change)

<기능> - 정규화 / 통계 검정 / 결과 정리 / 시각화

: RNA-seq 데이터를 그냥 보면 너무 많은 숫자뿐, DESeq2를 서야 똑똑하게 차이 나는 유전자를 골라낼 수 있음.
그 유전자가 질병과 관련 있을 수 있고, 나중에 BIOMARKER 나 치료 표적이 될 수 있다.


>> "DESeq2는 RNA-seq 데이터를 통계적으로 분석하여, 두 조건 간 발현량이 유의하게 달라진 유전자를 식별하는 데 사용하는 Bioconductor 패키지임."

 

  1. GSEA 개념 이해 & MSigDB 살펴보기
    👉 “개별 유전자 말고 **유전자 무리(=gene set)**의 행동을 보는 분석”
    MSigDB 바로가기
    → 📄 GSEA_intro.txt에 내가 관심 있는 gene set 키워드 메모 (예: Hypoxia, DNA Repair)
GSEA란 = Gene Set Enrichment Analysis
=> 유전자 하나하나 보지 말고, 유전자 무리 전체가 어떻게 움직이는지 보자!


<왜 GSEA가 필요할까?>
- 유의미한 유전자가 적거나
- 약간만 변화한 유전자가 많을 때


<분석 순서>
1 전체 유전자 LIST를 발현량 변화 기준으로 정렬
2 특정 gene set이 리스트에서 상위/하위에 몰려 있는지 확인
(많으면: 그 경로가 "활성화", 적으면: "억제"된 것)

3 Enrichment Score 계산
- 그 유전자들이 얼마나 몰려 있는지를 점수화
- p-value와 FDR로 통계적 유의성 확인>

 

  1. R, RStudio 설치 or Google Colab R 환경 확인
    → 로컬에 RStudio 설치해도 좋고, Colab에서 R 커널을 사용해도 OK
    → 이건 한 번만 하면 됨
설치 완료!


[2단계] DESeq2 분석 실습

  1. Bioconductor 및 DESeq2 설치
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("DESeq2")
  1. 예제 데이터셋 로딩 (airway 사용)
BiocManager::install("airway")
library(airway)
data("airway")
  1. Quick Start 튜토리얼 실행
    👉 공식 튜토리얼 링크
    → log2 fold change, adjusted p-value 출력
    → 📁 my_DESeq2_results.csv 저장 + /study/RNAseq/에 저장

[3단계] GSEA 체험하기

  1. GSEA 프로그램 설치 (Java 필요)
    👉 다운로드 링크
  2. 샘플 데이터로 GSEA 예제 실행
    → 예제 GCT + CLS 파일 불러오기
    → Hallmark gene set 선택 (예: HALLMARK_HYPOXIA)
  3. Enrichment 결과 그래프 저장
    → gsea_hypoxia_result.png 생성
    → /study/RNAseq/GSEA/ 폴더에 저장

[4단계] TCGA 데이터 접근하기

  1. cBioPortal 접속 → BRCA 데이터 검색
    👉 https://www.cbioportal.org
  2. mRNA Expression + Clinical Data 다운로드
    → CSV로 저장하고 /study/RNAseq/에 정리
    → 파일명: tcga_brca_expression.csv

✨ 오늘 50% 완성 목표:

1~4번 완료 + DESeq2 예제 한번 돌려보기
(여기까지만 해도 Radiogenomics 진입의 70%는 끝난 거야!)


🔜 다음 단계에서 이어서 할 것

  • 내가 선택한 유전자 셋으로 GSEA 재실행
  • Volcano plot, PCA plot 시각화 연습
  • GEO에서 RNA-seq 데이터 받아서 직접 분석 시도
  • 나만의 슬라이드 1장 정리로 요약

필요하면 📁 study/RNAseq/ 폴더 구조 샘플, GSEA 실행 순서, 또는 Colab 버전 DESeq2 실습용 노트북도 만들어줄 수 있어.
원하는 항목 골라서 “이거 먼저 줘!” 해줘도 돼 😎