MED AI/Radiogenomics study
(진행중) [2506_RNA-seq 분석과 데이터 접근] DESeq2분석, GSEA 개념 체험, TCGA 데이터 접근까지
MGD
2025. 5. 16. 11:06
🎯 오늘 할 일: RNA-seq 분석 입문 – Radiogenomics 준비 Task List
📅 목표: DESeq2 분석, GSEA 개념 체험, TCGA 데이터 접근까지 시작!
✅ [1단계] 프로젝트 준비 (개념 이해 & 환경 구축)
- RNA-seq란 무엇인가?
👉 “RNA 발현량을 측정하는 기술. 암세포와 정상세포의 유전자 차이를 알 수 있음.”
→ 예시: "이 유전자는 암일 때만 많이 나와!"
→ 📄 RNAseq_intro.txt에 간단히 메모
RNA-seq란 'RNA sequencing'으로
"세포 안에서 어떤 유전자가 얼마나 활동하고 있는지 알아보는 기술"이다.
<왜 하냐?>
1) 암세포 vs 정상세포: 어떤 유전자가 많이 on 되어있고, 어떤 유전자는 off 되어있는지 비교
2) 치료 반응: 약을 쓴 후 유전자 발현 분석
3) 표적 유전자 찾기: 특정 질병에 과년된 유전자를 찾는 데 사용
<과정>
1 세포에서 RNA 추출(지금 이 세포에서 활동 중인 유전자 정보 수집)
> 2 RNA를 DNA로 변환(cDNA, RNA는 불안정해서 안정적 DNA로 바꿔줌)
> 3 시퀀싱 기계로 읽기(Sequencing)
> 4 컴퓨터로 수치화(유전자별 "발현량" 수치로 정리)
>> "즉, RNA-seq는 유전자들의 "말하기 양(발현량)"을 측정해서, 어떤 유전자가 문제인지 찾는 기술"
- DESeq2가 뭔지 개념 이해하기
👉 "RNA-seq 데이터를 분석해서 유의미한 유전자를 찾는 도구"
→ 📄 DESeq2_intro.txt에 핵심 정리 (한 줄 요약 + 대표 그래프 스샷 첨부)
RNA-seq 데이터에서 '어떤 유전자가 유의미하게 달라졌는지'를 찾아주는 R 패키지
쉽게 말하면, "두 조건 사이에서 유전자 발현량이 많이 달라진 유전자를 찾아주는 통계 분석 도구"
<용도>
1) 어떤 유전자가 유의하게 차이 나는지
2) 그 차이는 통계적으로 의미가 있는지
3) 발현량이 얼마나 증가/감소했는지 (fold change)
<기능> - 정규화 / 통계 검정 / 결과 정리 / 시각화
: RNA-seq 데이터를 그냥 보면 너무 많은 숫자뿐, DESeq2를 서야 똑똑하게 차이 나는 유전자를 골라낼 수 있음.
그 유전자가 질병과 관련 있을 수 있고, 나중에 BIOMARKER 나 치료 표적이 될 수 있다.
>> "DESeq2는 RNA-seq 데이터를 통계적으로 분석하여, 두 조건 간 발현량이 유의하게 달라진 유전자를 식별하는 데 사용하는 Bioconductor 패키지임."
- GSEA 개념 이해 & MSigDB 살펴보기
👉 “개별 유전자 말고 **유전자 무리(=gene set)**의 행동을 보는 분석”
→ MSigDB 바로가기
→ 📄 GSEA_intro.txt에 내가 관심 있는 gene set 키워드 메모 (예: Hypoxia, DNA Repair)
GSEA란 = Gene Set Enrichment Analysis
=> 유전자 하나하나 보지 말고, 유전자 무리 전체가 어떻게 움직이는지 보자!
<왜 GSEA가 필요할까?>
- 유의미한 유전자가 적거나
- 약간만 변화한 유전자가 많을 때
<분석 순서>
1 전체 유전자 LIST를 발현량 변화 기준으로 정렬
2 특정 gene set이 리스트에서 상위/하위에 몰려 있는지 확인
(많으면: 그 경로가 "활성화", 적으면: "억제"된 것)
3 Enrichment Score 계산
- 그 유전자들이 얼마나 몰려 있는지를 점수화
- p-value와 FDR로 통계적 유의성 확인>
- R, RStudio 설치 or Google Colab R 환경 확인
→ 로컬에 RStudio 설치해도 좋고, Colab에서 R 커널을 사용해도 OK
→ 이건 한 번만 하면 됨
설치 완료!
✅ [2단계] DESeq2 분석 실습
- Bioconductor 및 DESeq2 설치
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("DESeq2")
- 예제 데이터셋 로딩 (airway 사용)
BiocManager::install("airway")
library(airway)
data("airway")
- Quick Start 튜토리얼 실행
👉 공식 튜토리얼 링크
→ log2 fold change, adjusted p-value 출력
→ 📁 my_DESeq2_results.csv 저장 + /study/RNAseq/에 저장
✅ [3단계] GSEA 체험하기
- GSEA 프로그램 설치 (Java 필요)
👉 다운로드 링크 - 샘플 데이터로 GSEA 예제 실행
→ 예제 GCT + CLS 파일 불러오기
→ Hallmark gene set 선택 (예: HALLMARK_HYPOXIA) - Enrichment 결과 그래프 저장
→ gsea_hypoxia_result.png 생성
→ /study/RNAseq/GSEA/ 폴더에 저장
✅ [4단계] TCGA 데이터 접근하기
- cBioPortal 접속 → BRCA 데이터 검색
👉 https://www.cbioportal.org - mRNA Expression + Clinical Data 다운로드
→ CSV로 저장하고 /study/RNAseq/에 정리
→ 파일명: tcga_brca_expression.csv
✨ 오늘 50% 완성 목표:
1~4번 완료 + DESeq2 예제 한번 돌려보기
(여기까지만 해도 Radiogenomics 진입의 70%는 끝난 거야!)
🔜 다음 단계에서 이어서 할 것
- 내가 선택한 유전자 셋으로 GSEA 재실행
- Volcano plot, PCA plot 시각화 연습
- GEO에서 RNA-seq 데이터 받아서 직접 분석 시도
- 나만의 슬라이드 1장 정리로 요약
필요하면 📁 study/RNAseq/ 폴더 구조 샘플, GSEA 실행 순서, 또는 Colab 버전 DESeq2 실습용 노트북도 만들어줄 수 있어.
원하는 항목 골라서 “이거 먼저 줘!” 해줘도 돼 😎