단일세포 분석: PCA와 정규화 이론

1. 학습 목표

정규화된 카운트가 세포 간 정확한 비교에 왜 필수적인지 이해
주성분 분석(PCA)이 세포 간 유사성을 평가하는 원리 학습

고품질 단일세포 데이터를 확보한 후, scRNA-seq 분석 워크플로우의 다음 단계는 클러스터링입니다. 클러스터링의 목표는 서로 다른 세포 유형을 고유한 군집으로 나누는 것입니다. 이를 위해 세포 간 발현 차이가 가장 큰 유전자를 식별하고, 해당 유전자들을 기반으로 어떤 관련 유전자 세트가 가장 큰 변이를 유발하는지 분석합니다.

2. 카운트 정규화

첫 번째 단계는 카운트 정규화로, 세포(또는 샘플) 간 유전자 발현을 정확히 비교하기 위해 필수적입니다. 유전자별 매핑된 리드(read) 수는 RNA 발현량에 비례합니다. 정규화는 원시 카운트 값을 조정하는 과정으로, 이를 통해 세포 내외의 발현 수준을 더 비교 가능하게 만듭니다.

정규화 과정에서 주로 고려되는 주요 요소는 다음과 같습니다:

시퀀싱 깊이
세포 간 유전자 발현 비교를 위해 시퀀싱 깊이를 고려해야 합니다. 아래 예시에서 세포 2의 모든 유전자 발현이 두 배로 보이지만, 이는 세포 2가 두 배의 시퀀싱 깊이를 가졌기 때문입니다.
scRNA-seq에서는 각 세포마다 연결된 리드 수가 다릅니다. 따라서 세포 간 발현을 정확히 비교하려면 시퀀싱 깊이에 대한 정규화가 필요합니다.
유전자 길이
동일한 세포 내에서 서로 다른 유전자 간 발현을 비교하려면 유전자 길이를 고려해야 합니다. 긴 유전자에 매핑된 리드 수는 발현량이 낮지만 짧은 유전자와 같은 카운트를 보일 수 있습니다.
scRNA-seq 분석에서 세포를 클러스터링하기 위해 유전자 간 발현을 비교할 때, 3' 또는 5' 말단 기반의 드롭릿(droplet) 방법을 사용하면 유전자 길이는 영향을 미치지 않습니다. 이는 전사체의 5' 또는 3' 말단만 시퀀싱되기 때문입니다. 그러나 전체 길이 시퀀싱을 사용한다면 전사체 길이를 고려해야 합니다.

3. PCA

주성분 분석(PCA)은 변이와 유사성을 강조하고 데이터셋 내 패턴을 명확히 보여주는 기법입니다. 이는 "차원 축소" 방법 중 하나입니다. 여기서는 PCA의 개념을 간략히 설명하며, 자세한 설명은 StatQuest의 동영상을 참고하길 권장합니다.

간단한 예

두 개의 샘플(또는 세포)에서 4개 유전자의 발현을 정량화했다고 가정해 봅시다. 이를 각각 x축과 y축으로 하는 산점도로 나타낼 수 있습니다.

데이터의 최대 변이 방향으로 선을 그릴 수 있습니다. 이 예에서는 대각선 방향이 됩니다. 데이터셋 내 가장 큰 변이는 이 선의 양 끝점에 해당하는 유전자들 사이에서 발생합니다.

유전자들은 선 위와 아래에서 차이를 보입니다. 2차원(축 2개) 그래프이므로 데이터의 두 번째로 큰 변이를 나타내는 다른 선을 그릴 수 있습니다.

각 선의 끝 부근에 있는 유전자는 변이가 가장 큰 유전자입니다. 수학적으로 이 유전자들은 선의 방향에 가장 큰 영향을 미칩니다.

예를 들어, 유전자 C 값의 작은 변화는 긴 선의 방향을 크게 바꾸는 반면, 유전자 A나 D의 작은 변화는 거의 영향을 주지 않습니다.

전체 그래프를 회전시키면, 변이를 나타내는 선이 좌우와 상하로 나타납니다. 데이터의 대부분 변이는 좌우(긴 선) 방향이며, 두 번째로 큰 변이는 상하(짧은 선) 방향입니다. 이제 이 선들을 변이를 나타내는 축으로 볼 수 있습니다. 이 축들이 바로 "주성분"이며, PC1은 데이터의 가장 큰 변이를, PC2는 두 번째로 큰 변이를 나타냅니다.

세 개의 샘플/세포가 있다면, 세 번째 변이 방향이 추가됩니다. 따라서 N개의 샘플/세포가 있으면 N개의 변이 방향 또는 N개의 주성분(PC)이 존재합니다. PC가 계산되면, 데이터셋 내 변이가 가장 큰 PC가 PC1, 그 다음이 PC2로 지정됩니다.

데이터셋의 PC가 결정되면, 각 샘플/세포가 이 새로운 좌표계에서 어떻게 위치하는지 파악해야 합니다. 이를 통해 유사성/비유사성을 직관적으로 시각화할 수 있습니다. 핵심 질문은 "sample_X의 유전자 발현을 바탕으로, 특정 PC에 대한 sample_X의 점수는 얼마인가?"입니다. 이것이 실제 차원 축소 단계로, 최종 PCA 그래프에는 각 샘플/세포의 PC 점수가 표시됩니다.

모든 샘플-PC 쌍에 대해 PC 점수는 아래 단계와 도식을 따라 계산됩니다:

먼저, 각 유전자가 PC에 미치는 영향 정도에 따라 "영향력" 점수를 할당합니다. 특정 PC에 전혀 영향을 미치지 않는 유전자는 0에 가까운 점수를, 더 큰 영향을 미치는 유전자는 더 높은 점수를 받습니다. PC 선 끝에 있는 유전자는 더 큰 영향을 미치므로 부호가 반대인 더 큰 점수를 받습니다.
영향력이 결정되면, 다음 수식을 사용해 각 샘플의 점수를 계산합니다:

Sample1 PC1 점수 = (리드 카운트 * 영향력) + ... (모든 유전자에 대해 반복)

2개 샘플 예시의 계산 결과:

## Sample1
PC1 점수 = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51
PC2 점수 = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7

## Sample2
PC1 점수 = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21
PC2 점수 = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5

이 두 단계의 도식은 다음과 같습니다:

모든 PC에 대해 점수가 계산되면, 이를 간단한 산점도로 나타냅니다. 아래는 예시 그래프로, 2D 행렬에서 2D 플롯으로 변환된 결과입니다.

scRNA-seq 예시

12,000개 세포의 단일세포 RNA-seq 데이터셋에서 20,000개 유전자의 발현을 정량화했다고 가정합니다.

PC 점수가 계산되면 12,000 x 12,000 행렬이 생성되며, 이는 모든 세포의 상대적 유전자 발현 정보를 담고 있습니다. PC1과 PC2 열을 선택하여 2차원으로 플로팅할 수 있습니다.

또한, 데이터의 대부분 변이를 설명하는 상위 40개의 PC 점수를 클러스터링, 마커 식별 등의 하위 분석에 사용할 수 있습니다.

참고: 샘플 또는 세포가 많은 데이터셋에서는 각 샘플/세포의 PC1과 PC2 점수만 시각화에 주로 사용됩니다. 이 PC들이 데이터의 최대 변이를 설명하므로, 서로 유사한 샘플/세포는 PC1과 PC2 축에서 가깝게 모여 클러스터를 형성할 것으로 예상됩니다. 아래 실제 예시를 참조하세요.

태그: 단일세포분석 PCA 정규화 scRNA-seq 차원축소

6월 21일 20:27에 게시됨

괴물 클럽

단일세포 분석: PCA와 정규화 이론

1. 학습 목표

2. 카운트 정규화

3. PCA

인기 태그