Hi-C 기반 유전체 어셈블리: 3D-DNA를 이용한 염색체 수준 구조화

개요

본 문서는 유전체 어셈블리 과정에서 Hi-C 데이터를 활용하여 contig 수준의 조립 결과를 염색체 수준으로 승격시키는 방법을 설명합니다. 특히 Juicer를 통해 처리된 Hi-C 데이터를 기반으로 3D-DNA 도구를 사용하는 절차에 초점을 맞춥니다. Juicer의 실행 과정은 이전 문서에서 다루었으므로, 여기서는 3D-DNA의 설치 및 실제 적용 방법을 중심으로 설명합니다.

배경

현대 유전체 분석에서는 먼저 Illumina 또는 Oxford Nanopore 등의 플랫폼을 통해 짧거나 긴 리드 시퀀싱을 수행하고, 이를 조합해 contig 단위의 초기 어셈블리를 생성합니다. 그러나 염색체 수준의 구조적 정확도를 확보하기 위해서는 추가적인 장거리 상호작용 정보가 필요하며, 이때 Hi-C 기술이 핵심적인 역할을 합니다. 특히 이배체 생물의 경우, Aiden 실험실에서 개발한 3D-DNA 파이프라인이 높은 정확도와 안정성으로 널리 사용되고 있습니다.

설치 및 환경 구성

필수 의존성

3D-DNA를 실행하기 위해 다음 소프트웨어들이 사전에 설치되어야 합니다:

  • LastZ (v1.03.73 이상) – 이배체 분석 전용
  • Java 1.7 이상
  • Bash 4 이상
  • GNU Awk 4.0.2 이상
  • GNU coreutils sort 8.11 이상
  • Python 2.7 이상 – 염색체 번호 기반 분리 모듈 사용 시 필요
  • scipy, numpy, matplotlib – Python 기반 후처리 모듈 지원

소스 코드 다운로드

GitHub 저장소에서 최신 버전의 3D-DNA를 복제합니다:

git clone https://github.com/theaidenlab/3d-dna.git

실제 데이터 처리

입력 데이터 준비

다음 두 가지 파일이 파이프라인 실행에 필수적입니다:

  1. 초기 어셈블리 파일: FASTA 형식 (genome.fa)
  2. Juicer 출력 파일: 정렬 후 중복 제거된 상호작용 매트릭스 (merged_nodups.txt, 일반적으로 aligned/ 디렉터리 내 존재)

파이프라인 실행

기본 명령어를 통해 자동화된 어셈블리 파이프라인을 시작합니다. 어셈블리 품질이 높다고 판단될 경우 오류 수정 단계를 줄이기 위해 -r 0을 지정할 수 있으나, 일반적으로는 기본값인 -r 2를 권장합니다.

/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt > log.txt &

출력 결과 해석

실행 완료 후 생성되는 주요 출력 파일들은 다음과 같습니다:

  • *FINAL*.fasta: 최종적으로 재구성된 염색체 수준의 유전체 서열
  • *.hic: Juicebox 호환 형식의 구조 데이터로, 각 단계별 시각화 가능
  • *.assembly: contig의 순서 및 방향 정보를 포함한 텍스트 파일 (단계별 생성)

후처리 및 수동 교정

생성된 .hic 파일과 초기 .assembly 파일을 Juicebox Assembly Tools (JBAT)에 로드하여 시각적으로 검토하고, 오조합이나 불일치 구간을 수동으로 수정합니다. 수정 완료 후 새 어셈블리 파일(예: genome.review.assembly)을 내보냅니다.

이후 아래 명령어로 최종 유전체 서열을 재생성합니다:

/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt

태그: 3D-DNA Hi-C 유전체 어셈블리 Juicebox Juicer

6월 15일 17:29에 게시됨