개요
본 문서는 유전체 어셈블리 과정에서 Hi-C 데이터를 활용하여 contig 수준의 조립 결과를 염색체 수준으로 승격시키는 방법을 설명합니다. 특히 Juicer를 통해 처리된 Hi-C 데이터를 기반으로 3D-DNA 도구를 사용하는 절차에 초점을 맞춥니다. Juicer의 실행 과정은 이전 문서에서 다루었으므로, 여기서는 3D-DNA의 설치 및 실제 적용 방법을 중심으로 설명합니다.
배경
현대 유전체 분석에서는 먼저 Illumina 또는 Oxford Nanopore 등의 플랫폼을 통해 짧거나 긴 리드 시퀀싱을 수행하고, 이를 조합해 contig 단위의 초기 어셈블리를 생성합니다. 그러나 염색체 수준의 구조적 정확도를 확보하기 위해서는 추가적인 장거리 상호작용 정보가 필요하며, 이때 Hi-C 기술이 핵심적인 역할을 합니다. 특히 이배체 생물의 경우, Aiden 실험실에서 개발한 3D-DNA 파이프라인이 높은 정확도와 안정성으로 널리 사용되고 있습니다.
설치 및 환경 구성
필수 의존성
3D-DNA를 실행하기 위해 다음 소프트웨어들이 사전에 설치되어야 합니다:
- LastZ (v1.03.73 이상) – 이배체 분석 전용
- Java 1.7 이상
- Bash 4 이상
- GNU Awk 4.0.2 이상
- GNU coreutils sort 8.11 이상
- Python 2.7 이상 – 염색체 번호 기반 분리 모듈 사용 시 필요
- scipy, numpy, matplotlib – Python 기반 후처리 모듈 지원
소스 코드 다운로드
GitHub 저장소에서 최신 버전의 3D-DNA를 복제합니다:
git clone https://github.com/theaidenlab/3d-dna.git
실제 데이터 처리
입력 데이터 준비
다음 두 가지 파일이 파이프라인 실행에 필수적입니다:
- 초기 어셈블리 파일: FASTA 형식 (
genome.fa) - Juicer 출력 파일: 정렬 후 중복 제거된 상호작용 매트릭스 (
merged_nodups.txt, 일반적으로aligned/디렉터리 내 존재)
파이프라인 실행
기본 명령어를 통해 자동화된 어셈블리 파이프라인을 시작합니다. 어셈블리 품질이 높다고 판단될 경우 오류 수정 단계를 줄이기 위해 -r 0을 지정할 수 있으나, 일반적으로는 기본값인 -r 2를 권장합니다.
/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt > log.txt &
출력 결과 해석
실행 완료 후 생성되는 주요 출력 파일들은 다음과 같습니다:
*FINAL*.fasta: 최종적으로 재구성된 염색체 수준의 유전체 서열*.hic: Juicebox 호환 형식의 구조 데이터로, 각 단계별 시각화 가능*.assembly: contig의 순서 및 방향 정보를 포함한 텍스트 파일 (단계별 생성)
후처리 및 수동 교정
생성된 .hic 파일과 초기 .assembly 파일을 Juicebox Assembly Tools (JBAT)에 로드하여 시각적으로 검토하고, 오조합이나 불일치 구간을 수동으로 수정합니다. 수정 완료 후 새 어셈블리 파일(예: genome.review.assembly)을 내보냅니다.
이후 아래 명령어로 최종 유전체 서열을 재생성합니다:
/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt