Ubuntu 20.04에서 Fish-Speech-1.5 설치 및 구성 방법

1. 들어서며

Ubuntu 운영 체계에서 고급 음성 합성 환경을 신속하게 구축하고자 할 때, Fish-Speech-1.5는 이상적인 선택입니다. 이 모델은 13개 언어를 지원하며, 100만 시간 분량 이상의 훈련 데이터를 바탕으로 자연스러운 음성을 생성할 수 있습니다. 이 안내서에서는 Ubuntu 20.04에서 Fish-Speech-1.5를 설치하고 구성하는 방법을 단계별로 설명합니다. 프로젝트에 음성 기능을 추가하거나 최신 TTS 기술을 경험해 보고자 하는 분들에게 이상적인参考资料가 될 것입니다.

전체 설치 과정은 약 30분 정도 소요되며, 단계별로 설명드리는 만큼 별다른 어려움 없이 완료할 수 있습니다.

2. 환경준비 및 시스템 요구사항

설치를 시작하기 전에 최소한의 시스템 요구사항을 확인해야 합니다. Ubuntu 20.04는 안정성과 호환성 측면에서 이상적인 선택입니다.

2.1 하드웨어 요구사항

Fish-Speech-1.5는 CPU에서 실행할 수 있지만, GPU가 있는 경우에는 성능이 훨씬 좋습니다. 권장 사양은 다음과 같습니다:

RAM: 최소 8GB, 추천 16GB
스토리지: 20GB 이상의 사용 가능한 공간(모델 가중치 저장용)
GPU: 선택 사항, NVIDIA 그래픽카드가 있으면 생성 속도가 훨씬 빠릅니다.

2.2 시스템 업데이트

먼저 시스템 패키지를 최신 버전으로 업데이트합니다:

sudo apt update
sudo apt upgrade -y

업데이트가 완료되면 시스템을 재부팅합니다:

sudo reboot

3. 시스템 의존성 설치

Fish-Speech-1.5가 작동하기 위해 필요한 시스템 수준의 의존성 패키지를 설치합니다.

3.1 기본 개발 도구 설치

개발 및 컴파일에 필요한 기본 도구를 설치합니다:

sudo apt install -y build-essential git curl wget

3.2 Python 환경관련 의존성 설치

Python 개발에 필요한 패키지를 설치합니다:

sudo apt install -y python3-pip python3-venv python3-dev

3.3 음성 처리 의존성 설치

음성 합성에 필요한 오디오 프로세싱 라이브러리를 설치합니다:

sudo apt install -y libsndfile1 ffmpeg

3.4 CUDA 지원 설치(선택사항)

NVIDIA 그래픽카드가 있는 경우에는 CUDA 툴킷을 설치합니다:

sudo apt install -y nvidia-cuda-toolkit

설치가 완료되면 CUDA가 제대로 설치되었는지 확인합니다:

nvidia-smi

상태가 표시된다면 드라이버 설치가 성공적이었습니다.

4. Python 가상 환경 구성

가상 환경을 구성하여 패키지 충돌을 방지합니다.

4.1 가상 환경 만들기

다음 명령어를 실행하여 가상 환경을 만듭니다:

python3 -m venv fish-speech-virtual

4.2 가상 환경 활성화

가상 환경을 활성화합니다:

source fish-speech-virtual/bin/activate

활성화되면 쉐ล프 이름 앞에 (fish-speech-virtual)가 표시됩니다.

5. Fish-Speech-1.5 설치

이제 Fish-Speech-1.5를 설치합니다.

5.1 코드 리ポ지토리 클론

깃허브 저장소를 클론하고 작업 디렉토리로 이동합니다:

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

5.2 Python 의존성 설치

필요한 패키지를 설치합니다:

pip install --upgrade pip
pip install -e .

이 단계는 큰 패키지如 PyTorch 설치로 인해 시간이 다소 걸립니다.

5.3 추가 의존성 설치

다음 패키지를 설치합니다:

pip install transformers gradio

6. 모델 가중치 다운로드

Fish-Speech-1.5가 작동하기 위해 모델 가중치 파일을 다운로드해야 합니다.

6.1 모델 디렉토리 생성

다음 명령어로 모델 디렉토리를 생성합니다:

mkdir -p models/fish-speech-1.5

6.2 가중치 파일 다운로드

가중치 파일을 다운로드합니다:

wget -P models/fish-speech-1.5/ https://huggingface.co/fishaudio/fish-speech-1.5/resolve/main/pytorch_model.bin
wget -P models/fish-speech-1.5/ https://huggingface.co/fishaudio/fish-speech-1.5/resolve/main/config.json

다운로드 속도가馒하다면 여러 번 반복하거나 다른 다운로드 도구를 사용해 보세요.

7. 설치 완료 검증

설치가 성공적으로 완료되었는지 확인합니다.

7.1 간단한 테스트 스크립트

test_installation.py 파일을 작성합니다:

import torch
from fish_speech.models import TextToSemanticModel

# GPU 사용 여부 확인
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"사용 중인 디바이스: {device}")

# 모델 로드 시도
try:
    model = TextToSemanticModel.from_pretrained("models/fish-speech-1.5")
    model.to(device)
    print("모델 로드 성공!")
except Exception as e:
    print(f"모델 로드 실패: {e}")

테스트 스크립트를 실행합니다:

python test_installation.py

"모델 로드 성공!"이라는 메시지가 표시되면 설치가 정상적으로 완료되었습니다.

8. 설치 중의 문제 해결

설치 과정에서 발생할 수 있는 몇 가지 문제를 소개합니다.

8.1 메모리 부족

메모리 부족 문제 발생 시:

# 병렬 컴파일 프로세스 수 줄이기
export MAX_JOBS=2
pip install -e .

8.2 다운로드 실패

가중치 파일 다운로드가 실패할 때:

# curl을 사용하여 다시 시도
curl -L -o models/fish-speech-1.5/pytorch_model.bin https://huggingface.co/fishaudio/fish-speech-1.5/resolve/main/pytorch_model.bin --retry 5

8.3 권한 문제

권한 관련 에러가 발생할 때:

# 현재 사용자에게 디렉토리 권한 부여
sudo chown -R $USER:$USER .

9. 기본 사용 예제

설치가 완료되면 기본 기능을 확인해 보겠습니다.

9.1 텍스트 음성 변환 예제

demo.py 파일을 작성합니다:

import torch
from fish_speech.models import TextToSemanticModel
from fish_speech.utils import play_audio

# 모델 로드
model = TextToSemanticModel.from_pretrained("models/fish-speech-1.5")
model.eval()

# 음성 생성
text = "안녕하세요, Fish-Speech 음성 합성 시스템에 오신 걸 환영합니다."
with torch.no_grad():
    audio = model.generate(text)
    
# 생성된 음성 재생
play_audio(audio, sample_rate=24000)

демо를 실행합니다:

python demo.py

10. 결론

Ubuntu 20.04에서 Fish-Speech-1.5 설치는 생각보다 간단합니다. 주요 단계는 시스템 의존성 설치, Python 가상 환경 구성, 모델 가중치 다운로드입니다. Ubuntu 20.04는 이 모델 설치에 있어 우수한 호환성을 보여줍니다.

실제 사용해본 결과, Fish-Speech-1.5의 생성 효과는 우수하며, 다양한 언어 지원과 자연스러운 음성 출력이 인상적입니다. 설치 과정에서 기타 문제 발생 시, 프로젝트의 GitHub 저장소를 방문해 더 상세한 문서와 문제 해결 방법을 확인하실 수 있습니다.

가상 환경 사용 시에는 항상 환경을 활성화한 상태에서 작업을 진행하시기 바랍니다. 그렇지 않으면 패키지가 찾히지 않을 수 있습니다. 이제 Fish-Speech-1.5의 훌륭한 기능을 경험하실 준비가 완료되었습니다!

더 많은 AI 이미지 보기

더 많은 AI 응용 사례와 이미지를 만나보려면 CSDN성상도 이미지 광장을 방문해 보세요. 다양한 프리셋 이미지가 제공되며, 대형 모델 추론, 이미지 생성, 동영상 생성, 모델 미세조정等多个 분야를 커버하고 있습니다.

태그: ubuntu Fish-Speech python Deep Learning Framework

6월 21일 16:38에 게시됨

괴물 클럽