AI

TTS 설치하기 (Fish Speech) - 로컬 무료

ppsd 2026. 2. 8. 09:48
반응형

 

 

 

 

 

흐름(영화·애니 드라마 제작)에 최대한 맞게 구성을 정리했어요. RTX 4070 노트북(8GB VRAM) 기본 설치 + 고품질 + 느낌 표현 강력한 무료 오픈 소스 TTS를 활용해 보세요.최종 추천: Fish Speech (FishAudio-S1 / OpenAudio-S1 제공) + Applio (RVC 기반)이것은 2026년 기준으로 당신이 원하는 사항(한글 감정 태그에 맞게 지원 + 위치 + 무료 + RTX 4070에서 잘 돌아감)을 가장 잘 커버 합니다.1단계: TTS 부분 → Fish Speech 위치 설치 (감정 표현 1등)

  • 왜 이게 최고인가?

  * 영어(ko) 뛰어난 지원 + 감정 마커 공식 지원 (영어·중국어·일본어·한국어 등 13개 언어에서 감정 태그 작동)

  * 태그 예시 (정말로 소리치고 속삭이는 최고 수준의 나옴):

    * (소리치며) ​​야! 이리와!

    * (속삭이며) 캣... 조용히 해... 달라고요.

    * (비명) 아아악!!

    * (화가 난다)(고함을 지르며) 고치세요!!

    * (슬픔)(속삭이며) 미안해...

    * (신난다)(웃음) 와 진짜 성공다!!

    * 여러 개 복잡한 시도니: (화가)(고함을 지르며) 나가라고!!

  * 웃음, 흐느끼기, 한숨, 헐떡임, 기침 등 비언어 효과도 존재하는 태그가 있을 수 있습니다.

  * 음성 복제 지원 → 10~30초 오디오 효과 그 사람 목소리로 감정 표현 가능 (하지만 기본 모델도 충분히 자연스럽습니다)

  * 품질: ElevenLabs급 또는 그 이상으로 평가를 받는 음 (즉 감정·프로소디 자연스럽습니다)

  * 무료 & 완전설치 (오프라인, 다운로드 제한 없음)

  • RTX 4070 노트북(8GB) 설치 팁

  * GitHub: https://github.com/fishaudio/fish-speech

  * 최신 버전 (1.5 이상 추천) 후 설치

    * 파이썬 3.10~3.11 추천

    * CUDA 12.x 설치 (NVIDIA 드라이버 최신 버전)

    * pip install -r 요구 사항.txt 후 python webui.py 또는 Docker로 대변면 편함

  * VRAM: 4B 모델 기준 6~7GB 정도 먹음 → 8GB로 충분합니다 (배치 크기 1로 하면 문제 없음)

  * 교체면 0.5B 미니 써도 품질 괜찮음

  • 플러그인 예시 입력:  (소리치며) ​​야! 이리와! (속삭이며) 스테! 조용히 해...들키겠어. → MP3/WAV 바로 다운로드(또는 자동 저장 폴더 설정)

2단계: 목소리 → Applio (RVC) 배치

  • 왜 Applio인가?

  * RVC 기반 중 가장 오래된 UI 존재 (웹 브라우저로 로그인)

  * 입력 오디오의 통화·강도·프로소디는 거의 100% 반 (소리침·속삭임 그대로 유지하면서 음색만 바꿈)

  * 수많은 개 무료 커뮤니티 모델 (.pth) 다운로드 가능 → 피트니스 캐릭터, 유명 성우, 맞춤형 목소리 무한

  * 공존하는 동일한 기록 → 각 역할 단위 Index Ratio, Pitch Shift, Protect Voice 등 생성(사전 설정으로 저장 가능)

    * 예: 역할 A → Index 0.7, Pitch +2, RMS Mix 0.4 이런 식으로 메모장에 독점적으로 쓰기

  * 원시 모드도 있지만 파일 변환으로 충분합니다.

  • 설치

  * https://applio.org/ 또는 GitHub "IAHispano/Applio-RVC-Fork"

  * 원클릭 설치 프로그램(Windows 배치 파일 클릭 몇 번)

  * RTX 4070 호환 (CUDA 자동 잡힘, 8GB로 스위싱)

  • 워크플로우 예시

  1. Fish Speech에서 GIF 태그 생성 → MP3 저장

  2. Applio → 오디오 업로드 → 원하는 RVC 모델 선택

  3. 파장 조정(한 번 정하면 미리 설정 저장)

  4. 변환 → MP3 생성(또는 시스템 종료로 가능하지만 Applio는 직접 다운로드 지원)

다른 대안 (Fish가 안 맞으면)

  • Qwen3-TTS (Alibaba 오픈 소스): 자연어 불안으로 통화 제어("화나면서 소리치며 말해") 가능, 한국어 지원. 많은 양의 금액이 있습니다.
  • XTTS-v2 (Coqui): 감정 전달이 가능하지만 태그 직접 지원 약함.

요약표 항목 물고기 언어 + 응용 왜 최선인가? 한글 표현 최고 (외치다,속삭이다) 당신의 예시가 구현되어 있습니다 위치/무료/오프라인 완전 예 다운로드 제한 무시 가능 RTX 4070 노트북 잘 돌아감 (8GB 정도) GPU 가속 풀 활용 역할별 일관성 Applio 사전 설정 저장으로 확인 분류 기록 영화/애니핏도 매우 맑음 (감정·타이밍 자연스럽습니다) 운율 반대 Fish Speech 설치부터 시작해보세요. README 따라가다 막았으면 좋겠다고 말할 것입니다. (예: "torch cuda 처리" 이런 거) 이 컴패니언으로 인해 진짜 배우처럼 탄약 처리 + 원하는 캐릭터로 완성될 수 있습니다! 화이팅   라고 너가 나에게 답한것을 다른 세션에서 가져왔어... 이제 E드라이브에 TTS_VC 라고 루트폴더 만들고 그안에 TTS , VC, venv (두폴더의 공용 가상라이브러리- 이유는 파이썬은 설치되었찌만 다른 버전을 더 설치하고 싶지않고 시스템경로에 추가하고 싶지않아. TTS_VC 폴더안에 언제든 사용되어지는 venv 폴더를 넣어두고 그 폴더의 파이썬을 사용하기 위함이야.

 

 

 

 



 

 

 

 

Fish Speech 저장소는 GitHub에서 ZIP으로 다운로드할 수 있어요.

  • https://github.com/fishaudio/fish-speech 로 이동
  • 초록색 Code 버튼 → Download ZIP 클릭
  • 다운로드된 fish-speech-main.zip 파일을 E:\TTS_VC\TTS 폴더 안에 풀기 (압축 풀 때 폴더 구조가 fish-speech-main으로 나오면, 그 안 내용을 TTS 폴더로 바로 옮기거나 폴더 이름을 TTS로 바꾸세요)

→ git clone 안 해도 돼요. ZIP 다운 + 압축 풀기만으로 충분합니다. (업데이트할 때도 GitHub에서 다시 ZIP 받아 덮어쓰기 하면 OK)

 

Fish Speech 소스 다운로드 (ZIP 방식으로, Git 없이)

이미 TTS 폴더가 비어있거나 준비됐으면:

  1. 브라우저로 https://github.com/fishaudio/fish-speech 이동
  2. 초록색 Code 버튼 → Download ZIP 클릭
  3. 다운로드된 fish-speech-main.zip (또는 최신 이름)을 열고, 안의 모든 파일/폴더를 E:\portable\TTS_VC\TTS 폴더로 직접 풀기 (복사-붙여넣기). → 결과: TTS 폴더 안에 README.md, fish_speech 폴더, tools, pyproject.toml 등이 생김.

 

 

폴더 만들었고
파이썬도 확인

 


 

 

python-3.11.9-amd64.exe 다운로드 받았고.

 

E:\portable\TTS_VC 에서 CMD 하여서.

 

 

 


 

venv 생성 성공하면:

  1. 활성화 테스트

venv\Scripts\activate

 

 


 

 

 

pip 업그레이드: python -m pip install --upgrade pip setuptools wheel

 

 

 


 

 

torch 설치 (RTX 4070 Laptop용 CUDA 12.1 추천, 8GB VRAM 충분):

단계 4: PyTorch (torch) 설치 – RTX 4070 Laptop (8GB VRAM) 맞춤

Fish Speech는 CUDA 지원이 중요해요. 2026년 기준 최신 안정적인 CUDA는 12.1 또는 12.4/12.8 (RTX 40 시리즈 잘 맞음). 당신 노트북 RTX 4070 Laptop은 CUDA 12.x 잘 잡아요. VRAM 8GB라 mini 모델이나 batch=1로 충분함.

활성화된 venv에서:

 

  • 만약 CUDA 12.4/12.8 드라이버가 최신이라면 cu124 / cu128로 바꿔보세요 (예: cu128).
  • 설치 중 "torch 2.x.x+cu121" 이런 거 나오면 성공.
  • 5~10분 걸릴 수 있어요 (큰 파일 다운로드).

 

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

 

 

 

 


 

 

완료 후 확인:

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

→ True 나오면 GPU OK! (False면 NVIDIA 드라이버 재확인)

 

 

 

 


 

 

 

단계 5: Fish Speech 의존성 + 본체 설치

TTS 폴더로 이동해서 editable install:

cmd
 
E:

cd portable\TTS_VC
 

먼저 venv 활성화부터 다시 확인/실행하세요. (매번 CMD 새로 열 때마다 이거 해야 해요)

 

 

 


 

 

 portable\TTS_VC\TTS 폴더를

 fish-speech-main 라고 원래 다운로드 받은 파일의 원래 폴더 명으로 하기로 함.

TTS 폴더는 빈폴더여서 그냥 지워 버렷음,

TTS -> fish-speech-main 로변경함.

 

단계 5: fish-speech-main 폴더로 이동 + editable install (-e .)

활성화된 venv 상태에서:

cmd
 
cd fish-speech-main

(이동 후 프롬프트가 ...TTS_VC\fish-speech-main> 이렇게 바뀜)

그 다음 설치:

cmd
 
pip install -e .
  • -e . 의미: "현재 폴더(fish-speech-main)를 editable 모드로 설치" → 코드 변경 시 재설치 없이 바로 반영됨.
  • 이 명령어가 pyproject.toml이나 setup.py 기반으로 모든 의존성 (transformers, librosa, soundfile 등)을 자동 설치해줘요.
  • 설치 시간: 5~15분 정도 (패키지 많아서). "Successfully installed ..." 여러 줄 나오면 OK.
  • 만약 에러:
    • "No module named setuptools" → 먼저 python -m pip install --upgrade pip setuptools wheel 다시 실행
    • "triton" 또는 "ninja" 관련 → torch가 제대로 안 깔렸을 수 있음 (다음 단계 torch 재확인)
    • "compile not supported on Windows" 경고 → 무시해도 돼요 (Windows에서는 compile 옵션 안 씀)

 

 


 

 

단계 6: torch 재확인 (필수 – Fish Speech가 GPU 쓰려면)

이미 설치했더라도 다시 체크:

cmd
 
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  • 이미 설치돼 있으면 "Requirement already satisfied" 나와요.
  • CUDA 버전: RTX 4070 Laptop은 cu121 잘 맞아요. 드라이버가 55x 이상이면 cu124나 cu128도 시도 가능 (하지만 cu121이 가장 안정적).

 

 

확인 명령어:

cmd
 
python -c "import torch; print(torch.__version__); print('CUDA available:', torch.cuda.is_available()); print('GPU name:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'No GPU')"
  • 출력 예시:
    text
     
    2.5.0+cu121
    CUDA available: True
    GPU name: NVIDIA GeForce RTX 4070 Laptop GPU
    → True 나오면 GPU OK!

 

 

 


 

 

 

단계 7: 웹UI 실행 (이제 GUI 시대!)

fish-speech-main 폴더 안에 있는 상태에서:

cmd
 
python tools\webui.py
  • 또는 일부 버전에서:
    cmd
     
    python -m fish_speech.webui
  • 실행되면 "Running on local URL: http://127.0.0.1:7860" 이런 메시지 나옴.
  • 브라우저(크롬 등)에서 그 주소 열기.
  • 처음이면 모델 자동 다운로드 (FishAudio-S1-mini 추천 – 4~6GB 정도, VRAM 6~7GB 먹음. 8GB라 OK).
  • 웹UI에서:
    • Reference audio (음성 복제 원하면 10~30초 샘플 업로드)
    • Text 입력: (소리치며) 야! 이리 와!! (속삭이며) 쉿...
    • Generate 버튼 → 소리 나오면 대성공!

모델 선택: S1-mini나 1.5 버전으로 시작하세요. 풀 모델은 VRAM 부족할 수 있음.

 

 

 

 

 


 

 

 

 

한글이 깨지는 건 .bat 파일을 만들 때 인코딩 문제 때문이에요. Windows에서 메모장으로 .bat 파일을 저장하면 기본 인코딩이 ANSI(또는 UTF-8 BOM 없음)라 한글이 깨집니다.

해결법 (꼭 이 순서로 다시 만들어주세요)

  1. 메모장 대신 메모장++ (Notepad++)이나 VS Code를 사용하세요. (없으면 메모장에서도 가능하지만 아래 방법대로)
  2. 파일 저장 시 인코딩을 UTF-8 (BOM 포함) 또는 ANSI로 명시적으로 지정
  3. .bat 파일 내용에 한글을 넣을 때는 echo. 뒤에 공백 하나 넣고, 한글 줄은 그대로 두되 저장 시 주의

아래는 한글 깨짐 + 오류 방지를 위해 완전히 재작성한 버전입니다. 이전 버전보다 더 안전하게 만들었어요 (불필요한 echo 줄 줄이고, 에러 시에도 창 유지).

1. 추천 방식 (tools\webui.py 직접 실행)

파일 이름: FishSpeech_WebUI.bat 내용 전체 복사해서 새 텍스트 파일에 붙여넣기 → 저장 시 인코딩: ANSI 또는 UTF-8 선택 (메모장 기준 "다른 이름으로 저장" → 인코딩 드롭다운에서 선택)

bat
 
@echo off
chcp 65001 >nul
title Fish Speech WebUI

echo.
echo venv 활성화 중...
call "E:\portable\TTS_VC\venv311\Scripts\activate.bat"

echo.
echo fish-speech-main 폴더로 이동...
cd /d "E:\portable\TTS_VC\fish-speech-main"

echo.
echo 웹UI 실행 중... (브라우저에서 http://127.0.0.1:7860 을 열어주세요)
echo 종료하려면 Ctrl+C 를 누르세요.
echo.

python tools\webui.py

echo.
echo 웹UI가 종료되었습니다.
pause

2. 모듈 방식 (python -m fish_speech.webui)

파일 이름: FishSpeech_WebUI_module.bat 같은 방법으로 저장

bat
 
@echo off
chcp 65001 >nul
title Fish Speech WebUI (모듈 방식)

echo.
echo venv 활성화 중...
call "E:\portable\TTS_VC\venv311\Scripts\activate.bat"

echo.
echo fish-speech-main 폴더로 이동...
cd /d "E:\portable\TTS_VC\fish-speech-main"

echo.
echo 웹UI 실행 중 (모듈 방식)... (브라우저에서 http://127.0.0.1:7860 을 열어주세요)
echo 종료하려면 Ctrl+C 를 누르세요.
echo.

python -m fish_speech.webui

echo.
echo 웹UI가 종료되었습니다.
pause

저장 시 꼭 지켜야 할 포인트

  • 메모장 사용 시:
    1. 내용 붙여넣기
    2. 파일 → 다른 이름으로 저장
    3. 파일 이름: FishSpeech_WebUI.bat (확장자 .bat 꼭!)
    4. 저장 형식: 모든 파일(.)
    5. 인코딩: UTF-8 또는 ANSI 중 하나 선택 (둘 다 시도해보세요. 대부분 ANSI가 더 잘 먹힘)
  • 메모장++ 있으면:
    • Encoding → UTF-8 (또는 ANSI) → 저장
  • 파일 아이콘이 톱니바퀴 모양(배치 파일)으로 바뀌어야 정상

실행 후 예상되는 상황

  • 창이 열리면서 한글이 정상으로 보이면 성공
  • "python: 명령을 인식하지 못합니다" → venv311 안에 python.exe가 제대로 있는지 확인
  • "No module named fish_speech" → pip install -e . 이 아직 안 됐거나 실패한 경우 → CMD에서 직접 venv 활성화 후 cd fish-speech-mainpip install -e . 다시 실행해보세요
  • 모델 다운로드 중 인터넷 느리면 그냥 기다리기

이 두 파일 다시 만들어서 더블클릭 해보세요. 이번에는 한글 깨짐 없이 나와야 하고, 오류도 더 잘 잡힐 거예요.

 

 

 

 


 

 

 

오류

 

 

모델 체크포인트 폴더가 없어서 발생한 문제입니다.

Fish Speech 웹UI(run_webui.py)를 처음 실행할 때 자동으로 모델을 다운로드하려고 하지만, 현재 설정에서 'checkpoints\openaudio-s1-mini' 폴더(또는 파일)를 찾지 못해 FileNotFoundError가 발생했어요.

왜 이런 에러가 났나?

  • Fish Speech는 기본적으로 openaudio-s1-mini (또는 fish-speech-1.5 등) 모델을 checkpoints 폴더에 기대함.
  • 자동 다운로드가 제대로 트리거되지 않았거나, 경로가 잘못됐거나, 인터넷 연결/허깅페이스 접근 문제로 다운로드가 안 됐을 가능성이 큼.
  • 결과적으로 checkpoints/openaudio-s1-mini 폴더가 없어서 config 파일을 열 수 없음.

해결 방법 (단계별로 따라 해보세요)

1. 가장 빠르고 확실한 방법: 모델 수동 다운로드

Fish Speech 공식 Hugging Face 저장소에서 직접 다운로드해서 넣는 게 제일 안정적이에요.

  1. 브라우저에서 아래 링크 열기:
  2. checkpoints 폴더 전체를 다운로드:
    • 폴더 안에 있는 파일들 (config.json, model.safetensors, tokenizer.json 등)을 모두 선택해서 다운로드.
    • 또는 "Download repository" 버튼으로 전체 ZIP 다운로드 후 압축 풀기.
  3. 다운로드한 파일들을 E:\portable\TTS_VC\fish-speech-main\checkpoints\openaudio-s1-mini 폴더에 넣기:
    • fish-speech-main 안에 checkpoints 폴더가 없으면 직접 만드세요.
    • 그 안에 openaudio-s1-mini 폴더를 만들고, 다운로드한 파일들을 그 안에 넣음.
    • 최종 구조 예시:
      text
       
      E:\portable\TTS_VC\fish-speech-main\checkpoints\openaudio-s1-mini\
          ├── config.json
          ├── model-00001-of-0000x.safetensors (또는 model.safetensors)
          ├── tokenizer.json
          └── ...
  4. bat 파일 다시 더블클릭해서 실행 → 이번에는 모델 로딩이 정상적으로 진행될 거예요.

 

 

 


 

 

 

 

3. 다른 모델 시도하고 싶을 때 (VRAM 부족 대비)
RTX 4070 Laptop 8GB라 mini 모델이 제일 안전해요.
하지만 풀 모델도 시도하고 싶으면:

https://huggingface.co/fishaudio/fish-speech-1.5/tree/main
→ checkpoints/fish-speech-1.5 폴더로 다운로드 & 넣기
→ bat 파일 마지막 줄에 옵션 추가:textpython tools\run_webui.py --llama-checkpoint-path "checkpoints/fish-speech-1.5"

4. 실행 후 확인할 것

성공하면 콘솔에 "Loading Llama model..." → "Model loaded successfully" 비슷한 메시지 나오고,
Gradio 웹UI가 뜨면서 "Running on local URL: http://127.0.0.1:7860" 표시됨.
브라우저에서 그 주소 열고, 텍스트 입력란에 (소리치며) 야! 이리와!! 넣어서 테스트.

요약 액션 플랜

checkpoints\openaudio-s1-mini 폴더를 직접 만들어서 Hugging Face에서 파일 다운로드 → 넣기
FishSpeech_WebUI.bat 더블클릭
성공하면 웹UI에서 감정 태그 테스트

 

 

 

 



 

 

 

 

 

 

1. 괄호(감정 태그)가 그대로 읽히는 문제 ("소리치며"가 텍스트로 발음됨)

이건 Fish Speech의 감정 태그 처리 방식 때문이에요. Fish Speech는 기본적으로 (소리치며) 같은 태그를 지원하지만, 모델/설정에 따라 태그를 제대로 인식하지 못하거나 그대로 발음하는 경우가 있어요 (특히 mini 모델이나 한국어 fine-tune 부족 시).

빠른 해결 방법 (지금 당장 테스트해보세요):

  • 웹UI에서 입력 텍스트를 아래처럼 태그를 영어로 바꿔보거나 제거/조정:
    text
     
    (shouting) 야! 이리와!!
    (whispering) 쉿... 들키겠어...
    → 영어 태그 (shouting, whispering, angry, sad, laughing 등)가 더 잘 먹히는 경우 많아요. 한국어 태그는 아직 불안정할 수 있음.
  • 또는 태그 없이 강조 표현으로 우회:
    text
     
    야!!! 이리와아아!! (흥분해서 크게)
    → 느낌표나 반복으로 프로소디(억양/강도)를 유도하면 감정 비슷하게 나옴.
  • 고급 설정 (Advanced Settings) 열어서:
    • Temperature를 0.7~0.9 정도로 낮추기 (너무 높으면 태그 무시하고 랜덤하게 됨)
    • Top-p 0.9, Top-k 50 정도로 설정
    • Reference audio 업로드: 비슷한 감정의 실제 한국어 샘플 (10~30초) 넣으면 음성 복제 + 감정 따라감 (이게 제일 효과적!)
  • 한국어 감정 태그가 제대로 안 될 때 최선:
    • 모델을 openaudio-s1 (또는 fish-speech-1.5 풀 버전)으로 바꿔보세요. mini는 감정 표현이 약함.
    • checkpoints 폴더에 풀 모델 넣고 웹UI 재시작 (bat 파일에 옵션 추가: --llama-checkpoint-path checkpoints/fish-speech-1.5)

태그가 그대로 읽히는 건 버그라기보단 모델의 한계예요. ElevenLabs도 태그가 완벽하지 않은데, Fish Speech는 오픈소스라 아직 한국어 감정이 덜 다듬어졌어요. 위 방법으로 대부분 커버 가능할 거예요.

 

 

 

 

 


 

목소리 고정하기, 참고 목소리 쉽게 변경하기

 

Fish Speech 웹UI(Gradio 기반)에서 Reference audio는 세션을 유지하는 동안만 기억되거나, 기본적으로 매번 새로 업로드해야 하는 방식이에요. (2026년 기준 최신 버전에서도 UI 자체에 "저장된 목소리 목록"이나 자동 프리셋 기능은 없어요. 아래에 자세히 설명할게요.)

1. 다른 목소리로 변경하려면?

  • 네, 그냥 다른 Reference audio 파일을 업로드하면 돼요.
    • 웹UI의 "Reference audio" (또는 "Drop Audio here") 영역에 새 파일을 드래그하거나 Browse로 선택 → 바로 그 목소리로 바뀜.
    • 이전에 업로드했던 건 자동으로 지워지지 않고, 새로 업로드하면 덮어쓰기처럼 적용돼요.
    • 즉, 한 번에 하나의 Reference만 활성화 상태예요. (여러 개 동시에 섞어서 쓰는 건 안 됨)

2. 아까의 목소리로 다시 돌아가려면?

  • 네, 다시 그 파일을 업로드해야 해요. (저장 안 돼 있어요)
    • Gradio UI 특성상 세션이 끝나거나 페이지 새로고침하면 업로드된 Reference가 초기화됨.
    • 같은 목소리를 자주 쓰려면 매번 같은 파일을 다시 올려야 해요. (귀찮지만 로컬이라 파일은 PC에 그대로 있으니 복붙으로 빠르게 가능)

귀찮음을 줄이는 실용적인 팁 (가장 많이 쓰는 방법들)

  • references 폴더 활용 (Fish Speech 공식 추천, 최고 편함!)
    1. fish-speech-main 폴더 안에 references 폴더 직접 만들기.
    2. 그 안에 목소리별 서브폴더 만들기 (예: references/중년남성/, references/여성아이/, references/배우A/ 등)
    3. 각 폴더 안에:
      • sample.wav (또는 원하는 이름.wav) → Reference 오디오 파일
      • sample.lab → 텍스트 파일로 그 오디오의 대사 적기 (예: "안녕하세요. 이 목소리로 말해볼게요.")
    4. 웹UI 실행 후 → Reference audio 드롭다운이나 선택지에서 references 폴더의 voice_id (폴더 이름) 직접 선택 가능! → 한 번 설정해놓으면 드롭다운에서 바로 골라서 목소리 변경이 초스피드!
    예시 구조:이 방법 쓰면 "아까 그 목소리로 다시!" 할 때 파일 찾아 업로드할 필요 없이 드롭다운 클릭 한 번으로 끝나요. (공식 Inference 문서에 나와 있는 기능이에요)
  • text
     
    fish-speech-main/
    └── references/
        ├── 중년남성/
        │   ├── sample.wav
        │   └── sample.lab
        └── 여성아이/
            ├── sample.wav
            └── sample.lab
  • bat 파일에 --seed 고정 추가
    • 같은 Reference + 같은 Seed 쓰면 매번 거의 동일한 목소리/톤 나와요.
    • bat 마지막 줄에 --seed 42 (또는 원하는 숫자) 붙이기:
      text
       
      python tools\run_webui.py --seed 42
    → Reference 바꾸지 않아도 일관성 ↑
  • 여러 목소리 빠르게 전환
    • 브라우저 탭 여러 개 띄워서 각 탭에 다른 Reference 업로드 → 동시에 테스트 가능 (하지만 GPU 하나라 동시에 Generate는 안 됨)
    • 또는 references 폴더를 목소리별로 잘 정리해놓고 쓰는 게 제일 편해요.

이 방법으로 하면 일관성 문제 90% 해결 + 목소리 전환도 편함이에요. 먼저 references 폴더 만들어서 2~3개 목소리 넣어보세요. (10초 클립만으로도 충분)

 

 

 

 

 

 


 

 

 

일관성 셋팅에 관하여 하기 전에 옵션들 확인

 

Fish Speech를 활용해 소설 낭독이나 콘텐츠 제작 시 일관성 있는 목소리를 유지하는 것은 매우 중요하죠. 업로드해주신 화면의 설정값들은 AI가 얼마나 창의적으로 변주를 줄지, 아니면 얼마나 규칙적으로 답변할지를 결정하는 핵심 요소들입니다.

일관성을 유지하기 위한 핵심 설정들을 중심으로 설명해 드릴게요.


1. 일관성을 위한 핵심 설정 (가장 중요!)

  • Seed (시드):
    • 설명: AI가 목소리를 생성할 때 사용하는 '무작위 숫자'의 시작점입니다.
    • 일관성 팁: 같은 텍스트라도 시드 번호가 달라지면 톤이나 억양이 미세하게 바뀝니다. 마음에 드는 목소리가 나왔을 때의 시드 번호를 반드시 기록해두고, 다음 문장을 만들 때도 같은 번호를 입력하세요. 0은 매번 랜덤하게 생성하겠다는 의미이므로 피해야 합니다.
  • 참고 오디오 (Reference Audio):
    • 설명: (이미지 하단 탭에 가려져 있지만) 일관성의 가장 큰 축입니다. 기준이 되는 목소리 파일을 업로드하는 곳입니다.
    • 일관성 팁: 소설의 특정 캐릭터라면, 그 캐릭터의 가장 표준적인 목소리 샘플을 매번 동일하게 사용해야 합니다.

2. 고급 설정 (Advanced Settings) 상세 분석

  • Temperature (온도):
    • 설명: 값이 높을수록 목소리에 변화(감정, 억양의 변폭)가 커지고, 낮을수록 단조롭고 안정적이 됩니다.
    • 일관성 팁: 너무 높으면 목소리가 튀고, 너무 낮으면 로봇처럼 딱딱해집니다. 보통 0.7 ~ 0.8 사이가 가장 자연스러우면서도 일관성이 높습니다.
  • Top-P:
    • 설명: 누적 확률이 일정 수준 이하인 단어(소리 단위)들만 후보로 두는 설정입니다.
    • 일관성 팁: 0.8 ~ 0.9 정도가 적당합니다. 이 수치를 너무 낮추면 표현력이 풍부하지 못하고, 너무 높으면 발음이 뭉개지거나 엉뚱한 소리가 섞일 수 있습니다.
  • 반복 패널티 (Repetition Penalty):
    • 설명: 같은 소리나 억양이 반복되는 것을 방지합니다.
    • 일관성 팁: 1.1 정도가 기본이며, 목소리가 특정 음절에서 "버벅"거리거나 무한 반복될 때 조금씩 높여보세요. 하지만 너무 높이면 목소리가 부자연스러워집니다.
  • 반복 프롬프트 길이:
    • 설명: 생성 시 앞부분의 문맥을 얼마나 참고할지 결정합니다.
    • 일관성 팁: 긴 문장을 읽을 때 뒷부분에서 목소리가 변하는 것을 막아줍니다. 기본값을 유지하되, 문장이 길다면 조금 늘려보는 것이 도움이 됩니다.

💡 일관성을 유지하는 작업 순서 제안

  1. 샘플링: 짧은 문장으로 테스트하며 마음에 드는 톤이 나올 때까지 생성합니다.
  2. 고정: 마음에 드는 결과가 나왔다면, 그때 사용된 Seed 번호Temperature, Top-P 값을 메모장에 복사해둡니다.
  3. 적용: 소설의 다음 문장을 생성할 때 동일한 설정값과 동일한 참고 오디오를 넣고 생성합니다.

추가 팁: 작가님의 소설 속에 등장하는 18가지 채소 장아찌 재료들을 나열하는 장면 등을 녹음하실 때, 재료마다 감정을 달리하고 싶다면 Temperature를 살짝 조절해보는 것도 재미있는 시도가 될 것 같습니다.

 

 

 

 

 


 

 

 

 

레퍼런스 참고 음성을 넣어서 일관성을 유지하기 :

 

 

레퍼런스에서 먼저 참고 웨이브 올리고 여기와서 생성만 눌러도 똑같이 생성된다.!!

 

 

 

 

(screaming) 야! 이리와!



(shouting) 야! 이리 와!


(laughing) 와 진짜 성공이다 크크큭
(whispering) 쉿.. 조용히 해..

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형