AI 電話語音品質怎麼選？2026 zh-TW TTS 5 大評估軸實戰評測

Q: zh-TW TTS 哪家最自然？

不存在通用答案。電話場景優先考慮 first-byte latency 與台灣腔對齊：ElevenLabs Flash v2.5（~75 ms）+ voice clone、Cartesia Sonic 3（~90 ms）+ 情緒標籤、Azure Neural（HsiaoChen / HsiaoYu / YunJheNeural）三組各有合理應用。

Q: 台灣腔 TTS 推薦？

Azure Neural 的 zh-TW 三 voice 是現成最穩的台灣腔基底；要更高自然度可走 ElevenLabs / Cartesia 的 voice clone 路線，用 30 分鐘到 1 小時的錄音樣本訓練自訂業務員聲音。

Q: TTS 一個字多少錢？

依引擎而定：OpenAI tts-1 約 US$15 / 百萬字、tts-1-hd 約 US$30 / 百萬字；gpt-4o-mini-tts 改 token-based 計費約 $0.015 / 分鐘音訊。一通 3 分鐘外撥電話，TTS 成本約 NT$0.5-1.5。

Q: TTS 跟 ASR 哪個對接通率影響更大？

接通率主要受 ASR 影響——客戶覺得 AI 聽不懂我會直接掛。TTS 影響的是接通後的對話放棄率（hangup mid-call）和品牌信任。

Q: 自訂業務員聲音合法嗎？

需要本人書面同意 + 用途範圍授權，符合個資法第 6 條敏感個資（生物特徵）規範。

TL;DR — AI 電話語音品質的決勝點不在 podcast 那種高保真——電話場景的 TTS 必須擠進 first byte < 300 毫秒、G.711 8 kHz 窄頻、即時 streaming 三條鐵律（Wikipedia 2024）。本文以 5 大評估軸 × 5 大引擎，拆解 ElevenLabs、Cartesia、Google、Azure、OpenAI 的 zh-TW 實戰差異。

為什麼電話 TTS 跟 podcast TTS 完全不同？

最容易踩的坑是把 podcast 評測直接搬來選 TTS。podcast 場景：48 kHz 取樣、可預先合成、容許後期處理。電話場景完全相反——三條鐵律一條都不能違反。

第一條：latency 必須 streaming，first byte < 300 毫秒。AI 電話對話每一輪都得在使用者話音結尾算起 1 秒內回應，扣掉 ASR、LLM 推論時間，TTS 留給你的窗口大約 200-300 毫秒。Cartesia Sonic 3 強調「streaming out the first byte of audio in just 90ms」（Cartesia 2025），ElevenLabs Flash v2.5 公開的數字是「~75ms latency」（ElevenLabs 2026）——這兩家是電話場景的合理候選。OpenAI tts-1 / gpt-4o-mini-tts 沒有公開 streaming first-byte 數字，需要實測。

第二條：必須能擠進窄頻而不爆音。電話骨幹大半仍跑 G.711，「a sampling rate of 8000 Hz... a frequency band of 300-3400 Hz」（Wikipedia 2024）。意思是你 TTS 輸出的 24 kHz 高音採樣，要先 downsample 到 8 kHz 再送 SIP trunk——下採樣演算法不好就會出現嘶聲、齒音破音。podcast 評測表的「自然度」滿分在電話跑出來常常剩一半。

第三條：prosody 要能即時調整。LLM 生成的回覆是流式串入 TTS 的，TTS 不能先等整段話再決定語調。intonation、停頓、強調哪個字，都得在 token 級別 streaming 處理。傳統 concatenative TTS（拼接式）在這條完全敗下陣，現代 neural TTS 例如 Sonic、Flash、Azure Neural 才有機會。

⚠️ 注意：用「我聽起來覺得自然」當唯一指標選 TTS 是常見錯誤。電話場景下，95% 的決策權在 latency 和窄頻表現，不在 podcast 那種高保真自然度。

AI 電話語音品質的 5 大評估軸

把上面三條鐵律展開成可比較的評估軸，得到 5 條：

評估軸	為什麼重要	怎麼測
自然度	影響接通率與信任感	連續 30 通樣本盲測，5 人評分 1-5
台灣腔	業務電話聽起來像「對岸客服」會立刻被掛	念出 30 個 TW 限定詞（牛肉麵、悠遊卡、捷運、便利商店、土城、信義區）
數字唸法	撥電話、地址、訂單號最常出錯	`0912345678` / `Q3 EPS 4.27` / `下午 14:30` 各跑 10 次
中英 code-switch	TW 商務對話必混 KPI / OKR / ESG	每段含 2 個英文縮寫，看是否流暢
情緒控制	道歉、確認、提問需要不同語調	同句以 `tone="apology"` / `tone="cheerful"` 各跑一次

第一軸誰都會做。第二到第五軸才是電話場景真正的差距所在——多數 vendor 在 podcast benchmark 上分數差不多，但 0912345678 唸成「零九十二、三百四十五、六七八」就是慘案。完整選型方法可對照 AI 電話客服選型指南的 10 個不能省的功能。

5 大引擎在 zh-TW 的實戰評測

下表是 2026 年 4 月公開資訊整理（最後一欄為合理候選範圍，非廠商背書）。

引擎	自然度	台灣腔	數字唸法	中英 mix	情緒控制	first-byte latency
ElevenLabs Flash v2.5	高	普通腔，需 voice clone 補強	中	強	Multilingual v2 強，Flash 弱	~75 ms（ElevenLabs 2026）
Cartesia Sonic 3	高	中性，需 voice clone	中	強	強（情緒標籤豐富）	~90 ms（Cartesia 2025）
Cartesia Sonic Turbo	中-高	同上	中	中	中	~40 ms（同上）
Google Cloud TTS（Chirp 3 HD）	中-高	有 zh-TW 專用 voice，腔調合格	高	中	弱（傳統 SSML 控制）	streaming，無公開首位元組數字
Azure Neural TTS	中-高	3 個 zh-TW voice：HsiaoChen / HsiaoYu / YunJhe	高	中	中（多 style）	streaming，無公開首位元組數字
OpenAI gpt-4o-mini-tts	中-高	中性，無 zh-TW 專屬 voice	中	強	強（自然語言指令調語氣）	無公開 streaming 數字

幾個現實觀察：

ElevenLabs Flash v2.5 的 75 毫秒是純模型推論時間。實際電話跑下來，加上網路延遲、SIP 端點到 TTS 端點的 round-trip、再 downsample，end-to-end 可能落在 200-350 毫秒區間。對 latency 敏感的電話應用，Flash v2.5 是合理首選。Multilingual v2 自然度更高但 latency 顯著拉長，適合 inbound IVR 提詞，不適合 outbound 對話。

Cartesia Sonic 3 的 90 毫秒是平台 first byte。「streaming out the first byte of audio in just 90ms」是 Cartesia 自家平台側數字（Cartesia 2025）。情緒標籤是這家的強項——<emotion>apology</emotion> 這類即時控制比 SSML pitch 來得自然許多。

Azure Neural TTS 的 zh-TW 三聲道很穩。HsiaoChenNeural、HsiaoYuNeural、YunJheNeural（Microsoft 2026）都是台灣標準腔，沒有大陸央視腔的尾音上揚。Personal Voice + Professional Voice 都支援 zh-TW，自訂業務員聲音可行。沒公開 first-byte streaming 數字是缺點。

Google Cloud TTS Chirp 3 HD 在自然度上 2024-2025 大躍進，zh-TW Wavenet voice 跑得久、穩定度高，但情緒控制仍偏 SSML 傳統路線——不適合需要即時切換語氣的對話。

OpenAI gpt-4o-mini-tts 的特色是用「自然語言指令」調語氣：直接寫 instructions: "speak with a calm and apologetic tone" 即可。zh-TW 沒有專屬 voice，得從 13 個 multilingual voice 裡挑，腔調 hit-and-miss。

台灣腔 vs 普通話腔：3 個立刻聽出破綻的點

Vendor 自家的「Mandarin」voice 99% 預設是普通話／大陸腔。三個破綻立刻被台灣聽眾聽出來：

1. 「和」字唸法：台灣念「ㄏㄢˋ」（hàn），大陸念「ㄏㄜˊ」（hé）。你和我 一句就翻車。

2. 兒化音：大陸 voice 會把「一點兒」「玩兒」拖出 r-color 尾音，台灣對話完全不用兒化。outbound 業務電話冒出兒化音，掛斷率立刻翻倍。

3. 量詞與口語助詞：「一道菜」（大陸）vs「一個菜」（台灣常用）；「真的嗎」（中性）vs「真假」「真的喔」（台灣口語）。這層需要在 prompt + voice 兩端都對齊，光換 voice 沒用。

💡 重點：選 zh-TW voice 之前，先用「我跟你介紹一下我們的方案」這 14 個字當試金石。聽「跟」「介紹」「一下」三個重音和氣口，是大陸央視腔還是台灣業務口吻，5 秒分得出來。

數字、地址、英文混雜的常見坑

電話對話最常出錯的不是長句子，是這四種瑣碎輸入：

手機號碼 0912-345-678——應念「零九一二三四五六七八」，但常見錯誤是 voice 把它當數字「9 億 1234 萬 5678」整數來唸。解法是發送前以 SSML <say-as interpret-as="telephone"> 或在 prompt 加「請逐字唸出每個數字」。

Q3 EPS 4.27 元——Q3 應念「Q three」，EPS 念字母 E-P-S，4.27 念「四點二七」。混雜情境下 ElevenLabs Flash v2.5 / Cartesia Sonic 3 / OpenAI gpt-4o-mini-tts 三家表現較穩，Azure 與 Google 有時會把 EPS 當英文整字唸成「ehps」。

地址台北市信義區松仁路 100 號——多數 voice 會把「松仁路」斷詞為「松、仁路」三個字而非「松仁路」整個詞。解決方式是在發送前先做 word segmentation，並包 <phoneme> 或自訂 lexicon。

24 小時制時間 14:30——大陸習慣念「十四點半」，台灣口語多念「下午兩點半」。SSML <say-as interpret-as="time" format="hms24"> 在不同 voice 跑出來不同結果，必須實測。

✅ 快速行動：不論選哪家，把以上 4 類各 5 個樣本作為驗收清單，採購前讓廠商示範跑一次。能跑出 18/20 以上的引擎才進入下一輪 latency 測試。

即時性：streaming TTS 為什麼必須 < 300 毫秒？

把 latency 預算拆開看：

使用者話音結束
  → ASR 判定靜音 + 轉文字          ~150-300 ms
  → LLM 第一個 token              ~200-400 ms（GPT-4o）or ~600 ms（Claude Sonnet）
  → TTS first byte                ~目標 < 300 ms
  → 客戶聽到第一個音               total ~700-1000 ms

人類對話中，任何一輪超過 1.5 秒「乾掉」的空白都會被感知為「卡住」。所以 ASR + LLM + TTS 三段得壓在 1 秒內完成，TTS 留 300 毫秒已是奢侈。Cartesia Turbo 的 40 毫秒（Cartesia 2025）和 ElevenLabs Flash 的 75 毫秒（ElevenLabs 2026）為什麼要捲到那麼快——因為他們知道下游還有 ASR、LLM 各自在燒延遲預算。

痛點： 某保險團隊用 Google TTS 跑 outbound，受訪客戶反映「很機器、有點生硬」。 AI 解法： 換到 Cartesia Sonic 3，first-byte 從 350 毫秒降到 130 毫秒，整輪對話從 1.4 秒降到 0.9 秒。 預期效益： 接通後對話放棄率從 12% 降到 4%，相當於每月多回收 200 通有效對話（基於 5,000 通基數推估）。

「streaming out the first byte of audio in just 90ms... about twice as fast as the blink of an eye.」——Cartesia 2025

請見 AI 電話 vs 語音機器人 vs IVR 對「對話能力光譜」的整理——TTS 品質是決定 AI 電話而非 voicebot 的關鍵變數之一。

5 個 TTS 選型常被忽略的成本陷阱

月費標籤下藏的隱性成本，至少這 5 條最常被踩。

1. per-character vs per-token——OpenAI tts-1 / tts-1-hd 為 per-character 計費（tts-1 約 US$15 / 百萬字、tts-1-hd 約 US$30 / 百萬字，OpenAI 2026）；ElevenLabs Flash 是 per-character；Cartesia 標的是 per-character；Google / Azure 是 per-character。但 gpt-4o-mini-tts 改 token-based（$0.60 / 1M text in + $12 / 1M audio out，約 $0.015 / 分鐘音訊）。中文每個字佔 2-3 token，per-token 計費下中文成本 hidden inflation。

2. streaming vs 一次合成——廠商通常把 streaming 計入 base price，但若用 chunk-based 一次合成（latency 較高的非 streaming），有些 vendor 會打折，沒有開 streaming 是浪費月費。

3. 客製化聲音 IP 歸屬——voice clone 出來的「業務員 X 的聲音」屬誰？ElevenLabs Professional Voice Cloning 簽約清楚，使用者保留聲音 IP；某些 vendor 預設聲音 IP 歸平台。錄音當事人合作關係結束後可能引發糾紛，採購前看授權條款。

4. 訓練成本——Personal Voice / 自訂 voice 通常需要 30 分鐘到 3 小時錄音 + 訓練費用；Azure Personal Voice、ElevenLabs Voice Lab 各自定價，3 名業務員客製化聲音成本可能達 NT$3-10 萬一次性不等。

5. 隱性 SIP 落地費——TTS 引擎本身的成本只是冰山一角，搭配的 SIP trunk 落地費才是大頭。中華電信市話 NT$1.6 / 3 分（CHT 2025）這類落地費不會因為換 TTS 引擎而省下。完整成本拆解見 AI 電話多少錢？2026 台灣 5 種計費結構。

⚠️ 注意：採購時把上面 5 條列點寄給廠商，要求「3 個月內 1,000 分鐘流量總成本」一個數字。能在 3 個工作日內回覆的廠商，合約清晰度通常較高。

常見問題

zh-TW TTS 哪家最自然？

不存在通用答案。電話場景優先考慮 first-byte latency 與台灣腔對齊：ElevenLabs Flash v2.5（~75 毫秒，ElevenLabs 2026）+ voice clone、Cartesia Sonic 3（~90 毫秒，Cartesia 2025）+ 情緒標籤、Azure Neural（HsiaoChen / HsiaoYu / YunJheNeural，Microsoft 2026）三組各有合理應用。

台灣腔 TTS 推薦？

Azure Neural 的 zh-TW 三 voice 是現成最穩的台灣腔基底；要更高自然度可走 ElevenLabs / Cartesia 的 voice clone 路線，用 30 分鐘到 1 小時的錄音樣本訓練自訂業務員聲音。

TTS 一個字多少錢？

依引擎而定：OpenAI tts-1 約 US$15 / 百萬字、tts-1-hd 約 US$30 / 百萬字（OpenAI 2026）；gpt-4o-mini-tts 改 token-based 計費約 $0.015 / 分鐘音訊。一通 3 分鐘外撥電話，TTS 成本約 NT$0.5-1.5，幾乎被 SIP 落地費（中華電信市話 NT$1.6 / 3 分，CHT 2025）掩蓋。

TTS 跟 ASR 哪個對接通率影響更大？

接通率主要受 ASR 影響——客戶覺得「AI 聽不懂我」會直接掛。TTS 影響的是接通後的對話放棄率（hangup mid-call）和品牌信任。完整 ROI 拆解見 AI 電話 vs 真人客服 ROI 攤回試算。

自訂業務員聲音合法嗎？

需要本人書面同意 + 用途範圍授權，符合個資法第 6 條敏感個資（生物特徵）規範。完整合規拆解見 AI 電話合法嗎？個資法 + 通保法 + 公平法。

Brightalk.ai 的 AI 電話模組對 TTS 引擎是廠商中立的，可在產品功能總覽看見當前支援的引擎清單；對應的完整定價方案中，TTS 流量已含在月費內，無另外按字計費。

想看完整 AI 電話導入路徑與外撥流程設計？閱讀本系列的支柱長文 AI 電話行銷完整指南。

AI 電話語音品質怎麼選？2026 zh-TW TTS 5 大評估軸實戰評測

AI 電話語音品質怎麼選？2026 zh-TW TTS 5 大評估軸實戰評測

為什麼電話 TTS 跟 podcast TTS 完全不同？

AI 電話語音品質的 5 大評估軸

5 大引擎在 zh-TW 的實戰評測

台灣腔 vs 普通話腔：3 個立刻聽出破綻的點

數字、地址、英文混雜的常見坑

即時性：streaming TTS 為什麼必須 < 300 毫秒？

5 個 TTS 選型常被忽略的成本陷阱

常見問題

zh-TW TTS 哪家最自然？

台灣腔 TTS 推薦？

TTS 一個字多少錢？

TTS 跟 ASR 哪個對接通率影響更大？

自訂業務員聲音合法嗎？

此主題中的更多文章