
AI 電話答錄機偵測:為什麼台灣 AMD 失效,以及啟發式偵測的工程細節
TL;DR — 外撥電話約 30–50% 接到答錄機,但業界主流的 AMD(Answering Machine Detection)在台灣不可用:Twilio AMD 只支援美國與加拿大(Twilio 2025),Plivo AMD 全球準確率僅 60–75%(Plivo 2025),且 SIP 訊號層人機難辨。台灣端唯一可上線的工程啟發式為「ringDuration ≥ 20 秒、duration ≤ 10 秒」雙條件聯判,本文拆解原理與操作細節。
為什麼台灣的 AMD 會失效
AMD(Answering Machine Detection,又稱 Acoustic Media Detection)是國際 telephony API 廠商提供的標配功能,原理是接通後的 0–4 秒內分析音訊節奏、停頓長度、語速,判斷對端是真人還是答錄機。問題是這套技術對台灣幾乎全面失效,原因有兩層。
第一層是 SIP 訊號層人機難辨。SIP 通話協定的 200 OK 回應只代表「通話建立」,無論對端是真人接起或是答錄機系統接起,回傳都是 200 OK,協定層完全分不出差異(LiveKit 2025、Wikipedia SIP 響應碼)。換言之,所有依賴訊號層的偵測一定要再加上音訊分析,但音訊分析就會撞到第二層問題。
第二層是國際 AMD 模型訓練資料的台灣盲區。Twilio 官方 FAQ 明白寫著 AMD 只在美國與加拿大可用(Twilio 2025),其他地區仍在 roadmap,沒有具體時程。Plivo 的 AMD 精度官方公告為 60–75%(Plivo 2025),這個區間還是全球平均、不是台灣本地。Telnyx 雖然提供 Premium AMD 強調更高準確率(Telnyx 2025),但同樣沒有公開台灣區段資料。三大廠都把台灣留白的原因相同:AMD 模型靠美式答錄機的開場白節奏訓練(典型「Hi, you've reached…」延音 1.5–3 秒),台灣三大電信的答錄機開場白語速、節奏、靜音長度都不同,模型推論直接掉入未訓練分布。
⚠️ 不要被 AMD「全球可用」的銷售文案誤導——讀官方文件(不是業務 deck)才會看到區域限制。
三大電信對答錄機的處理:以中華電信為例
中華電信行動電話使用者免申請、免設定費就有語音信箱服務,無應答轉接之振鈴秒數可設為 5、10、15、20、25、30 六種值(中華電信 2025),使用者以 **61*777*11*<秒數># 設定。實務上多數使用者從未動過此設定,預設約落在 25–30 秒區間。
| 電信業者 | 振鈴秒數可選值 | 使用者設定門檻 | 答錄機 SIP 行為 |
|---|---|---|---|
| 中華電信 | 5 / 10 / 15 / 20 / 25 / 30 秒 | 免申請、免費 | 200 OK + 答錄機問候音訊 |
| 台灣大哥大 | 與 CHT 相近,部分機種需手動設定 | 免費 | 200 OK + 個人問候語 |
| 遠傳 | 與 CHT 相近 | 免費 | 200 OK + 個人問候語 |
三家業者的共通點:振鈴上限 30 秒、答錄機接起後 SIP 層只回 200 OK、音訊內容由使用者錄製(沒有可預測的標準提示音)。對外撥端來說,這代表三件事:第一,響鈴超過 20 秒沒接通就有相當機率轉入答錄機;第二,接通後若 5–10 秒內對端只是「靜音 → 個人問候 → 嗶聲」這種模式,幾乎可以認定為答錄機;第三,無法依賴音訊指紋識別(因為問候語內容隨使用者而異)。
啟發式偵測:ringDuration ≥ 20 秒 + duration ≤ 10 秒 為什麼可行
把上述三點翻譯成可上線的工程規則,唯一可靠的是雙條件啟發式:當振鈴時長 ringDuration ≥ 20 秒 且通話總長 duration ≤ 10 秒 時,判定為答錄機。背後邏輯有三步。
第一步,振鈴 ≥ 20 秒過濾掉「秒接型真人」。台灣手機使用者平均 2–8 秒接起,若振鈴超過 20 秒才有「接通」訊號,本機已經在轉接中。第二步,duration ≤ 10 秒過濾掉「真人短對話」。如果是真人接起後快速掛斷(例如「不方便、再聯絡」),多數情境也會超過 10 秒。第三步,雙條件 AND 大幅降低假陽性。單看振鈴秒數會錯殺秘書接、辦公桌空位、振動模式延遲應答;單看通話長度會誤判忙碌真人。兩個條件同時成立,誤判率才有實務價值。
💡 啟發式不是 AMD 替代品,是 AMD 缺席時的最佳近似——精度大約 80–90%,剩餘 10–20% 誤判靠人工 review + 後續對話 NLU 邊界補強。
明語科技股份有限公司(品牌 Brightalk.ai)對外撥場景採用此規則,並把答錄機列為一級分流結果(詳見「偵測後的下一步」段落)。完整的攤回試算與接通率真值還原邏輯,可參閱 AI 電話 vs 真人客服 ROI 攤回試算與導入邊界。
答錄機被誤判為「接通」對 ROI 試算的傷害
啟發式失敗或完全沒做偵測的後果,最直接反映在 ROI 試算上。以一個典型台灣 SMB 外撥場景為例:
- 月名單 1,000 通
- 真實接通率 40%、其中 35% 為答錄機
- 撥打成本 NT$1.6/3 分(中華電信市話)
若答錄機被誤判為「接通」,試算會出現以下落差:
| 項目 | 誤判為接通 | 啟發式正確分流 |
|---|---|---|
| 表面接通率 | 40% | 26%(扣除 14% 答錄機) |
| 答錄機平均通話 | 計入 8–15 秒 | 偵測後 3 秒內掛斷 |
| 月浪費撥打成本 | 約 NT$224(140 通 × 平均 3 分 × NT$1.6/3 分) | 約 NT$45 |
| 接續對話判讀 | AI 把答錄機問候誤當客戶回覆,留下無效轉錄 | 直接走 voicemail 分流,不汙染後續資料 |
這份對照沒有把「真人客服花 5 分鐘聽錄音判斷『這通到底是誰接的』」的時間成本算進去。實務上接通率偏離 10–15 個百分點的差距,會直接讓「攤回 1 個月」變成「攤回 3 個月」,採購方對 AI 電話的信任度也會崩潰。完整的計費結構與隱藏費用拆解,參閱 AI 電話多少錢?2026 台灣 5 種計費結構拆解。
6 個常見誤判場景與修正
啟發式雖然簡單,落地時仍有六種反例需要工程上補強:
- 辦公桌空位:振鈴 25 秒沒人接,最後總機接起問「請問找哪位」——
ringDuration ≥ 20命中、但duration通常拉到 30 秒以上,自動降回「接通」分支,符合預期。 - 秘書接電話:振鈴 6 秒接起、轉接前確認 5 秒——
ringDuration < 20直接走「接通」,正確。 - IVR 接起:振鈴 1–3 秒接起、播放選單 30 秒以上——
ringDuration太短不會誤分流到 voicemail,但需要 IVR 偵測補規則(DTMF 提示音、靜音節奏)才能正確分類。 - 語音助理機(手機 OS 內建):iOS Live Voicemail、Android Call Screen 等功能——表現類似真人短對話,
duration通常 > 10 秒,目前啟發式會分流為「接通」,需要在後續 NLU 階段補上「對端是 AI 而非真人」的偵測。 - 振動模式延遲應答:使用者在會議中接起但靜音 5 秒——
duration短、ringDuration短到中等,可能命中誤判,需要對話開頭 5 秒內若收到非靜音語音再回滾分類。 - 偽答錄機:使用者錄製「請留話、5 秒嗶聲」格式但實際接起——這類老派個人化語音信箱會讓
duration超過 10 秒、命中接通分支但其實是答錄機。需要靠後續 NLU 對「請於嗶聲後留言」這類關鍵詞補偵測。
✅ 接受啟發式有 10–20% 誤判——把資源花在事後 NLU 邊界補強,而不是追求 AMD 那「完美偵測」神話。
實務上,六種反例的合計誤判率不會超過 20%,多數情境啟發式 + NLU 雙層架構就足夠 SMB 規模採購。
偵測後的下一步:4-way 路由
偵測本身不是目的,目的是讓自動化引擎做出正確的下一步動作。完整的 outcome enum 應該是 4 路分流:
| 結果 | 啟發式條件 | 自動化下一步 |
|---|---|---|
answered |
ringDuration < 20s 或 duration > 10s |
走完整對話流,CRM 寫回逐字稿 |
no_answer |
ringDuration ≥ 30s 且 duration = 0s(未接通) |
隔日同時段重撥,最多 3 次後降級為 SMS 提醒 |
voicemail |
ringDuration ≥ 20s + duration ≤ 10s |
留下標準化簡短訊息(TTS 預錄)+ 觸發 SMS 簡訊或 LINE 訊息接力 |
failed |
SIP 4xx/5xx、號碼空號 | 標記為高風險、不再重撥、人工審查 |
voicemail 與 no_answer 必須分開,是因為兩者下一步動作完全不同:no_answer 適合重撥,voicemail 不適合重撥(使用者當下無接聽意願,再撥只是擾民),但適合走非語音通路接力。voicemail 的 TTS 留言品質直接影響回撥率,引擎選型細節請參閱 AI 電話語音品質怎麼選?2026 zh-TW TTS 5 大評估軸實戰評測。
「答錄機不是『失敗』,是『現在不適合語音接觸』。把它當失敗、塞回重撥隊列,是台灣外撥團隊接通率上不去的隱形殺手。」——綜合 Twilio AMD FAQ 2025 與 Plivo AMD 操作指南 2025
一個典型壽險團隊的偵測修正:30% 誤判 → 接通率真值還原
痛點:某 30 人壽險團隊月名單 8,000 通,原系統未做答錄機偵測。報表呈現接通率 40%、實際業務員手動 review 後發現 30% 為答錄機誤判,真實接通率僅 28%。報表失真導致主管以為「腳本沒問題」,但實際每月浪費約 NT$1,800 撥打成本與 80 小時業務員 review 時間。
AI 解法:導入 ringDuration ≥ 20s + duration ≤ 10s 雙條件啟發式 + voicemail 分流不重撥 + 後續 SMS 接力。系統自動把 30% 答錄機分流到 voicemail 路由,業務員不需要再手動 review;報表接通率自動修正為真值;voicemail 名單獨立成 list,由 SMS 簡訊接力(漏接回撥提醒 + 重新預約連結)。
預期效益:浪費撥打成本下降 70%(從 NT$1,800 / 月降至 NT$540 / 月),業務員 review 時數釋出 80 小時 / 月轉作親自拜訪,60 天後的真實接通率報表可直接對接董事會。完整的壽險業導入路線圖,參閱 壽險 AI 電話導入實戰:30 人團隊 60 天接通率拉一倍怎麼做|2026 台灣案例。
常見問題
為什麼不直接用國際 AMD API?
Twilio AMD 只支援美國與加拿大、Plivo 與 Telnyx 的全球準確率為 60–75%、且訓練資料偏美式答錄機節奏(Twilio 2025、Plivo 2025)。台灣三大電信的答錄機行為不在訓練分布內,實測準確率通常更低。雙條件啟發式雖然不如理論上的 AMD 精細,但工程上可解釋、可調整、可驗證。
啟發式精度多少?
實務 80–90%,視名單品質而定(B2C 名單品質低於 B2B、夜間時段誤判高於白天時段)。剩餘 10–20% 用後續 NLU 邊界補強(例如偵測對話開頭出現「請於嗶聲後留言」「無法接聽」等關鍵詞)。完整的 NLU 補強邏輯需要結合 RAG 與反幻覺護欄,本文不展開。
啟發式門檻可以調嗎?
可以,但建議只調 ringDuration 門檻(從 20 秒可調整為 18–22 秒區間),duration ≤ 10 秒 門檻較不建議放寬。產業差異:醫美、保險、補習班三大產業的客戶接電話速度有別,醫美下午、保險晚上、補習班下班後都有特定接通模式,部署初期應跑 2–4 週實測再調整門檻。系統面的調整與業務員管理規則的合規邊界,請參閱 AI 電話合法嗎?2026 台灣個資法 + 通保法 + 公平法 完整合規地圖。
答錄機偵測會違反個資法嗎?
不會。偵測本身只用通話 metadata(振鈴秒數、通話長度),不分析語音內容;個資法第 8 條告知義務針對「蒐集個資」,metadata 偵測不屬於蒐集行為。但留下的 voicemail 訊息屬於通話錄音,仍需事前告知(通保法第 29 條、個資法第 8 條)。
想看完整 AI 電話導入路徑、外撥腳本設計與 KPI 設定?閱讀本系列的支柱長文 AI 電話行銷完整指南。