不完全是。 SIP 协议本身并不限制必须是 8k 音频,但传统电话系统(PSTN/VoIP)里最常见的 codec 是 8k,所以现在的链路才是:
16k (模型输入)
↓
8k (SIP/RTP)
↓
LLM
↓
24k (模型输出)
↓
8k (SIP/RTP)
核心原因不是 SIP,而是 codec 选择。
一、SIP 是否只支持 8k
答案是:SIP 不限制采样率。
SIP 只是信令协议,真正决定音频格式的是 SDP 里协商的 codec。
例如 SDP 会包含类似内容:
m=audio 49170 RTP/AVP 0 8 96
a=rtpmap:0 PCMU/8000
a=rtpmap:8 PCMA/8000
a=rtpmap:96 opus/48000/2
这里可以看到:
| codec | 采样率 |
|---|---|
| PCMU | 8000 |
| PCMA | 8000 |
| G722 | 16000 |
| Opus | 48000 |
所以 SIP 可以支持:
- 8k
- 16k
- 32k
- 48k
甚至更高。
二、为什么大多数 SIP 系统是 8k
原因是 历史电话网络限制。
传统 PSTN 电话网络:
300Hz - 3400Hz
对应采样率:
8kHz
所以诞生了经典 codec:
| codec | 采样率 | 说明 |
|---|---|---|
| PCMU (G711 μ-law) | 8k | 北美 |
| PCMA (G711 A-law) | 8k | 欧洲 |
| G729 | 8k | 低带宽 |
| GSM | 8k | 老系统 |
这些 codec 几乎所有 SIP 设备都支持。
因此:
SIP电话 = 默认 8k
三、如果想避免 16k→8k→24k→8k
理论上可以。
只要 SIP 支持更高 codec。
例如:
方案1:G722(推荐)
G722 / 16000 Hz
链路变成:
16k microphone
↓
16k SIP RTP (G722)
↓
16k LLM
↓
24k LLM TTS
↓
16k RTP
这样只需要:
24k → 16k
一次 resample。
优点:
- 音质明显提升
- 带宽只增加一点
- SIP 设备普遍支持
很多企业电话都支持 G722。
方案2:Opus
Opus / 48000
链路:
48k RTP
↓
LLM
↓
48k RTP
几乎不用 resample。
但问题:
很多 SIP 电话 不支持 Opus。
四、为什么的系统目前必须 8k
当前代码里:
G711 解码
说明 SIP 协商的是:
PCMU
PCMA
也就是:
G711 = 8k
所以 MediaProcessor 里拿到的是:
8000 Hz PCM16
这是 RTP server 已经决定好的。
五、Realtime 模型为什么要 16k / 24k
因为 AI 模型训练数据是 宽带语音。
| 类型 | 采样率 |
|---|---|
| 电话语音 | 8k |
| 宽带语音 | 16k |
| TTS | 24k |
| 音乐 | 48k |
模型一般:
ASR 输入 16k
TTS 输出 24k
所以必须做:
8k → 16k
24k → 8k
六、的当前链路(真实情况)
现在系统实际是:
电话端
↓
G711 RTP
↓
8k PCM
↓
RealtimeMediaProcessor
↓
16k PCM
↓
Qwen Realtime
↓
24k PCM
↓
RealtimeMediaProcessor
↓
8k PCM
↓
G711 RTP
↓
电话端
这是 典型 VoIP + LLM 架构。
七、行业真实系统也是这么做的
例如:
| 产品 | 电话 codec | 模型 |
|---|---|---|
| Twilio Voice AI | 8k | 16k |
| Azure Call Automation | 8k | 16k |
| Google Dialogflow CX telephony | 8k | 16k |
| Amazon Connect | 8k | 16k |
全部都有 resample。
八、是否需要担心音质
一般不用。
因为:
- 电话网络本身就是 8k
- 用户听到的就是电话音质
模型内部 16k 只是为了:
- 更好的语音识别
- 更自然的 TTS
九、最佳实践
建议保持:
SIP = 8k
LLM = 16k
TTS = 24k
这是最稳定的。
如果控制 SIP 终端设备,可以升级到:
G722 (16k)
那音质会明显提升。
如果愿意,我可以再给画一张 完整的 AI 电话系统架构图(SIP + RTP + LLM + Realtime),那样会非常清晰。
