Tio Boot DocsTio Boot Docs
Home
  • java-db
  • api-table
  • mysql
  • postgresql
  • oceanbase
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
Home
  • java-db
  • api-table
  • mysql
  • postgresql
  • oceanbase
  • Enjoy
  • Tio Boot Admin
  • ai_agent
  • translator
  • knowlege_base
  • ai-search
  • 案例
Abount
  • Github
  • Gitee
  • 01_tio-boot 简介

    • tio-boot:新一代高性能 Java Web 开发框架
    • tio-boot 入门示例
    • Tio-Boot 配置 : 现代化的配置方案
    • tio-boot 整合 Logback
    • tio-boot 整合 hotswap-classloader 实现热加载
    • 自行编译 tio-boot
    • 最新版本
    • 开发规范
  • 02_部署

    • 使用 Maven Profile 实现分环境打包 tio-boot 项目
    • Maven 项目配置详解:依赖与 Profiles 配置
    • tio-boot 打包成 FatJar
    • 使用 GraalVM 构建 tio-boot Native 程序
    • 使用 Docker 部署 tio-boot
    • 部署到 Fly.io
    • 部署到 AWS Lambda
    • 到阿里云云函数
    • 使用 Deploy 工具部署
    • 使用Systemctl启动项目
    • 使用 Jenkins 部署 Tio-Boot 项目
    • 使用 Nginx 反向代理 Tio-Boot
    • 使用 Supervisor 管理 Java 应用
    • 已过时
    • 胖包与瘦包的打包与部署
  • 03_配置

    • 配置参数
    • 服务器监听器
    • 内置缓存系统 AbsCache
    • 使用 Redis 作为内部 Cache
    • 静态文件处理器
    • 基于域名的静态资源隔离
    • DecodeExceptionHandler
    • 开启虚拟线程(Virtual Thread)
    • 框架级错误通知
  • 04_原理

    • 生命周期
    • 请求处理流程
    • 重要的类
  • 05_json

    • Json
    • 接受 JSON 和响应 JSON
    • 响应实体类
  • 06_web

    • 概述
    • 接收请求参数
    • 接收日期参数
    • 接收数组参数
    • 返回字符串
    • 返回文本数据
    • 返回网页
    • 请求和响应字节
    • 文件上传
    • 文件下载
    • 返回视频文件并支持断点续传
    • http Session
    • Cookie
    • HttpRequest
    • HttpResponse
    • Resps
    • RespBodyVo
    • Controller拦截器
    • 请求拦截器
    • LoggingInterceptor
    • 全局异常处理器
    • 异步处理
    • 动态 返回 CSS 实现
    • 返回图片
    • 跨域
    • 添加 Controller
    • Transfer-Encoding: chunked 实时音频播放
    • Server-Sent Events (SSE)
    • handler入门
    • 返回 multipart
    • 待定
    • 自定义 Handler 转发请求
    • 使用 HttpForwardHandler 转发所有请求
    • 常用工具类
    • HTTP Basic 认证
    • Http响应加密
    • 使用零拷贝发送大文件
    • 分片上传
    • 接口访问统计
    • 接口请求和响应数据记录
    • WebJars
    • JProtobuf
    • 测速
    • Gzip Bomb:使用压缩炸弹防御恶意爬虫
  • 07_validate

    • 数据紧校验规范
    • 参数校验
  • 08_websocket

    • 使用 tio-boot 搭建 WebSocket 服务
    • WebSocket 聊天室项目示例
  • 09_java-db

    • java‑db
    • 操作数据库入门示例
    • SQL 模板 (SqlTemplates)
    • 数据源配置与使用
    • ActiveRecord
    • Db 工具类
    • 批量操作
    • Model
    • Model生成器
    • 注解
    • 异常处理
    • 数据库事务处理
    • Cache 缓存
    • Dialect 多数据库支持
    • 表关联操作
    • 复合主键
    • Oracle 支持
    • Enjoy SQL 模板
    • 整合 Enjoy 模板最佳实践
    • 多数据源支持
    • 独立使用 ActiveRecord
    • 调用存储过程
    • java-db 整合 Guava 的 Striped 锁优化
    • 生成 SQL
    • 通过实体类操作数据库
    • java-db 读写分离
    • Spring Boot 整合 Java-DB
    • like 查询
    • 常用操作示例
    • Druid 监控集成指南
    • SQL 统计
  • 10_api-table

    • ApiTable 概述
    • 使用 ApiTable 连接 SQLite
    • 使用 ApiTable 连接 Mysql
    • 使用 ApiTable 连接 Postgres
    • 使用 ApiTable 连接 TDEngine
    • 使用 api-table 连接 oracle
    • 使用 api-table 连接 mysql and tdengine 多数据源
    • EasyExcel 导出
    • EasyExcel 导入
    • 预留
    • 预留
    • ApiTable 实现增删改查
    • 数组类型
    • 单独使用 ApiTable
    • TQL(Table SQL)前端输入规范
  • 11_aop

    • JFinal-aop
    • Aop 工具类
    • 配置
    • 配置
    • 独立使用 JFinal Aop
    • @AImport
    • 自定义注解拦截器
    • 原理解析
  • 12_cache

    • Caffine
    • Jedis-redis
    • hutool RedisDS
    • Redisson
    • Caffeine and redis
    • CacheUtils 工具类
    • 使用 CacheUtils 整合 caffeine 和 redis 实现的两级缓存
    • 使用 java-db 整合 ehcache
    • 使用 java-db 整合 redis
    • Java DB Redis 相关 Api
    • redis 使用示例
  • 13_认证和权限

    • FixedTokenInterceptor
    • TokenManager
    • 数据表
    • 匿名登录
    • 注册和登录
    • 个人中心
    • 重置密码
    • Google 登录
    • 短信登录
    • 移动端微信登录
    • 移动端重置密码
    • 微信登录
    • 移动端微信登录
    • 权限校验注解
    • Sa-Token
    • sa-token 登录注册
    • StpUtil.isLogin() 源码解析
  • 14_i18n

    • i18n
  • 15_enjoy

    • tio-boot 整合 Enjoy 模版引擎文档
    • Tio-Boot 整合 Java-DB 与 Enjoy 模板引擎示例
    • 引擎配置
    • 表达式
    • 指令
    • 注释
    • 原样输出
    • Shared Method 扩展
    • Shared Object 扩展
    • Extension Method 扩展
    • Spring boot 整合
    • 独立使用 Enjoy
    • tio-boot enjoy 自定义指令 localeDate
    • PromptEngine
    • Enjoy 入门示例-擎渲染大模型请求体
    • Tio Boot + Enjoy:分页与 SEO 实战指南
    • Tio Boot + Enjoy:分页与 SEO 实战指南
    • Tio Boot + Enjoy:分页与 SEO 实战指南
  • 16_定时任务

    • Quartz 定时任务集成指南
    • 分布式定时任务 xxl-jb
    • cron4j 使用指南
  • 17_tests

    • TioBootTest 类
  • 18_tio

    • TioBootServer
    • 独立端口启动 TCP 服务器
    • 内置 TCP 处理器
    • 独立启动 UDPServer
    • 使用内置 UDPServer
    • t-io 消息处理流程
    • tio-运行原理详解
    • TioConfig
    • ChannelContext
    • Tio 工具类
    • 业务数据绑定
    • 业务数据解绑
    • 发送数据
    • 关闭连接
    • Packet
    • 监控: 心跳
    • 监控: 客户端的流量数据
    • 监控: 单条 TCP 连接的流量数据
    • 监控: 端口的流量数据
    • 单条通道统计: ChannelStat
    • 所有通道统计: GroupStat
    • 资源共享
    • 成员排序
    • SSL
    • DecodeRunnable
    • 使用 AsynchronousSocketChannel 响应数据
    • 拉黑 IP
    • 深入解析 Tio 源码:构建高性能 Java 网络应用
  • 19_aio

    • ByteBuffer
    • AIO HTTP 服务器
    • 自定义和线程池和池化 ByteBuffer
    • AioHttpServer 应用示例 IP 属地查询
    • 手写 AIO Http 服务器
  • 20_netty

    • Netty TCP Server
    • Netty Web Socket Server
    • 使用 protoc 生成 Java 包文件
    • Netty WebSocket Server 二进制数据传输
    • Netty 组件详解
  • 21_netty-boot

    • Netty-Boot
    • 原理解析
    • 整合 Hot Reload
    • 整合 数据库
    • 整合 Redis
    • 整合 Elasticsearch
    • 整合 Dubbo
    • Listener
    • 文件上传
    • 拦截器
    • Spring Boot 整合 Netty-Boot
    • SSL 配置指南
    • ChannelInitializer
    • Reserve
  • 22_MQ

    • Mica-mqtt
    • EMQX
    • Disruptor
  • 23_tio-utils

    • tio-utils
    • HttpUtils
    • Notification
    • Email
    • JSON
    • File
    • Base64
    • 上传和下载
    • Http
    • Telegram
    • RsaUtils
    • EnvUtils 配置工具
    • 系统监控
    • 线程
    • 虚拟线程
    • 毫秒并发 ID (MCID) 生成方案
  • 24_tio-http-server

    • 使用 Tio-Http-Server 搭建简单的 HTTP 服务
    • tio-boot 添加 HttpRequestHandler
    • 在 Android 上使用 tio-boot 运行 HTTP 服务
    • tio-http-server-native
    • handler 常用操作
  • 25_tio-websocket

    • WebSocket 服务器
    • WebSocket Client
    • TCP数据转发
  • 26_tio-im

    • 通讯协议文档
    • ChatPacket.proto 文档
    • java protobuf
    • 数据表设计
    • 创建工程
    • 登录
    • 历史消息
    • 发消息
  • 27_mybatis

    • Tio-Boot 整合 MyBatis
    • 使用配置类方式整合 MyBatis
    • 整合数据源
    • 使用 mybatis-plus 整合 tdengine
    • 整合 mybatis-plus
  • 28_mongodb

    • tio-boot 使用 mongo-java-driver 操作 mongodb
  • 29_elastic-search

    • Elasticsearch
    • JavaDB 整合 ElasticSearch
    • Elastic 工具类使用指南
    • Elastic-search 注意事项
    • ES 课程示例文档
  • 30_magic-script

    • tio-boot 与 magic-script 集成指南
  • 31_groovy

    • tio-boot 整合 Groovy
  • 32_firebase

    • 整合 google firebase
    • Firebase Storage
    • Firebase Authentication
    • 使用 Firebase Admin SDK 进行匿名用户管理与自定义状态标记
    • 导出用户
    • 注册回调
    • 登录注册
  • 33_文件存储

    • 文件上传数据表
    • 本地存储
    • 存储文件到 亚马逊 S3
    • 存储文件到 腾讯 COS
    • 存储文件到 阿里云 OSS
  • 34_spider

    • jsoup
    • 爬取 z-lib.io 数据
    • 整合 WebMagic
    • WebMagic 示例:爬取学校课程数据
    • Playwright
    • Flexmark (Markdown 处理器)
    • tio-boot 整合 Playwright
    • 缓存网页数据
  • 36_integration_thirty_party

    • 整合 okhttp
    • 整合 GrpahQL
    • 集成 Mailjet
    • 整合 ip2region
    • 整合 GeoLite 离线库
    • 整合 Lark 机器人指南
    • 集成 Lark Mail 实现邮件发送
    • Thymeleaf
    • Swagger
    • Clerk 验证
  • 37_dubbo

    • 概述
    • dubbo 2.6.0
    • dubbo 2.6.0 调用过程
    • dubbo 3.2.0
  • 38_spring

    • Spring Boot Web 整合 Tio Boot
    • spring-boot-starter-webflux 整合 tio-boot
    • tio-boot 整合 spring-boot-starter
    • Tio Boot 整合 Spring Boot Starter db
    • Tio Boot 整合 Spring Boot Starter Data Redis 指南
  • 39_spring-cloud

    • tio-boot spring-cloud
  • 40_quarkus

    • Quarkus(无 HTTP)整合 tio-boot(有 HTTP)
    • tio-boot + Quarkus + Hibernate ORM Panache
  • 41_postgresql

    • PostgreSQL 安装
    • PostgreSQL 主键自增
    • PostgreSQL 日期类型
    • Postgresql 金融类型
    • PostgreSQL 数组类型
    • 索引
    • PostgreSQL 查询优化
    • 获取字段类型
    • PostgreSQL 全文检索
    • PostgreSQL 向量
    • PostgreSQL 优化向量查询
    • PostgreSQL 其他
  • 42_mysql

    • 使用 Docker 运行 MySQL
    • 常见问题
  • 43_oceanbase

    • 快速体验 OceanBase 社区版
    • 快速上手 OceanBase 数据库单机部署与管理
    • 诊断集群性能
    • 优化 SQL 性能指南
    • 待定
  • 49_jooq

    • 使用配置类方式整合 jOOQ
    • tio-boot + jOOQ 事务管理
    • 批量操作与性能优化
    • 代码生成(可选)与类型安全升级
    • JSONB、Upsert、窗口函数实战
    • 整合agroal
  • 50_media

    • JAVE 提取视频中的声音
    • Jave 提取视频中的图片
    • 待定
  • 51_asr

    • Whisper-JNI
  • 54_native-media

    • java-native-media
    • JNI 入门示例
    • mp3 拆分
    • mp4 转 mp3
    • 使用 libmp3lame 实现高质量 MP3 编码
    • Linux 编译
    • macOS 编译
    • 从 JAR 包中加载本地库文件
    • 支持的音频和视频格式
    • 任意格式转为 mp3
    • 通用格式转换
    • 通用格式拆分
    • 视频合并
    • VideoToHLS
    • split_video_to_hls 支持其他语言
    • 持久化 HLS 会话
    • 获取视频长度
    • 保存视频的最后一帧
    • 添加水印
    • linux版本
  • 55_cv

    • 使用 Java 运行 YOLOv8 ONNX 模型进行目标检测
    • tio-boot整合yolo
    • ONNX Runtime 推理说明
  • 58_telegram4j

    • 数据库设计
    • 基于 HTTP 协议开发 Telegram 翻译机器人
    • 基于 MTProto 协议开发 Telegram 翻译机器人
    • 过滤旧消息
    • 保存机器人消息
    • 定时推送
    • 增加命令菜单
    • 使用 telegram-Client
    • 使用自定义 StoreLayout
    • 延迟测试
    • Reactor 错误处理
    • Telegram4J 常见错误处理指南
  • 59_telegram-bots

    • TelegramBots 入门指南
    • 使用工具库 telegram-bot-base 开发翻译机器人
  • 60_LLM

    • 简介
    • 流式生成
    • 图片多模态输入
    • 协议自动转换 Google Gemini示例
    • 请求记录
    • 限流和错误处理
    • 整合Gemini realtime模型
    • Voice Agent 前端接入接口文档
    • 整合千问realtime模型
    • 增强检索(RAG)
    • 搜索+AI
    • AI 问答
    • 连接代码执行器
  • 61_ai_agent

    • 数据库设计
    • 示例问题管理
    • 会话管理
    • 历史记录
    • Perplexity API
    • 意图识别
    • 智能问答
    • 文件上传与解析文档
    • 翻译
    • 名人搜索功能实现
    • Ai studio gemini youbue 问答使用说明
    • 自建 YouTube 字幕问答系统
    • 自建 获取 youtube 字幕服务
    • 使用 OpenAI ASR 实现语音识别接口(Java 后端示例)
    • 定向搜索
    • 16
    • 17
    • 18
    • 在 tio-boot 应用中整合 ai-agent
    • 16
  • 63_knowlege_base

    • 数据库设计
    • 用户登录实现
    • 模型管理
    • 知识库管理
    • 文档拆分
    • 片段向量
    • 命中测试
    • 文档管理
    • 片段管理
    • 问题管理
    • 应用管理
    • 向量检索
    • 推理问答
    • 问答模块
    • 统计分析
    • 用户管理
    • api 管理
    • 存储文件到 S3
    • 文档解析优化
    • 片段汇总
    • 段落分块与检索
    • 多文档解析
    • 对话日志
    • 检索性能优化
    • Milvus
    • 文档解析方案和费用对比
    • 离线运行向量模型
  • 64_ai-search

    • ai-search 项目简介
    • ai-search 数据库文档
    • ai-search SearxNG 搜索引擎
    • ai-search Jina Reader API
    • ai-search Jina Search API
    • ai-search 搜索、重排与读取内容
    • ai-search PDF 文件处理
    • ai-search 推理问答
    • Google Custom Search JSON API
    • ai-search 意图识别
    • ai-search 问题重写
    • ai-search 系统 API 接口 WebSocket 版本
    • ai-search 搜索代码实现 WebSocket 版本
    • ai-search 生成建议问
    • ai-search 生成问题标题
    • ai-search 历史记录
    • Discover API
    • 翻译
    • Tavily Search API 文档
    • 对接 Tavily Search
    • 火山引擎 DeepSeek
    • 对接 火山引擎 DeepSeek
    • ai-search 搜索代码实现 SSE 版本
    • jar 包部署
    • Docker 部署
    • 爬取一个静态网站的所有数据
    • 网页数据预处理
    • 网页数据检索与问答流程整合
  • 65_ai-coding

    • Cline 提示词
    • Cline 提示词-中文版本
  • 66_java-uni-ai-server

    • 语音合成系统
    • Fish.audio TTS 接口说明文档与 Java 客户端封装
    • 整合 fishaudio 到 java-uni-ai-server 项目
    • 待定
  • 67_java-llm-proxy

    • 使用tio-boot搭建多模型LLM代理服务
  • 68_java-kit-server

    • Java 执行 python 代码
    • 通过大模型执行 Python 代码
    • 执行 Python (Manim) 代码
    • 待定
    • 待定
    • 待定
    • 视频下载增加水印说明文档
  • 69_ai-brower

    • AI Browser:基于用户指令的浏览器自动化系统
    • 提示词
    • dom构建- buildDomTree.js
    • dom构建- 将网页可点击元素提取与可视化
    • 提取网内容
    • 启动浏览器
    • 操作浏览器指令
  • 70_tio-boot-admin

    • 入门指南
    • 初始化数据
    • token 存储
    • 与前端集成
    • 文件上传
    • 网络请求
    • 多图片管理
    • 单图片管理(只读模式)
    • 布尔值管理
    • 字段联动
    • Word 管理
    • PDF 管理
    • 文章管理
    • 富文本编辑器
  • 73_tio-mail-wing

    • tio-mail-wing简介
    • 任务1:实现POP3系统
    • 使用 getmail 验证 tio-mail-wing POP3 服务
    • 任务2:实现 SMTP 服务
    • 数据库初始化文档
    • 用户管理
    • 邮件管理
    • 任务3:实现 SMTP 服务 数据库版本
    • 任务4:实现 POP3 服务(数据库版本)
    • IMAP 协议
    • 拉取多封邮件
    • 任务5:实现 IMAP 服务(数据库版本)
    • IMAP实现讲解
    • IMAP 手动测试脚本
    • IMAP 认证机制
    • 主动推送
  • 74_tio-mcp-server

    • 实现 MCP Server 开发指南
  • 75_tio-sip

    • SIP Server 第一版原理说明
    • SIP Server 第一版实战
    • 一、Windows 平台测试
    • SIP Server 第二版实战
    • SIP Server 第三版实战
    • 性能优化
    • 基于 MediaProcessor 对接 Realtime 模型说明
    • 对接大语言模型
    • 支持 G722 宽带语音
    • G722编码和解码
    • 会话级采样率转换
    • /zh/75_tio-sip/12.html
    • 增加 9196 回声测试分机
    • 语音系统链路说明
    • 一、Gemini Realtime 的打断机制
  • 76_manim

    • Teach me anything - 基于大语言的知识点讲解视频生成系统
    • Manim 开发环境搭建
    • 生成场景提示词
    • 生成代码
    • 完整脚本示例
    • TTS服务端
    • 废弃
    • 废弃
    • 废弃
    • 使用 SSE 流式传输生成进度的实现文档
    • 整合全流程完整文档
    • HLS 动态推流技术文档
    • manim 分场景生成代码
    • 分场景运行代码及流式播放支持
    • 分场景业务端完整实现流程
    • Maiim布局管理器
    • 仅仅生成场景代码
    • 使用 modal 运行 manim 代码
    • Python 使用 Modal GPU 加速渲染
    • Modal 平台 GPU 环境下运行 Manim
    • Modal Manim OpenGL 安装与使用
    • 优化 GPU 加速
    • 生成视频封面流程
    • Java 调用 manim 命令 执行代码 生成封面
    • Manim 图像生成服务客户端文档
    • manim render help
    • 显示 中文公式
    • ManimGL(manimgl)
    • Manim 实战入门:用代码创造数学动画
    • 欢迎
  • 80_性能测试

    • 压力测试 - tio-http-serer
    • 压力测试 - tio-boot
    • 压力测试 - tio-boot-native
    • 压力测试 - netty-boot
    • 性能测试对比
    • TechEmpower FrameworkBenchmarks
    • 压力测试 - tio-boot 12 C 32G
    • HTTP/1.1 Pipelining 性能测试报告
    • tio-boot vs Quarkus 性能对比测试报告
  • 81_tio-boot

    • 简介
    • Swagger 整合到 Tio-Boot 中的指南
    • 待定
    • 待定
    • 高性能网络编程中的 ByteBuffer 分配与回收策略
    • TioBootServerHandler 源码解析
  • 99_案例

    • 封装 IP 查询服务
    • tio-boot 案例 - 全局异常捕获与企业微信群通知
    • tio-boot 案例 - 文件上传和下载
    • tio-boot 案例 - 整合 ant design pro 增删改查
    • tio-boot 案例 - 流失响应
    • tio-boot 案例 - 增强检索
    • tio-boot 案例 - 整合 function call
    • tio-boot 案例 - 定时任务 监控 PostgreSQL、Redis 和 Elasticsearch
    • Tio-Boot 案例:使用 SQLite 整合到登录注册系统
    • tio-boot 案例 - 执行 shell 命令

会话级采样率转换

一、背景

在上一篇中,系统已经完成了 G722Codec 的接入,并基于 java-media-codec 为 RTP 层补齐了 G722 的实际编码和解码能力。到这一步,当前项目在 codec 维度上已经不再局限于 PCMU / PCMA 两种 G.711 窄带语音,而是具备了在 SDP 协商成功后进入 16k 宽带链路的能力。

不过,仅仅支持 G722 编解码还不够。因为在整个系统里,RTP、电话会话、Realtime 模型三者的采样率并不天然一致。

当前系统中至少同时存在三种采样率语义:

1. 会话侧采样率

这由 SIP/SDP 协商结果决定。

  • 当协商为 PCMU / PCMA 时,会话 PCM 采样率是 8000
  • 当协商为 G722 时,会话 PCM 采样率是 16000

也就是说,会话侧采样率不是固定值,而是动态值。

2. 模型输入采样率

Realtime 模型通常要求固定输入格式:

  • 16k PCM

因此当电话会话是 8k 时,需要先做一次上采样;当会话本身就是 16k 时,则无需转换。

3. 模型输出采样率

Realtime 模型输出通常固定为:

  • 24k PCM

因此无论当前电话会话是 8k 还是 16k,模型输出在进入电话侧之前,都需要一次下采样。


如果没有一套清晰的采样率转换策略,系统就很容易出现以下问题:

  • 在不同模块中散落大量 if (sampleRate != ...)
  • 多个地方重复创建 resampler
  • 连续音频流每帧都临时创建和销毁重采样器
  • native resampler 资源生命周期无法统一管理
  • 运行时出现重复转换、职责混乱或状态串用

因此,在 G722 编解码能力补齐之后,下一步必须解决的就是:

如何围绕“会话采样率 ↔ 模型采样率 ↔ RTP 编码采样率”组织一套清晰、可复用、可管理的重采样机制。


二、目标

本次设计的目标不是简单“提供一个工具类做 resample”,而是建立一套真正适用于实时通话场景的会话级采样率转换机制。

整体目标包括以下几个方面。

1. 统一采样率转换责任边界

把系统中的采样率转换分成三条明确链路:

  • 上行:会话输入 → 模型输入
  • 下行:模型输出 → 会话输出
  • RTP 出口兜底:处理 MediaProcessor 返回采样率与 codec 目标采样率不一致的情况

每一条链路都应该有明确的责任归属,而不是随意分散在多个类里。

2. 让重采样器按会话维度复用

高质量重采样器不是纯函数式工具,而是带状态的运行时资源。 它内部通常包含:

  • 滤波历史样本
  • 分数相位
  • 输出延迟缓存

因此,在连续音频流中更适合:

  • 一个会话对应一个 resampler 实例
  • 在会话生命周期内复用
  • 通话结束时统一释放

而不是每次处理一帧音频都临时创建和销毁。

3. 保持 RTP 层、MediaProcessor、Realtime 三层职责清晰

本次设计仍然坚持上一篇中的责任划分:

  • RTP 层负责 codec decode / encode 和 RTP 收发
  • RealtimeMediaProcessor 负责会话音频到模型输入格式的转换
  • SipRealtimeSession 负责模型下行音频到会话格式的转换和缓存
  • RtpUdpHandler 只保留最终编码前的兜底重采样

这样,采样率转换虽然被引入了更多实现细节,但职责边界反而会更清楚。


三、为什么不能只靠静态工具方法

在最初版本中,重采样通常会写成这样:

short[] out = AudioResampler.resample(input, srcRate, dstRate);

这种写法看起来很直接,也适合 demo 或离线处理场景,但它并不适合实时通话中的主链路。

原因在于:

1. 重采样器内部是有状态的

高质量重采样并不是简单的数组变换。内部通常会维护:

  • 滤波器历史
  • 相位位置
  • 输出缓存

如果每一帧都重新创建 resampler,那么连续音频流在帧边界上就可能出现不连续、失真或额外噪声。

2. JNI / native 对象不适合高频重复创建

当前 AudioResampler 是基于 JNI 封装的 native resampler。 如果在一条持续的实时音频链路里频繁:

  • createResampler
  • resampleDirect
  • destroyResampler

会引入额外的分配和释放成本,也不利于性能和资源管理。

3. 会话结束时不容易统一回收

如果所有地方都只是临时静态调用,那么虽然短期好用,但长期很难统一管理 native 资源生命周期。 而一旦改成“会话持有 resampler”,在 CallSession.release() 里统一释放就会非常自然。

因此,本次设计不再把 AudioResampler 仅仅当成一个工具类,而是把它纳入到 会话级媒体资源管理 中。


四、设计方案

1. AudioResampler 继续保留两种用法

为了兼容旧代码,AudioResampler 仍然支持两种方式:

静态一次性调用

适合少量、临时、非主链路的重采样:

short[] out = AudioResampler.resample(input, srcRate, dstRate);

实例复用调用

适合连续流式音频:

AudioResampler resampler = new AudioResampler(1, srcRate, dstRate, 5, 0);
short[] out = resampler.resample(input);

其中,真正的主链路应优先使用第二种“实例复用”方式。


2. 把 resampler 作为会话级媒体资源绑定到 CallSession

在当前实现中,CallSession 不再只是 SIP / RTP 的轻量会话对象,而是同时承担了“会话级媒体资源容器”的职责。

在 codec 之外,本次新增了三个会话级重采样器字段:

private AudioResampler inputResampler;
private AudioResampler outputResampler;
private AudioResampler rtpResampler;

它们分别对应三种不同用途:

inputResampler

用于把当前会话输入音频转换为模型输入采样率。 典型场景:

8k -> 16k
16k -> 16k(无需创建)

outputResampler

用于把模型输出音频转换为当前会话采样率。 典型场景:

24k -> 8k
24k -> 16k

rtpResampler

用于 RTP 发包前的最终兜底转换。 它不是主链路重采样器,而是防御性补偿措施,用于处理:

  • MediaProcessor 返回的 AudioFrame.sampleRate
  • 与当前 codec 目标采样率不一致

的场景。


3. CallSession 负责重采样器的创建、复用和重建

为了避免外部模块直接管理 resampler 生命周期,CallSession 提供了:

  • getOrCreateInputResampler(int srcRate, int dstRate)
  • getOrCreateOutputResampler(int srcRate, int dstRate)
  • getOrCreateRtpResampler(int srcRate, int dstRate)

它们的行为是一致的:

  1. 如果源采样率和目标采样率相同,则返回 null
  2. 如果已有 resampler 且参数一致,则直接复用
  3. 如果已有 resampler 但参数不一致,则关闭旧实例并重建
  4. 返回新的会话级 resampler

这样外部模块不需要关心:

  • 什么时候该创建
  • 什么时候该关闭
  • 参数变了怎么办

只需要在真正使用时调用 getOrCreate...() 即可。


4. CallSession.release() 统一释放媒体资源

除了 AudioCodec 之外,重采样器也都属于 native 资源。 因此在会话结束时,需要统一释放:

  • audioCodec
  • inputResampler
  • outputResampler
  • rtpResampler

这也是为什么本次实现把 resampler 绑定到 CallSession 上,而不是让它们散落在各个处理器里各自维护。


五、三条采样率转换链路

1. 上行:RealtimeMediaProcessor 使用 inputResampler

RealtimeMediaProcessor 的职责是把当前会话音频转换为模型输入格式。

原来的写法通常是:

short[] modelInputSamples = inputSamples;
if (inputSampleRate != MODEL_INPUT_SAMPLE_RATE) {
  modelInputSamples = AudioResampler.resample(inputSamples, inputSampleRate, MODEL_INPUT_SAMPLE_RATE);
}

改造后,真正的主链路应改为:

short[] modelInputSamples = inputSamples;
if (inputSampleRate != MODEL_INPUT_SAMPLE_RATE) {
  AudioResampler resampler = session.getOrCreateInputResampler(inputSampleRate, MODEL_INPUT_SAMPLE_RATE);
  modelInputSamples = resampler.resample(inputSamples);
}

这样做有几个好处:

  • 连续上行语音流复用同一个 resampler
  • 保留内部状态,减少边界失真
  • 不需要每帧重复创建 native 对象
  • 生命周期由 CallSession 统一管理

这说明:

inputResampler 的正确使用点是 RealtimeMediaProcessor。


2. 下行:SipRealtimeSession 使用 outputResampler

SipRealtimeSession 的职责是接收模型输出音频,并把它转换成当前会话格式后入队。

原来的写法通常是:

short[] pcmSessionRate = pcm24k;
if (MODEL_OUTPUT_SAMPLE_RATE != sessionSampleRate) {
  pcmSessionRate = AudioResampler.resample(pcm24k, MODEL_OUTPUT_SAMPLE_RATE, sessionSampleRate);
}

改造后应写成:

short[] pcmSessionRate = pcm24k;
if (MODEL_OUTPUT_SAMPLE_RATE != sessionSampleRate) {
  AudioResampler resampler = session.getOrCreateOutputResampler(MODEL_OUTPUT_SAMPLE_RATE, sessionSampleRate);
  pcmSessionRate = resampler.resample(pcm24k);
}

这样:

  • 模型下行音频持续复用同一个 resampler
  • 输出队列里缓存的始终是“当前会话格式”的 PCM
  • RealtimeMediaProcessor 后续取帧时无需再额外关心模型输出采样率

这说明:

outputResampler 的正确使用点是 SipRealtimeSession。


3. RTP 出口兜底:RtpUdpHandler 使用 rtpResampler

理论上,MediaProcessor 返回的 AudioFrame 应尽量已经是当前会话格式。 但为了保证系统健壮性,RTP 层仍然需要保留最后一道防线。

当 outputFrame.getSampleRate() 与当前 codec 目标采样率不一致时,RtpUdpHandler 可以这样处理:

if (outputSampleRate != targetSampleRate) {
  AudioResampler rtpResampler = session.getOrCreateRtpResampler(outputSampleRate, targetSampleRate);
  outputSamples = rtpResampler.resample(outputSamples);
}

需要强调的是:

  • rtpResampler 不是主链路重采样器
  • 它只是最终编码前的兜底机制
  • 主采样率转换仍应尽量在 RealtimeMediaProcessor 和 SipRealtimeSession 中完成

也就是说:

rtpResampler 的定位是“最后一道保险”,不是系统的主要重采样路径。


六、为什么三种 resampler 要分开

表面上看,三者都只是“做采样率转换”,似乎可以只保留一个统一的 audioResampler 字段。 但实际上,它们对应的是三条不同的媒体链路,职责完全不同。

1. 输入方向不同

  • inputResampler:会话输入 → 模型输入
  • outputResampler:模型输出 → 会话输出
  • rtpResampler:MediaProcessor 输出 → codec 目标采样率

2. 生命周期触发点不同

  • inputResampler 在模型上行链路中频繁使用
  • outputResampler 在模型下行链路中频繁使用
  • rtpResampler 只在最终发包前偶尔兜底使用

3. 参数变化来源不同

  • inputResampler 取决于当前输入帧采样率和模型输入采样率
  • outputResampler 取决于模型输出采样率和会话采样率
  • rtpResampler 取决于 MediaProcessor 输出采样率和当前 codec 目标采样率

因此,把它们拆开并命名清楚,比用一个泛化的 resampler 字段更利于维护。


七、最终效果

完成本次改造后,系统中的采样率转换将形成如下结构:

当会话协商为 G711(8k)时

上行:

8k -> 16k -> Realtime Model

下行:

24k -> 8k -> RTP encode

当会话协商为 G722(16k)时

上行:

16k -> Realtime Model

下行:

24k -> 16k -> RTP encode

而在整个过程中:

  • 上行转换由 inputResampler 负责
  • 下行转换由 outputResampler 负责
  • RTP 层发包前最终兜底由 rtpResampler 负责

这样,系统的采样率转换不再是零散的工具调用,而是成为会话级媒体资源管理的一部分。


八 代码实现

AudioResampler

package com.litongjava.sip.rtp.codec;

import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.util.Objects;

import com.litongjava.media.MediaCodec;

/**
 * JNI Audio Resampler 封装
 *
 * 支持两种用法:
 * 1. 静态一次性调用:兼容旧代码
 * 2. 实例复用调用:适合连续流式音频
 */
public final class AudioResampler implements AutoCloseable {

  private static final int DEFAULT_CHANNELS = 1;
  private static final int DEFAULT_QUALITY = 5;
  private static final int DEFAULT_OPTIONS = 0;

  private final int channels;
  private final int srcRate;
  private final int dstRate;
  @SuppressWarnings("unused")
  private final int quality;
  @SuppressWarnings("unused")
  private final int options;

  private final Object lock = new Object();

  private long handle;
  private ByteBuffer inputBuffer;
  private ByteBuffer outputBuffer;

  public AudioResampler(int channels, int srcRate, int dstRate) {
    this(channels, srcRate, dstRate, DEFAULT_QUALITY, DEFAULT_OPTIONS);
  }

  public AudioResampler(int channels, int srcRate, int dstRate, int quality, int options) {
    if (channels <= 0) {
      throw new IllegalArgumentException("channels must be > 0");
    }
    if (srcRate <= 0) {
      throw new IllegalArgumentException("srcRate must be > 0");
    }
    if (dstRate <= 0) {
      throw new IllegalArgumentException("dstRate must be > 0");
    }
    if (quality < 0 || quality > 10) {
      throw new IllegalArgumentException("quality must be between 0 and 10");
    }

    this.channels = channels;
    this.srcRate = srcRate;
    this.dstRate = dstRate;
    this.quality = quality;
    this.options = options;

    this.handle = MediaCodec.createResampler(channels, srcRate, dstRate, quality, options);
    if (this.handle == 0) {
      throw new IllegalStateException("Failed to create resampler, channels=" + channels + ", srcRate=" + srcRate
          + ", dstRate=" + dstRate + ", quality=" + quality);
    }
  }

  /**
   * 兼容旧代码:默认单声道,一次性重采样。
   */
  public static short[] resample(short[] input, int srcRate, int dstRate) {
    return resample(input, DEFAULT_CHANNELS, srcRate, dstRate, DEFAULT_QUALITY, DEFAULT_OPTIONS);
  }

  /**
   * 兼容旧代码:可指定完整参数,一次性重采样。
   */
  public static short[] resample(short[] input, int channels, int srcRate, int dstRate, int quality, int options) {
    try (AudioResampler resampler = new AudioResampler(channels, srcRate, dstRate, quality, options)) {
      return resampler.resample(input);
    }
  }

  /**
   * 实例复用方式:适合连续流式音频。
   */
  public short[] resample(short[] input) {
    Objects.requireNonNull(input, "input");

    if (input.length == 0) {
      return new short[0];
    }
    if (srcRate == dstRate) {
      return input.clone();
    }
    if (input.length % channels != 0) {
      throw new IllegalArgumentException(
          "input length must be divisible by channels, length=" + input.length + ", channels=" + channels);
    }

    synchronized (lock) {
      ensureOpen();

      int inputSamplesPerChannel = input.length / channels;
      int outputSamplesPerChannel = MediaCodec.getResamplerExpectedOutputSamples(handle, inputSamplesPerChannel);
      if (outputSamplesPerChannel < 0) {
        throw new IllegalStateException("getResamplerExpectedOutputSamples failed, code=" + outputSamplesPerChannel);
      }

      int inputBytes = input.length * 2;
      int outputBytes = outputSamplesPerChannel * channels * 2;

      inputBuffer = ensureDirectBuffer(inputBuffer, inputBytes);
      outputBuffer = ensureDirectBuffer(outputBuffer, outputBytes);

      inputBuffer.clear();
      outputBuffer.clear();

      for (int i = 0; i < input.length; i++) {
        inputBuffer.putShort(i * 2, input[i]);
      }

      int actualOutputSamplesPerChannel = MediaCodec.resampleDirect(handle, inputBuffer, inputSamplesPerChannel,
          outputBuffer);
      if (actualOutputSamplesPerChannel < 0) {
        throw new IllegalStateException("resampleDirect failed, code=" + actualOutputSamplesPerChannel);
      }

      int totalOutputSamples = actualOutputSamplesPerChannel * channels;
      short[] out = new short[totalOutputSamples];
      for (int i = 0; i < totalOutputSamples; i++) {
        out[i] = outputBuffer.getShort(i * 2);
      }
      return out;
    }
  }

  public void reset() {
    synchronized (lock) {
      ensureOpen();
      int code = MediaCodec.resetResampler(handle);
      if (code < 0) {
        throw new IllegalStateException("resetResampler failed, code=" + code);
      }
    }
  }

  public int getChannels() {
    return channels;
  }

  public int getSrcRate() {
    return srcRate;
  }

  public int getDstRate() {
    return dstRate;
  }

  private void ensureOpen() {
    if (handle == 0) {
      throw new IllegalStateException("AudioResampler already closed");
    }
  }

  private static ByteBuffer ensureDirectBuffer(ByteBuffer buffer, int capacity) {
    if (buffer != null && buffer.capacity() >= capacity) {
      buffer.clear();
      buffer.order(ByteOrder.LITTLE_ENDIAN);
      return buffer;
    }
    return ByteBuffer.allocateDirect(capacity).order(ByteOrder.LITTLE_ENDIAN);
  }

  @Override
  public void close() {
    synchronized (lock) {
      if (handle != 0) {
        MediaCodec.destroyResampler(handle);
        handle = 0;
      }
      inputBuffer = null;
      outputBuffer = null;
    }
  }
}

CallSession

package com.litongjava.sip.model;

import com.litongjava.sip.rtp.RtpUdpServer;
import com.litongjava.sip.rtp.codec.AudioCodec;
import com.litongjava.sip.rtp.codec.AudioResampler;
import com.litongjava.sip.rtp.codec.NegotiatedAudioFormatResolver;
import com.litongjava.sip.sdp.CodecSpec;

public class CallSession {

  private int pcmSampleRate;
  private int channels = 1;

  private String callId;
  private String fromTag;
  private String toTag;

  private String transport;

  private String remoteSipIp;
  private int remoteSipPort;

  private String remoteRtpIp;
  private int remoteRtpPort;
  private int localRtpPort;

  private long createdTime;
  private long updatedTime;
  private long ackDeadline;

  private boolean ackReceived;
  private boolean terminated;

  private String last200Ok;
  private RtpUdpServer rtpServer;

  private CodecSpec selectedCodec;

  private AudioResampler inputResampler;
  private AudioResampler outputResampler;
  private AudioResampler rtpResampler;

  private boolean telephoneEventSupported;
  private int remoteTelephoneEventPayloadType = -1;
  private int ptime = 20;

  /**
   * 一个 session 一个运行时 codec 实例。
   * 对于 JNI codec,避免多个会话共享同一个 native 状态对象。
   */
  private AudioCodec audioCodec;

  private long localSsrc = System.nanoTime() & 0xFFFFFFFFL;
  private int sendSequence = 0;
  private long sendTimestamp = 0;
  private boolean rtpInitialized = false;

  public synchronized int nextSendSequence() {
    sendSequence = (sendSequence + 1) & 0xFFFF;
    return sendSequence;
  }

  public synchronized long nextSendTimestamp(int pcmSampleCount) {
    int step = toRtpTimestampStep(pcmSampleCount);
    if (step <= 0) {
      step = pcmSampleCount > 0 ? pcmSampleCount : 160;
    }

    if (!rtpInitialized) {
      rtpInitialized = true;
      sendTimestamp = step & 0xFFFFFFFFL;
      return sendTimestamp;
    }

    sendTimestamp = (sendTimestamp + step) & 0xFFFFFFFFL;
    return sendTimestamp;
  }

  private int toRtpTimestampStep(int pcmSampleCount) {
    if (pcmSampleCount <= 0) {
      return 0;
    }

    CodecSpec codec = this.selectedCodec;
    int clockRate = codec != null && codec.getClockRate() > 0 ? codec.getClockRate() : 8000;
    int pcmSampleRate = NegotiatedAudioFormatResolver.resolveSessionPcmSampleRate(codec);

    if (pcmSampleRate <= 0) {
      pcmSampleRate = clockRate > 0 ? clockRate : 8000;
    }

    long step = ((long) pcmSampleCount * clockRate) / pcmSampleRate;
    if (step <= 0) {
      step = 1;
    }
    return (int) step;
  }

  public synchronized AudioCodec getAudioCodec() {
    return audioCodec;
  }

  public synchronized void setAudioCodec(AudioCodec audioCodec) {
    this.audioCodec = audioCodec;
  }

  public synchronized void release() {
    if (audioCodec instanceof AutoCloseable) {
      try {
        ((AutoCloseable) audioCodec).close();
      } catch (Exception e) {
        // ignore
      }
    }
    audioCodec = null;

    if (inputResampler != null) {
      try {
        inputResampler.close();
      } catch (Exception ignore) {
      }
      inputResampler = null;
    }

    if (outputResampler != null) {
      try {
        outputResampler.close();
      } catch (Exception ignore) {
      }
      outputResampler = null;
    }

    if (rtpResampler != null) {
      try {
        rtpResampler.close();
      } catch (Exception ignore) {
      }
      rtpResampler = null;
    }
  }

  public long getLocalSsrc() {
    return localSsrc;
  }

  public void setLocalSsrc(long localSsrc) {
    this.localSsrc = localSsrc;
  }

  public int getSendSequence() {
    return sendSequence;
  }

  public void setSendSequence(int sendSequence) {
    this.sendSequence = sendSequence;
  }

  public long getSendTimestamp() {
    return sendTimestamp;
  }

  public void setSendTimestamp(long sendTimestamp) {
    this.sendTimestamp = sendTimestamp;
  }

  public boolean isRtpInitialized() {
    return rtpInitialized;
  }

  public void setRtpInitialized(boolean rtpInitialized) {
    this.rtpInitialized = rtpInitialized;
  }

  public String getCallId() {
    return callId;
  }

  public void setCallId(String callId) {
    this.callId = callId;
  }

  public String getFromTag() {
    return fromTag;
  }

  public void setFromTag(String fromTag) {
    this.fromTag = fromTag;
  }

  public String getToTag() {
    return toTag;
  }

  public void setToTag(String toTag) {
    this.toTag = toTag;
  }

  public String getTransport() {
    return transport;
  }

  public void setTransport(String transport) {
    this.transport = transport;
  }

  public String getRemoteSipIp() {
    return remoteSipIp;
  }

  public void setRemoteSipIp(String remoteSipIp) {
    this.remoteSipIp = remoteSipIp;
  }

  public int getRemoteSipPort() {
    return remoteSipPort;
  }

  public void setRemoteSipPort(int remoteSipPort) {
    this.remoteSipPort = remoteSipPort;
  }

  public String getRemoteRtpIp() {
    return remoteRtpIp;
  }

  public void setRemoteRtpIp(String remoteRtpIp) {
    this.remoteRtpIp = remoteRtpIp;
  }

  public int getRemoteRtpPort() {
    return remoteRtpPort;
  }

  public void setRemoteRtpPort(int remoteRtpPort) {
    this.remoteRtpPort = remoteRtpPort;
  }

  public int getLocalRtpPort() {
    return localRtpPort;
  }

  public void setLocalRtpPort(int localRtpPort) {
    this.localRtpPort = localRtpPort;
  }

  public long getCreatedTime() {
    return createdTime;
  }

  public void setCreatedTime(long createdTime) {
    this.createdTime = createdTime;
  }

  public long getUpdatedTime() {
    return updatedTime;
  }

  public void setUpdatedTime(long updatedTime) {
    this.updatedTime = updatedTime;
  }

  public long getAckDeadline() {
    return ackDeadline;
  }

  public void setAckDeadline(long ackDeadline) {
    this.ackDeadline = ackDeadline;
  }

  public boolean isAckReceived() {
    return ackReceived;
  }

  public void setAckReceived(boolean ackReceived) {
    this.ackReceived = ackReceived;
  }

  public boolean isTerminated() {
    return terminated;
  }

  public void setTerminated(boolean terminated) {
    this.terminated = terminated;
  }

  public String getLast200Ok() {
    return last200Ok;
  }

  public void setLast200Ok(String last200Ok) {
    this.last200Ok = last200Ok;
  }

  public RtpUdpServer getRtpServer() {
    return rtpServer;
  }

  public void setRtpServer(RtpUdpServer rtpServer) {
    this.rtpServer = rtpServer;
  }

  public CodecSpec getSelectedCodec() {
    return selectedCodec;
  }

  public void setSelectedCodec(CodecSpec selectedCodec) {
    this.selectedCodec = selectedCodec;
  }

  public boolean isTelephoneEventSupported() {
    return telephoneEventSupported;
  }

  public void setTelephoneEventSupported(boolean telephoneEventSupported) {
    this.telephoneEventSupported = telephoneEventSupported;
  }

  public int getRemoteTelephoneEventPayloadType() {
    return remoteTelephoneEventPayloadType;
  }

  public void setRemoteTelephoneEventPayloadType(int remoteTelephoneEventPayloadType) {
    this.remoteTelephoneEventPayloadType = remoteTelephoneEventPayloadType;
  }

  public int getPtime() {
    return ptime;
  }

  public void setPtime(int ptime) {
    this.ptime = ptime;
  }

  public int getPcmSampleRate() {
    return pcmSampleRate;
  }

  public void setPcmSampleRate(int pcmSampleRate) {
    this.pcmSampleRate = pcmSampleRate;
  }

  public int getChannels() {
    return channels;
  }

  public void setChannels(int channels) {
    this.channels = channels;
  }

  public AudioResampler getInputResampler() {
    return inputResampler;
  }

  public void setInputResampler(AudioResampler inputResampler) {
    this.inputResampler = inputResampler;
  }

  public AudioResampler getOutputResampler() {
    return outputResampler;
  }

  public void setOutputResampler(AudioResampler outputResampler) {
    this.outputResampler = outputResampler;
  }

  public AudioResampler getRtpResampler() {
    return rtpResampler;
  }

  public void setRtpResampler(AudioResampler rtpResampler) {
    this.rtpResampler = rtpResampler;
  }

  public synchronized AudioResampler getOrCreateInputResampler(int srcRate, int dstRate) {
    if (srcRate <= 0 || dstRate <= 0 || srcRate == dstRate) {
      return null;
    }

    if (inputResampler != null) {
      if (inputResampler.getSrcRate() == srcRate && inputResampler.getDstRate() == dstRate) {
        return inputResampler;
      }
      try {
        inputResampler.close();
      } catch (Exception ignore) {
      }
      inputResampler = null;
    }

    inputResampler = new AudioResampler(1, srcRate, dstRate, 5, 0);
    return inputResampler;
  }

  public synchronized AudioResampler getOrCreateOutputResampler(int srcRate, int dstRate) {
    if (srcRate <= 0 || dstRate <= 0 || srcRate == dstRate) {
      return null;
    }

    if (outputResampler != null) {
      if (outputResampler.getSrcRate() == srcRate && outputResampler.getDstRate() == dstRate) {
        return outputResampler;
      }
      try {
        outputResampler.close();
      } catch (Exception ignore) {
      }
      outputResampler = null;
    }

    outputResampler = new AudioResampler(1, srcRate, dstRate, 5, 0);
    return outputResampler;
  }

  public synchronized AudioResampler getOrCreateRtpResampler(int srcRate, int dstRate) {
    if (srcRate <= 0 || dstRate <= 0 || srcRate == dstRate) {
      return null;
    }

    if (rtpResampler != null) {
      if (rtpResampler.getSrcRate() == srcRate && rtpResampler.getDstRate() == dstRate) {
        return rtpResampler;
      }
      try {
        rtpResampler.close();
      } catch (Exception ignore) {
      }
      rtpResampler = null;
    }

    rtpResampler = new AudioResampler(1, srcRate, dstRate, 5, 0);
    return rtpResampler;
  }
}

RealtimeMediaProcessor

  1. RealtimeMediaProcessor

这里应该用 inputResampler。

你现在这段:

short[] modelInputSamples = inputSamples;
if (inputSampleRate != MODEL_INPUT_SAMPLE_RATE) {
  modelInputSamples = AudioResampler.resample(inputSamples, inputSampleRate, MODEL_INPUT_SAMPLE_RATE);
}

改成:

short[] modelInputSamples = inputSamples;
if (inputSampleRate != MODEL_INPUT_SAMPLE_RATE) {
  AudioResampler resampler = session.getOrCreateInputResampler(inputSampleRate, MODEL_INPUT_SAMPLE_RATE);
  modelInputSamples = resampler.resample(inputSamples);
}

这里就是 inputResampler 的正确使用点。

SipRealtimeSession

  1. SipRealtimeSession

这里应该用 outputResampler。

你现在这段:

short[] pcmSessionRate = pcm24k;
if (MODEL_OUTPUT_SAMPLE_RATE != sessionSampleRate) {
  pcmSessionRate = AudioResampler.resample(pcm24k, MODEL_OUTPUT_SAMPLE_RATE, sessionSampleRate);
}

改成:

short[] pcmSessionRate = pcm24k;
if (MODEL_OUTPUT_SAMPLE_RATE != sessionSampleRate) {
  AudioResampler resampler = session.getOrCreateOutputResampler(MODEL_OUTPUT_SAMPLE_RATE, sessionSampleRate);
  pcmSessionRate = resampler.resample(pcm24k);
}

RtpUdpHandler


    if (outputSampleRate != targetSampleRate) {
        AudioResampler rtpResampler = session.getOrCreateRtpResampler(outputSampleRate, targetSampleRate);
        outputSamples = rtpResampler.resample(outputSamples);
      }

九、总结

在支持 G722 宽带语音之后,系统中的采样率转换问题变得更加重要。因为会话侧已经不再固定为 8k,而是可能根据协商结果在 8k 和 16k 之间动态变化。

在这样的前提下,如果仍然把重采样简单当成静态工具方法来用,就很难满足:

  • 连续流式音频的稳定性
  • native 资源的统一管理
  • 多条媒体链路的职责划分
  • 后续系统扩展时的可维护性

因此,本次设计采用了“会话级重采样器”的方案:

  • CallSession 统一持有 inputResampler / outputResampler / rtpResampler
  • RealtimeMediaProcessor 负责上行重采样
  • SipRealtimeSession 负责下行重采样
  • RtpUdpHandler 负责最终兜底重采样
  • 会话结束时统一释放所有媒体资源

可以把这一篇的核心设计概括成一句话:

重采样不是一个零散工具,而是会话级媒体资源;上行、下行和 RTP 出口各自使用不同职责的 resampler,才能让整条语音链路真正清晰、稳定且可扩展。


Edit this page
Last Updated: 3/11/26, 5:29 AM
Contributors: litongjava
Prev
G722编码和解码
Next
/zh/75_tio-sip/12.html