Speech Llm

针对 Speech LLM 落地中的音频处理难题，美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器（Tokenizer）与 Token 还原器（DeTokenizer）工具链，其核心功能是将原始音频信号映射为语义与声学并行的 Token 序列，实现高效离散化，再通过解码模块重构高质量音频，为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。真正让语音大模型既 “听懂” 语义，又能够“说清” 。阅读全文

文章列表

Tag: # Speech Llm

美团开源LongCat-Audio-Codec，高效语音编解码器助力实时交互落地