1.概念 RTF RTF = 语音生成耗时 / 语音实际时长 语音生成耗时:模型从输入文本到生成完整音频所花费的时间(秒) 语音实际时长:生成音频的播放时长(秒) 假设你让模型生成一段 10 秒的音频: 如果生成耗时 5 秒 → RTF = 5 / 10 = 0.5 如果生成耗时 20 秒 → RT