截至当前(2025年),DeepSeek 是由深度求索(DeepSeek)推出的一系列大语言模型,主要以文本生成和理解能力为核心。官方发布的 DeepSeek 模型(如 DeepSeek-V2、DeepSeek-Coder 等)本身并不直接集成语音输入或语音输出功能。
这意味着:
- DeepSeek 无法直接“听”你说话(不支持语音识别/ASR);
- DeepSeek 也无法直接“说话”(不支持文本转语音/TTS)。
不过,开发者或终端用户可以通过将 DeepSeek 与其他语音技术(如百度语音、讯飞语音、Google TTS/STT 等)结合,实现带语音交互的智能应用。例如:
- 前端通过浏览器的 Web Speech API 实现语音输入,将文字传给 DeepSeek;
- 将 DeepSeek 返回的文本结果,通过 TTS 引擎转换为语音播放。
因此,虽然 DeepSeek 本身没有原生语音功能,但通过外部工具集成,完全可以构建具备语音交互能力的应用。
如果您希望使用开箱即用的语音 AI 助手,可能需要关注其他集成了语音模块的平台(如通义听悟、讯飞星火语音版等)。