DeepSeek 是由深度求索(DeepSeek)推出的一系列大语言模型,目前主流版本(如 DeepSeek-V2、DeepSeek-Coder 等)主要聚焦于文本理解和生成能力。
截至 2025 年,DeepSeek 的公开版本(包括 DeepSeek-LLM 和 DeepSeek-Coder)均为纯文本模型,不具备原生的图像识别或多模态处理能力。这意味着:
这并非功能故障,而是模型架构限制。与 GPT-4V、Gemini、Claude 3 Opus 等多模态模型不同,DeepSeek 当前未集成视觉编码器,因此本质上就不支持图像输入。
你可以采用以下工作流:
深度求索团队已在探索多模态方向,但截至目前尚未发布官方多模态版本。建议关注其官网或 GitHub 动态获取最新进展。