截至当前(2025年),DeepSeek 主要是一个专注于文本生成与理解的大语言模型系列(如 DeepSeek-V2、DeepSeek-Coder 等)。官方公开版本,也就是说,它不具备多模态(图文混合)处理能力。
这意味着你无法像使用 GPT-4V、Gemini 或 Claude 3 那样,向 DeepSeek 提问“这张图里有什么?”或“请根据这张图表总结数据”。DeepSeek 的输入仅限于纯文本。
不过,如果你需要将图片中的文字提取出来再交给 DeepSeek 分析,可以先使用 OCR(光学字符识别)工具将图片转为文本,例如:
- 在线图片转Word/文本工具(如千出赛提供的服务)
- 手机扫描类 App(如 Microsoft Lens、百度 OCR)
- 专业 OCR 软件(如 ABBYY FineReader)
未来若 DeepSeek 推出多模态版本(如 DeepSeek-VL),将可能支持图像理解功能,建议关注其官网或 GitHub 动态。
总结:目前 DeepSeek 不能直接分析图片,仅支持文本输入。如需图文结合分析,请选择其他具备多模态能力的 AI 模型。