
深度求索(DeepSeek)成立于2023年,专注于开发世界领先的通用人工智能基础模型与技术,致力于突破人工智能前沿难题。依托自主研发的训练框架、自建智算集群及万卡算力,深度求索团队在半年内发布并开源了多个百亿参数级别大模型,如DeepSeek-LLM通用语言模型、DeepSeek-Coder代码生成模型,并于2024年1月率先开源国内首个MoE大模型DeepSeek-MoE。这些模型在公开测试和实际泛化能力上均优于同类竞品。用户可通过DeepSeek AI进行对话,并轻松接入API服务。
公司背景为杭州与北京深度求索人工智能基础技术研究有限公司及关联企业。核心产品DeepSeek Chat基于深度神经网络算法,经过大规模自监督训练及专项优化,支持128K上下文长度,界面设计类似ChatGPT。其在基准测试中表现优异,特别是在特定领域展示出较强专业能力,但对敏感话题和时事内容的处理仍有一定局限。
为降低成本,深度求索采用混合专家模型架构、低精度训练、多头潜在注意力机制等多项技术创新,结合优化训练流程,实现以约600万美元成本训练6000亿参数模型,显著减少计算和存储资源需求。
主要功能包括自然语言处理、问答、智能对话、代码生成、多语言编程支持、内容推荐、写作辅助、智能客服、联网搜索及深度思考等,提供API及Web端服务。
技术创新方面涵盖混合专家架构、多头潜在注意力机制、无辅助损失负载均衡、多token预测训练目标、高效训练框架、多阶段训练策略及“顿悟时刻”等,提升模型性能与训练效率,降低运营成本。
自2023年11月起,深度求索陆续推出DeepSeek Coder、DeepSeek LLM及其聊天版本,持续优化参数规模和性能,满足多样化任务需求。
应用领域广泛,涵盖自然语言处理、智能对话、代码辅助、问答系统、内容创作、智能客服、多模态交互、数学推理、信息推荐及量化投资等。
主要竞争对手包括国际上的OpenAI、Google、Meta、Anthropic、Perplexity AI,以及国内的字节跳动和百度等,市场竞争主要集中在性能表现和成本效率上。






