中国主要快递公司

  近日,量化巨头幻方量化的子公司深度求索(DeepSeek)发布了全新系列模型DeepSeek-V3,并同步开源新邦搜索。这一事件迅速引爆AI圈,DeepSeek-V3不仅霸榜开源模型,更在性能上与全球顶尖闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。

  更令人✅瞩目的是,该模型的训练成本仅约558万美元,仅为GPT-4o的二十分之一,资源运用效率极高。国外独立评测机构Artificial Analysis测试评价其“超越了迄今为止所有开源模型”。

  与此同时,在2024年的年✅末,“雷军千万年㊣薪挖角95后AI‘天才少女’罗福莉”的词条刷屏社㊣交网络。罗福莉是DeepSeek-V2的关键开发者之一,据证券时报报道,雷军欲让其领导小米AI大模㊣型团队。国产大模型DeepSeek一定程度也因此走向大众视野。

  DeepSeek-V3的成功,不仅是中国AI技术的一次重大突破,更是全球AI格局重塑的重要标志。

  2024年12月26日,深度求索官方微信公众号推文称,旗下全新系列模型DeepSeek-V3首个版本上线并同步㊣开源。该国产大模型性能对齐海外领军闭源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及㊣Claude-3.5-Sonnet不分伯仲。

  在百科知识、长文本、代码、数学及㊣中文能力上的表现,DeepSeek-V3超越其他模型,尤其是在数学上,在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

  更重要的是,深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3,仅花费了约558万美元。其训练费用相比GPT-4o等大模型要少得多。Open AI CEO山姆·奥特曼曾表示,GPT-4o的训练成本大约1亿美元,未来训练大模型的成本将高于10亿美元。尚未完成训㊣练的GPT-5大模型,为时约半年的一轮训练就消耗了大约5亿美元。

  消息一出,引发了海外AI圈热议。Open AI创始成员Karpathy甚至对此称赞道:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。”

  深度求索被硅谷誉为“来自东方的神秘力量”,在2024年5月6日发布由AI“天才少女”罗福莉参与研发的DeepSeek-V2开源MoE模型时,就以其高效性能在全球AI界掀起了一波热度。

  而其API接口价格与同类产品相比断㊣崖式定为每百万tokens输入1元中国主要快递公司、输出2元(32K上✅下文),仅为GPT-4 Turbo的近百分之一。

  DeepSeek做到了花㊣小钱办大事,通过更先进的MoE架构、多技术融合优化、FP8混合精度训练框架等技术,以及与开源社区合作㊣的方法,在成本较低的情况下,就训练出文字生成和逻辑推理能力不输乃至领先主流AI大模型DeepSeek-V3。

  DeepSeek-V3的成功离不开其独特的技术创新。首先,其采用的混合专家(MoE)架构通过稀疏激活机制,仅激活37亿参数,显著降低了计算量,同时提升了模型的处理能力。其次,DeepSeek团队开发的多头潜在注意力(MLA)机制和FP8混合精度训✅练框架,进一步优化了模型的训练效率和生成速度,使其生成速度从每秒20个token提升至60个token(token 是计算机科学中的信息或价值的基本单✅位,用于表示、传输或存储数据)。此外,DualPipe算法的引入,有效降低了跨节点通信的开销,使得训练成本大幅降㊣低。

  这些技术创新不仅让DeepSeek-V3在性能上比肩顶尖闭源模型,更在成本控制上实现了突破,展现了“四两拨✅千㊣斤”的技术实力。

  训练成㊣本高昂、竞争愈发✅激烈已成趋势,如何开源与节流已成全球AI公司必须思考的难题,DeepSeek这种低成本高效能的模式,为全球AI大模型的开发提供了新的思路。

  DeepSeek-V3的成功,某种程度上是中国㊣在AI领域突破外国技术封锁的缩影。2022年,美国对中国实施芯片出口限制,旨在遏制中国在㊣AI领域的发展。然而,DeepSeek团队通过软件层面的创新,充分利用性能受限的H800 GPU,实现了训练㊣效率的显㊣著提✅升。

  例如,FP㊣8混合精度训练框架的运用,不仅降低了内存占用,还加快了计算速度,使得在硬件性能受限的情况下,依然能够高效完成大规模模型的训练。这种“硬件不足,软件补足”的策略,不仅让DeepSeek-V3在技术上实现了突破,更在某种程度上打破了美国对中国的技术封锁。

  正如一位硅谷AI工程师所言:“DeepSeek的成功证㊣明,创新并不一定依赖于最先进的硬件,而是可以通过聪明的工程设计和高效的训练方法实现。”这种由需㊣求驱动的创新,不仅为中国AI技术的发展注入了新的活力,也为全球AI领域提供了新的可能性。

凯发k8ag旗舰厅相关新闻