2025 07 15 22:46:02| 来源: 互联网整理
大年初四,当之无愧的春节顶流DeepSeek仍在持续刷屏霸榜,热度不减。
前脚,DeepSeek面临的巨头企业官宣加入vs多国政府下场质疑的冰火两重天局势尚未平静(DeepSeek在美两重天:五大巨头接入,政府诚惶诚恐);后脚,OpenAI被逼急,凌晨亮出全新推理模型o3-mini,并在ChatGPT首次向所有用户免费提供推理模型,不过o3-mini的API定价还是高于DeepSeek模型(重磅!OpenAI推o3-mini新模型,被DeepSeek逼急?定价仍打不过)。
o3-mini发布后,OpenAI CEO萨姆·阿尔特曼(Sam Altman)在Reddit上提到,要学习DeepSeek将推理模型的思考过程公开;OpenAI的闭源策略使他们站到了历史错误的一边,将重新思考OpenAI的开源策略;并坦言他们的领先优势已经不如之前大了。
继美国两大云巨头后, 华为云 今日宣布与硅基流动联合推出并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。
o3-mini的发布并没有分散DeepSeek的讨论度。昨天,半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测:
DeepSeek拥有至少大约 5万块 Hopper架构的GPU,且GPU投资已超过 5亿美元 ;
600万美元 成本只包含其预训练运行的GPU成本, 不包括硬件本身的研发和总体拥有成本(TCO) 等重要部分;
为了吸纳人才给有前途的候选人提供超过 130万美元(折合约942万人民币) 的年薪;
关键创新 多头潜注意力(MLA) 将每个查询KV量减少93.3%,显著降低了推理价格。
DeepSeek的成功在硅谷掀起波澜,今日上午,英伟达创始人兼CEO黄仁勋被紧急召进美国白宫,与美国总统Donald Trump(唐纳德·特朗普)讨论了DeepSeek以及收紧AI芯片出口。
知情人士透露, 特朗普认为这家中国公司的出现意味着“美国公司不必花费大量资金来构建低成本AI替代品” 。此外,其会议上还提到,政府将在今年春天进一步限制AI芯片出口,以确保美国及其盟友继续拥有先进的计算能力。
昨晚,国内AI产品分析平台AI产品榜发布的数据显示,上线18天的DeepSeek日活已经达到 1500万 ,ChatGPT过1500万花了244天,DeepSeek增速是ChatGPT的 13倍 。
截止当前DeepSeek依然霸榜,位列苹果应用商店157个国家/地区的第一名。
这场关于DeepSeek的争吵仍然没有停下。Meta首席科学家杨立昆发文锐评, 他认为硅谷圈子中的“常见病”是:错位的优越感 。病症的高级阶段是,认为自己的小圈子已经垄断了好的想法,病症末期是,假设来自其他地方的创新都是通过作弊获得的。
阿尔特曼和OpenAI首席研究官Mark Chen、OpenAI首席产品官Kevin Weil等现身Reddit,在回复用户问题时多次提到DeepSeek,并且剧透了OpenAI的新研究进展。
OpenAI首次回应了o3-Mini价格没有竞争力,OpenAI API研究主管Michelle Pokrass称,o3-Mini相比于美国托管版本的DeepSeek具有竞争力。
阿尔特曼称赞DeepSeek是一个非常好的模型,并且称“我们将保持比往年更少的领先优势”。
看到开源的DeepSeek发布,阿尔特曼对OpenAI的闭源策略进行了反思。他透露,OpenAI正在讨论(发布一些模型权重等)。他说:“我个人认为我们在这里站在了历史错误的一边,需要找出不同的开源策略,但并非OpenAI的每个人都同意这种观点,这也不是我们目前的首要任务。”
DeepSeek的R1模型可以向用户显示模型中间的思考过程,阿尔特曼称OpenAI将效仿DeepSeek的做法:“是的,我们很快会展示一个更有用、更详细的版本。感谢R1让我们有所更新。”OpenAI可能更多地揭示其所谓的推理模型的“思考过程”。
OpenAI首席产品官Kevin Weil还剧透了OpenAI的新进展。
4o的图像生成功能可能要几个月后推出。
高级语音更新即将推出,GPT-5的发布还没有时间表。
OpenAI计划将文件附加功能添加到推理模型中。
完整的o3模型将在几周、不到几个月的时间内完整亮相。
半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测。
其研究显示,DeepSeek不是外界所传的“副业”,其 GPU投资已经超过5亿美元 。
DeepSeek拥有至少大约5万块Hopper架构的GPU,其中可能大约有 1万块H800、1万块H100、3万块H20、1万块A100 。这些GPU在幻方量化和DeepSeek之间共享,用于交易、推理、训练和研究。
报告分析表明,DeepSeek的总服务器资本支出约为 16亿美元(折合约116亿人民币) ,运营此类集群的成本高达 9.44亿美元(折合约68亿人民币) 。
DeepSeek的价格和效率在本周引起了业界的狂热讨论:DeepSeek用不到600万美元的成本,干翻了硅谷巨头们花费数十亿美金训练的AI模型。
但SemiAnalysis的报告提到,这个说法存在错误,这类似于将产品物料清单的特定部分并将其归因为全部成本,预训练成本在总成本中只占很小的一部分。
这 600万美元只包含其预训练运行的GPU成本 ,只是模型总成本的一部分,不包括硬件本身的研发和总体拥有成本(TCO)等重要部分。
作为参考,Claude 3.5 Sonnet的训练成本为数千万美元,但这并不是Anthropic所需的总成本,他们还需要资金进行实验、提出新架构、收集和清理数据、支付员工工资等。
其报告还提到,DeepSeek在寻找人才方面也投入了大量资金。
目前,该公司的员工人数在 150人 左右,且公司岗位并没有被预先定义,会根据招聘人员灵活定义。
DeepSeek选择在国内寻找人才,并且不考虑其此前的资历,非常注重能力和好奇心。这家公司会定期在北京大学和浙江大学等顶尖大学举办招聘活动,其许多员工都毕业于浙江大学。
报告提到,该公司此前还为有前途的候选人提供超过 130万美元(折合约942万人民币) 的年薪,这一薪资水平远高于国内大型科技公司以及大模型创企。
在第三方招聘软件BOSS直聘中,DeepSeek公开的在招职位有37个,核心系统研发工程师、深度学习研究员薪资水平最高为50-80K、60-90K,除实习生其他岗位均为14薪。大多数情况下,DeepSeek不依赖外部方或提供商,运行自己的数据中心,不依赖外部方或提供商。这为实验开辟了更多领域,使他们能够跨堆栈进行创新。
推理成本骤降是AI进步的一个显著特征。
一个明显的例子就是,笔记本电脑上运行的小模型目前已经与GPT-3性能相当,而后者需要一台超级计算机进行训练和多个GPU进行推理。换句话说,算法改进允许使用较少的计算量来训练和推理具有相同能力的模型,而且这种模式正一遍又一遍上演。
到目前为止,在这种模式下AI实验室的策略是花费更多钱来获得更多智能。据估计,算法的进步是每年提升4倍,这意味着每过一年实现相同能力所需的计算量就会减少到1/4。Anthropic的首席执行官达里奥·阿莫迪(Dario Amodei)认为,算法的进步甚至更快,可以产生10倍的改进。就GPT-3质量的推理定价而言,成本下降到1/1200。
该报告还调查了GPT-4的成本,在曲线早期也有类似的 成本下降 趋势。虽然随着时间的推移成本差异减少,但在这种情况下,我们看到算法改进和优化使成本降低到1/10,能力提高了。
需要明确的是,DeepSeek率先达到了这个级别的成本和能力,并且其独特之处还在于发布了开放权重,SemiAnalysis认为其成本甚至会继续降低到1/5。
DeepSeek是如何如此迅速地赶上来的?
答案是,推理具有更快的迭代速度和更低成本唾手可得的成果,且与以前的范式相比,计算量更小。但以前的范式依赖于预训练,因价格昂贵难以实现稳健的收益。
新范式侧重于通过合成数据生成和现有模型后训练中的强化学习进行推理能力
未来,随着研发人员弄清楚如何在这一新模式中实现更大规模的发展/应用等,预计不同模型之间能力匹配的时间差距将会拉大。
DeepSeek的爆火在于其破解了架构创新的密码并解锁了领先实验室尚未能够实现的创新,其中包括 Training (Pre and Post) 模型预训练和后训练 以及 多头潜在注意力(MLA) 。1、Training(Pre and Post)模型预训练和后训练DeepSeek V3以前所未有的规模利用了多标记预测(MTP),其添加的注意力模块可以预测接下来的几个Token,而不是单个Token。这提高了模型在训练期间的性能,并且可以在推理期间丢弃。这一方法以较低的计算能力提高了性能。还有一些额外的考虑因素,例如在训练中采用FP8精度。
此外,该模型也是混合专家模型,由许多其他专注于不同事物的较小专家模型组成。MoE模型面临的一个难题是如何确定哪个Token属于哪个子模型。
DeepSeek基于门控网络(Gating Network),以不降低模型性能的平衡方式将Token路由到正确的子模型,这提升了训练效率并降低了推理成本。
尽管业界有人担心混合专家模型使得效率提高可能会减少该领域的相关投资,但Dario指出,功能更强大的模型经济效益非常可观,以至于任何节省的成本都会迅速重新投资于构建更大的模型。MoE的效率提高不会减少整体投资,而是会加速AI扩展工作。
R1的强大能力得益于基础模型V3,强化学习提供了两大能力,一是Formatting(确保它提供连贯输出)二是有用性和无害性(确保模型有用)。推理能力是在合成数据集上对模型进行微调期间出现的。
不过R1论文中没有提到计算,这是因为提到使用了多少计算会表明他们的GPU比他们的叙述所暗示的要多。这种规模的强化学习需要大量的计算,尤其是生成合成数据。
R1论文中还提到,能使用推理模型的输出对其进行微调,将非推理的较小模型转换为推理模型。数据集管理总共包含800k个样本,现在任何人都可以使用R1的思维链输出来制作自己的数据集,并在这些输出的帮助下制作推理模型。未来,我们可能会看到更多较小的模型展示推理能力,从而使得小型模型的性能提高。 2、Multi-head Latent Attention(MLA)多头潜在注意力 另外一项关键创新是MLA,负责显著降低DeepSeek的推理价格。
其原因是MLA将每个查询所需的KV Cache(键-值缓存)数量减少了 约93.3% 。KV Cache是Transformer中的一种内存机制,它存储代表对话上下文的数据,从而减少不必要的计算。
KV Cache会随着对话上下文的增长而增长,并产生相当大的内存限制,大幅减少每个查询所需的 KV Cache 数量会减少每个查询所需的硬件数量,从而降低成本。报告认为,DeepSeek是在以成本价提供推理服务来获取市场份额,实际上并没有盈利。
DeepSeek的发布对整个行业产生了全方位、深层次的影响。从OpenAI新发布的o3-mini也可以看出,中美之间的AI竞争格局正在改变,中国企业在开源领域的积极作为,让美国不得不重新审视其限制开源的策略。
从产业竞争格局来看,DeepSeek的横空出世重塑了全球AI产业的竞争版图,这或许也将促使各国重新审视AI发展战略,加强在AI领域的投入和合作,共同推动AI技术的进步。
【正文】
公司要想找到合适的一流员工,最有效的途径就是内部推荐,鼓励自己的员工去做推荐,像在Facebook大概60%~70%工程师都是这样进来的。这种策略刚开始会比较慢, 但你积攒了一定量的牛人之后, 根据”A-players only want to work with A-players”的定律, 过了爆点之后就会形成雪球效应. 从另一方来看, 应聘者要想更有效地找到工作,最好也是通过内部推荐的方式,第一步是先找到与你的目标公司有关系的联系人。
这里讲一个我自己的故事。我找到的第一份工作是通过2005年在芝加哥的KDD(最好的数据挖掘的大会)上和雅虎数据挖掘部门的一个技术总监套磁获得的面试机会。开会的闲暇时间,我在展厅里瞎晃荡,和各个展位的人聊天,聊几句后就提到我正在找工作,问他们有没有合适的机会。到了雅虎的展厅之后,我跟这个技术总监聊了一会儿之后,他就建议我们到酒店的大厅中找了块干净的地板坐下来,开始面试了。对几个大的问题探讨了算法上的设计之后,他好像比较满意,之后就让一个工程师在第二天给我做了电话面试,然后又飞过去正式面试,最后应聘成功。我想说的是,你如果想找工作,试试在你“未来同事、未来老板”经常出没的活动场所之中,尝试去认识他们,让他们对你感兴趣,然后通过他们做内部推荐。
内部推荐
有点扯远了,再回到Facebook的有关话题中。Facebook最早期的一批中国大陆籍工程师都是我做内部推荐面试进来的。熟人推荐无论对于求职者还是用人公司相对成本都要低。对于求职者,可以通过熟人了解公司内部的真实情况,而无需用心去辨别招聘人员的夸夸其谈;对于公司,熟人的推荐让求职者的质量得到一个背书,而不是在千千万万个简历中猜测靠谱的应聘者。对于推荐的人选, 如果在当地, 我们直接请到公司里来面谈, 相当于把正常过程中的需要经过Puzzle(网上做题), 两次电话面试, 打成折扣, 变成只需要一次面谈。 这次面谈成功在安排正式的见4个人的一轮现场面试。
正因为公司对于内部推荐的重视和对于员工的新人,我在Facebook的四年多,曾收到过200多个推荐的请求,但最终决定做的推荐不到100,其中有12个朋友成功了。推荐成功、应聘者入职三个月后,对于成功推荐的工程师,公司会发给推荐人5,000美元奖金,推荐设计师的奖金是1万美元,推荐其他类别的员工则奖励1,500美元。这看起来像是一门不错的生意,当时做内部推荐的员工一定要有所筛选,不能为了这笔奖金就来者不拒,来一个推荐一个,否则你的名声很快就会烂掉。因为我推荐成功的比较多,还曾和另外几个同事一起收到了COO桑德伯格(Sheryl Sandberg)的感谢信,感谢我们为公司推荐了这么多有用的人才。
校园招聘
一般过去主持招聘工作的都是公司里相应学校的校友,沟通起来更有效率;但一定会配以不同学校毕业的同事,以防止校友对校友的过度偏向。截止2011年9月,Facebook的工程师队伍里,人数最多的应是麻省理工的毕业生,其次是斯坦福大学和卡内基梅隆大学的,这三个学校有美国最顶尖的计算机专业,学生也很多,很自然的,公司在这三个学校花的时间、力气、精力也最多。
在校招方面, 一个很大的重心是在实习生上面。公司要求每个组对实习生的准备工作早一两个月就准备起来- 比如选择相应的实习生导师, 导师必须每周和实习生进行一次一对一碰头会,经理要做到2-3周一次。 准备的项目不能是二级科目, 可做可不做的那类。最好的项目应当是跟着导师一起做项目, 但是是能够切除出去的一个独立模块, 这样导师既能做到非常了解所以帮得到, 又能抑制”还不如自己干掉”的冲动.。3个月的中期要做一次评估, 表现不佳的要鞭笞。等待3个月的实习期结束之前, 对于即将毕业的牛逼的实习生, 大家是使出各种手段希望他们能接受Facebook的Offer。我曾经就差给一个实习生给跪了, 呵呵。
对于集中性的校招面试, 我在母校斯坦福就参加过好几年。就是每人在一天之内面试10个希望找工作的毕业生或者找实习机会的在校生。那天早上,6个左右的工程师会和一个招聘部门的同事一起到斯坦福计算机专业的大楼,名为盖茨大楼(对,就是比尔盖茨捐建的)。然后从早上10点开始,每人在30分钟内要见一个学生,考察他的编程能力、做事态度等。每个学生要见2个人。如果是寻找实习机会的在校生,这两个面试就可以决定他能否被录取;但如果是找正式工作,那这两个面试就代表着第一轮,过了之后就可以进行最后一轮见4个人的面试。中午我们会休息一个小时,随便吃点儿快餐,然后下午接着面试一直到5点多,再回公司继续工作。
在学校里, 还可以做一些技术讲座, 并做一个Hackahton – 把学生弄到一些, 通宵达旦的编程, 看看谁在8小时之后能够在用Facebook的平台API做出好玩的东西。 这不仅能发现动手能力强的学生, 更加能够让学生愿意去讨论这个活动, 是在帮你做品牌宣传.。参加这些活动之后的学生, 如果最后拿到多个Offer, 类似的条件下对你的公司会更有感情。
此外,有几个很有名的编程大赛,对于发现工程师人才也很重要。比如TopCoder,美国计算机协会(ACM)主办的国际大学生程序设计竞赛,Google举行的Code Jam等。Facebook不仅从这些地方发掘人才,自身也从2011年开始搞了每年一届的黑客杯(Hacker Cup)编程大赛。这项比赛由必须要在一个固定的时间内解决的一组算法问题组成,参赛者可以使用任何编程语言和发展环境去找他们的解决方案。Facebook将这一竞赛作为重要的人才招募平台,用以吸引优秀的程序设计人员加盟。预选赛的前25名将被邀请到公司总部进行决赛,决赛胜者将被授予全球“最佳黑客”称号,同时获得5,000美元奖金。
收购
当然,Facebook还有一种获得人才的途径,那就是收购。 近年来,Facebook收购了30多家创业公司,主要原因便是觊觎它们的工程师资源。大多数情况下,Facebook会放弃这些初创公司的产品。硅谷一般将这种情况称之为人才收购。像社交聚合网站FriendFeed联合创始人布雷特•泰勒(Bret Taylor),在被Facebook收购后担任了公司的CTO (编者注:泰勒于2012年6月宣布离职创业);像扎克伯格就读哈佛大学时的哥们、文件共享服务提供商Drop.io创始人萨姆•列森(Sam Lessin),在被Facebook收购后掌管公司最为重要的项目部门之一——用户界面设计,像去年推出的时间轴(Timeline) 就是他的功劳。
我参与过两次人才收购的面试过程。对于这种类型的收购,Facebook需要对公司里的重要人员,尤其是负责产品和技术的工程师和产品经理进行严格的面试筛选。基本上,面试的流程和从外部招聘一名新人没有区别。这种面试的结果最后会汇总,形成对这家收购目标公司的人才能力的评价,也是收购与否的最重要的标准。对于这种人才收购,Facebook有专门的收购团队进行具体的事务运作。但任何一个经理或技术牛人(Tech Lead)都可以发起收购建议。 在所有研发经理参与的全体会议上,曾有过一次关于我们要收购什么样的公司的讨论。基本思路就是感觉这些人很聪明又能做出东西来(执行能力强)的话,就可以提出来让收购团队去接洽,进行具体的收购可行性的评估。Facebook严禁非收购团队的人去和收购目标公司谈条件。
摘自《打造Facebook》 作者:王淮
最新最全的互联网职位信息
快戳下面
↓↓↓