发布日期:2024-08-26 22:31 点击次数:58
AI大模子的爆发式增长,正驱动着算力需求不休升级【HERI-001】ギャルズフィストファック! Rino2013-07-13HERO&$オレンジ(HERO)119分钟,云基础步地在集群配置和处置、性能、褂讪性等方面王人靠近着严峻挑战。
火山引擎基于字节进步在大模子领域的彭胀千里淀,带来更高性价比的算力资源和一站式资源做事,捏续助力企业 AI 转型落地。8月21日,2024火山引擎AI翻新巡展上海站四肢成效举办,火山引擎云基础产物清闲东说念主罗浩发饰演讲,注目先容了面对算力需求的升级,火山引擎的具体搪塞方法和门径。
罗浩示意,早在2019年,火山引擎仍是不雅察到了由Transformer带来的更大畛域算力需求。何况跟着算力大畛域爆发式增长,也带来了谋划花式的变化,谋划从“单节点花式”向“集群花式”演化。
为了知足AI领域的算力增长,火山引擎最初打造更新的基础步地,如新一代GPU型算力,以及不详容纳这些算力的新一代机房等。
酒色网百度影音在此基础上,则是打造新一代互联时间,将多达数十万个谋划节点互联起来,扶助类似线性加快比。
罗浩先容,由于不同算力资源池的节点阈值不同,当小于8个节点的时刻,调遣王人在一台做事器里面完成,但当节点大于500的时刻,可能就需要跨机架调遣,而当节点大于1000或更多时,需要跨两至三层的交换机调遣,所触及到的网罗架构处置实验,包括通讯合同、拥塞已矣等等,其性能挑战的难度将迟缓增大。
因此,跟着AI大模子的爆发,任务已从单节点来到多节点【HERI-001】ギャルズフィストファック! Rino2013-07-13HERO&$オレンジ(HERO)119分钟,以致达到万卡畛域,故障域也变得更大。
如斯大的故障域中,如安在当某个节点发生故障时能快速识别问题,实时剔除故障节点,从简谋划资本,就存在终点严峻的挑战。
火山引擎云基础产物清闲东说念主罗浩
因此火山引擎建议“AI全栈云”,包含三个方面。
一、齐集使用资源和算力。最猛经过上幸免由于散布式数据中心配置带来的算力孤岛和存储孤岛问题。
二、悉数的IaaS层产物、PaaS层产物、数据产物、安全产物以致保举算法还有AI产物,王人在合并朵云上,经受相同的软件架构、通讯合同,使得数据流动、业务通讯保捏最高效的,同期也愈加安全。
三、大算力资源池配置和自研硬件,以及自研网罗通讯合同、拥塞已矣算法等智商相集聚,竣事畛域更大、性能更强、褂讪性更高和资本更优。
罗浩示意,当今火山引擎不详作念到在分钟级别调遣千卡畛域资源池,以搪塞弹性任务。互联智商方面,单机互联智商仍是从800G升迁到了3.2T,增长了4倍。同期火山引擎还提供粉饰人人的网罗,不详扶助2TB/秒婉曲并行文献存储。
在高可用方面,火山引擎作念了充分的压测左移体系,会在批量机器委用之前,抽样比拟大的集群同期部署上容器、诬捏机、物理机进行测试,确保高可用性。领有这么的压测智商,即可快速发现问题,集聚冷迁片时期,将故障节点在离线情景或在线情景剥离出去,使得任务捏续启动。
资本方面,火山引擎除对大畛域算力资源池齐集使用以外,关于loadbook、DevOps等短期任务,只会用单张卡或0.5张卡,提供愈加纯真、更小粒度的资源使用形势。同期,火山引擎的网罗负载平衡还不详感知到熟练推理体系里的KV Cache、过热导致的调遣不均匀问题,达到更高的调遣服从。
在存储方面,除VPFS超大畛域、超大性能存储以外,火山引擎还提供LAS缓冲层、CFS、TOS分层性价比更高的存储。
罗浩示意,火山引擎基于字节进步在大模子领域的彭胀千里淀,以时间驱动的极致性价比让大模子东说念主东说念主用得起,伴随客户一说念成长。当年【HERI-001】ギャルズフィストファック! Rino2013-07-13HERO&$オレンジ(HERO)119分钟,火山引擎全栈 AI 做事将捏续助力企业 AI 转型落地,激勉业务增长潜能。(作家:林梦)
-->