从机器学习到推荐系统，技术平台全面统一：火山引擎已经发动

2022年7月25日 366点热度 0人点赞 0条评论

机器之心原创

作者：泽南

从自动驾驶到推荐系统，机器学习的开发现在都可以用统一的平台完成了。

不同机器学习任务，用统一的平台实现，速度成倍提升，GPU 调度 0 碎片，这是火山引擎最新开放的技术。

7 月 20 日，火山引擎 FORCE 原动力大会在北京举行。在活动中，品牌发布刚一年的火山引擎公布了一系列最新能力。

在 AI 方面，火山引擎推出了机器学习与智能推荐平台多云部署解决方案。据火山引擎机器学习系统负责人项亮介绍，字节跳动内部抖音、西瓜视频、飞书等不同业务的 AI 训练任务，都基于统一的训练平台提交，由统一的训练系统训练。

此次发布的这套解决方案也秉承了「统一、开放」的理念，初衷是希望算法工程师可以高效地实践自己的设想。

火山引擎机器学习系统负责人项亮。

机器学习能力的统一和开放

火山引擎脱胎于字节跳动的技术中台，其算法工程和业务平台可分为推荐系统和机器学习平台，两者基于字节跳动统一的机器学习系统，后者又基于一套强大的计算基础设施。

这套统一的体系，服务了字节跳动的视频、内容和电商业务。项亮认为，尽管是不同的业务，但本质上都可以抽象成机器学习问题，进行统一的训练。

「在抖音中，用户看视频存留的时长和点赞、分享、关注的比例表面上看起来是不一样的，在转化成为机器学习任务后可以总结为同一个问题，即 A 事件发生时，预测发生 B 事件的概率。在懂车帝里看完文章评估用户点赞评论的概率，可以类比到电商应用中去，」项亮说道。

对于字节跳动这样一个以数据驱动闻名的公司来说，不同的业务体系应用统一化平台的一个最直观的好处，就是减少了「变量」。因为所有业务底层的工程体系都是统一的，更容易判断出究竟是哪些因素为业务带来了正向的提升，从而可以快速在不同业务中复用有效知识，也可以将创新的想法直接转化为生产力，减少工程投入，增强工程师、研发的单兵作战能力，提升创新效率。

「这也是我们这次通过火山引擎，将这套 AI 基建系统开放给外部企业的原因。」项亮说，「ToB 服务本身就是帮客户专注自身业务，我们把我们擅长的技术服务拿出来，让客户专注于他们擅长的领域。」

据项亮介绍，「统一」架构并不是字节跳动首创，不过从更好地支持业务出发，字节跳动持续打磨这套系统，希望能将性能和体验做到极致，这背后投入了大量的人力和资源。

以火山引擎机器学习平台「0 碎片」能力为例，由于 GPU 的成本较高，提升 GPU 的使用效率一直是客户迫切的需求。基于字节跳动庞大的 GPU 资源，在算力充分大的情况下，系统会对多个用户的不同需求进行动态优化分配。在大多数情况下，火山引擎能够保证所有用户都达到 100% 申请率，不用担心资源碎片的问题。在这套内外复用的系统中，通过复用更大的资源池，可以保证外部客户的 0 碎片。

「火山引擎一直在努力帮助客户降低成本，」项亮表示，「我们相信只有从客户的利益出发，才能把蛋糕越做越大。」

让开发者获得更好体验

在原动力大会上，火山引擎全新发布的机器学习与智能推荐平台多云部署解决方案强调了开发者体验。

很多开发者都会遭遇这样的问题：在构建机器学习业务时，用于训练的 GPU 通常利用率较低。传统做法一般是给研发工程师配置许多带 GPU 的物理开发机，而在未进行机器学习训练任务时，这些计算卡会被闲置。火山引擎机器学习平台的独立在线开发机模块，能在对齐物理开发机体验的同时提升效率。

「在开发机关机之后，之前进行的操作、下载的数据、配置的环境，在重新开机之后全部原样保留，」项亮表示。「关机之后，算力同时也会立即释放出去。」

开发机模块很好地集成了容器，方便人们在不同环境上进行切换，另外，火山引擎机器学习平台在监控、实验 tracking 等方面也提供了相应的工具。在复现方案时，火山引擎可以通过镜像方式提供开发环境的解决方案；在工程师开发完成后，可以通过 Job 化的训练，将开发代码保存在云端，在机器学习平台上一键发起训练，并对比不同实验结果。

不仅如此，在帮助客户实现 GPU 「0 碎片」的基础上，火山引擎机器学习平台还从计算、网络、存储等方面入手，为开发者带来极致、顺滑的性能体验。

在计算上，火山引擎提供各种算子优化能力，可以让现有的算子速度获得成倍提升。

在通信方面，火山引擎开源了两个通信库，bytePS 用于实现参数通信、参数同步；veGiantModel 主要实现超大模型的多机并行训练加速。

在存储环节中，火山引擎提供两套解决方案：TOS 对象存储和 vePFS 分布式文件系统，面向实际工作中会遇到的复杂文件、环境处理挑战，同时满足了存储的高性能和易用性需求。

另外，智能推荐系统是字节跳动业务快速发展的重要技术动力，火山引擎推出的智能推荐平台在实时性和规模性上充分利用了已有的实践，可以实现秒级实时更新和超大规模推荐广告模型的训练。

据了解，要想实现一个端到端推荐系统，其工作涉及数据处理、特征工程、规则编排、验证推荐效果等任务。在火山引擎上，这些过程不需要跨多个系统。只需要一个平台，输入用户行为就可以接入到推荐结果输出，搭建完整的推荐服务，不需要关心其中的细节。针对不同行业的客户，火山引擎提供了自定义模板能力，企业可以根据自身业务对工具进行大量定制。

在智能推荐平台中，火山引擎还提供了十余种模型结构，只需要设定好优化的目标就可以开始训练。自定义模型能力则是通过低代码的方式实现模型的开发，平台内置多种代码示例，提供了代码对比、效果对比、训练日志等多种工具，方便工程师更快上手。

无论是预置模型还是自定义模型，火山引擎的底层都是基于一套字节跳动自研的训练和推理方案，可以实现万亿级参数的模型训练，全方位的容错机制保证稳定性，支持流式训练和实时模型调参等特点，可以保证模型训练的性能和效果。

在部署方式上，机器学习平台和智能推荐平台支持四种不同的部署方式，包括公有云部署、VPC 部署、私有云和专属 AZ 部署。

云上增长新动力

「字节跳动的发展伴随着深度学习等技术的爆发，同时，我们的系统从一开始就根植于云上。」项亮介绍。

字节跳动已经实现了自身业务的全量云原生化。去年底，火山引擎正式发布云计算产品，结合自身的强大能力，火山引擎为企业提供了云原生的全套构建方案。

目前，火山引擎已获得了数千家标杆企业、机构的青睐，服务了金融、能源、汽车、消费电子等众多行业的客户。企业基于火山引擎，正在创造出越来越多的新能力。

基于火山引擎的机器学习平台，无人驾驶技术公司轻舟智航打造了研发工具链轻舟矩阵，全面应用于自身开发体系中。轻舟矩阵以仿真为核心，打通了从数据处理、标注、训练、大规模仿真和技术输出的全流程，实现了车辆数据的安全存储和高效调用，并支持多种车型的开发，可对数据进行自动标注、质检、训练和评估，让自动驾驶 AI 大脑可以从海量数据中自主学习。

在这其中，火山引擎通过 RDMA 网络直连的万张 GPU，结合自研 BytePS 分布式训练框架和高性能算子库，使主流模型的多机加速效率超过 90%，自动驾驶模型训练 GPU 利用率提升 30%。模型全生命周期管理工具与火山引擎自研存储的无缝衔接，以及特性化的服务体验，极大加速了轻舟矩阵上自动驾驶模型的训练效率。

在推荐系统方向，火山引擎利用最新硬件架构的特性，借助英伟达对推荐系统 Pipeline 的定制优化，可以帮助企业快速构建、部署和扩展最先进的深度学习推荐系统，显著降低成本，大大减少任务延迟。