导读:本次分享的主题为构建端箌端的联邦学习 Pipeline 生产服务联邦学习的优势在于能够保证参与各方在数据不出本地,保持数据独立性的情况下多方共建模型,共同提升機器学习效果联邦机制下,安全隐私有了优势但技术上也会面临更多挑战。作为一个工业级的框架端到端的联邦学习 Pipeline
致力于完成高彈性、高性能的联邦学习任务,主要包括建模、训练、模型管理、生产发布和在线推理几个方面本次将为大家分享如何灵活调度管理复雜的联邦学习任务、可视化联邦建模的实现以及在线联邦推理服务的思考与实践,解决实验性机器学习到实际生产应用落地的难点
我们在日常建模过程中,会遇到哪些需求和痛点
1. 机器学习任务编排
我们是如何编排机器学习任务的:
- 塞满逻辑嘚 Python 脚本。把机器学习的一些步骤如特征工程、预处理、验证等,写成一个符合逻辑的 Python 脚本
- 步骤要并行、要嵌套。通过多线程、多进程等手段来完成
- N 个业务需要 N 个 Script。生产中我们有非常多的业务每个业务采用的算法也不同,所以会有多个 Script
- 外部系统对接。一般其他平台茬发起自动化机器学习平台任务时系统对接上是非常困难的,毕竟还没有那么智能那么如何更好的写好 Python 脚本呢?
2. 机器学习任务状况观察
当我们千辛万苦的把任务运行起来还需要不断观察任务的运行情况,运行到哪一步每一步的数据输出是什么样的?指标输出是什么樣的Loss、AUC 等指标的趋势?然后任务跑完了吗?
我们该如何观察到各种趋势来尽可能做参数的调整等操作。这里要大家可以想想平时昰如何观察机器学习任务状态的呢?
如果是我可能就会看日志。那有没有需求是看日志不能解决的如果有,那就加几行日志!^_^
3. 联邦学習任务协同建模
刚刚介绍的都是一般机器学习任务中会遇到的挑战在联邦机器学习下,因为涉及多方协同会遇到更多的挑战:
- 启动多方任务。如需要跟多方协调启动任务时间难同步。
- 各方的运行状况需要通过通信工具,同步任务进度
- 多方日志、排查问题。如日志昰散落的各个操作系统遇到的问题也不一样。
- 多方任务管理可能非联邦学习的建模只需要1个人,而联邦机制下需要3个人或者更多
接丅来分享下 FATE 是如何尝试解决这样的问题,以及当前的方案和 Pipeline 调度
这是一个比较典型的纵向联邦学习 Pipeline 的例子:
FATE-Flow 是我们自研的联邦学习调度岼台,主要有5项功能:
- 用 DAG 定义联邦学习 PipelineDAG 具有比较灵活、弹性的特点,是业界工作流调度系统常用的方式;在联邦学习场景下DAG 是有难点嘚,由于协作的机制我们的 Pipeline 是非对称的;我们在设计 DSL 时,考虑更多系统化对接的情况所以我们采用了 json 格式的 DAG DSL,然后再采用 DSL-Parser 进行解析
- 聯邦任务生命周期管理。对应刚刚所说的痛点对联邦任务生命周期进行管理,如多方启停、状态检测
- 联邦任务协同调度。包括:多方任务队列、分发任务、状态同步等协同调度
- 联邦任务输入输出实时追踪。这个功能比较普遍一般的调度平台都会有,包括:数据、模型、自定义指标、日志等的实时记录存储
- 联邦模型管理。联邦学习模型的管理存在一个很大的问题尤其在纵向联邦学习场景下,就是洳何保证多方模型的一致性
- DSL Parser:是调度的核心,通过 DSL parser 可以拿到上下游关系、依赖等
- Federated Task Scheduler:最小调度粒度就是 task,需要调度多方运行同一个组件泹参数算法不同的 task结束后,继续调度下一个组件这里就会涉及到协同调度的问题。
左边为我们的 DSL它的结构比较简单,我们可以定义┅串 Component通过 Parser 解析出 DAG 图(如右图,可以清晰地看到整个算法流程的架构)
构建 DSL 只需要三步:
① Module:模型组件,FATE 当前支持11个模型组件基本满足当前 FATE 所支持的所有算法。
DSL 怎么工作的呢它是一个非常酷的模块,就像人类的大脑它是 FATE-Flow 的中心:
① 根据 DSL 定义和任务配置,解析每个 Component 运荇参数
① 构建依赖关系邻接表
② 拓扑排序进行 DAG 依赖检测因为用户定义的 DSL 不一定是有效的
剔除预测阶段无用 Component 数据,模型依赖传递推导预測 DSL
4. 联邦学习任务多方协同调度
联邦学习任务多方协同调度的流程:
执行,同时这个任务会分发到联邦学习的各个参与方 Host联邦参与方取得任务,如果是 New Job则放入队列(参与方会定期调度队列中的 Job),否则启动多个 Executor 执行Executor 在 run 的过程中,会利用 Federation API 进行联邦学习中的参数交互对一個联邦学习任务,每一方的 Job id 是保持一致的每跑一个 Component,它的
5. 联邦任务多方生命周期管理
- Task stat:Task 状态信息如启动时间、运行状态、结束时间、超时时间等
- Shutdown:kill process、清理任务以及同步指令到所有联邦参与方,保证联邦任务状态一致性
- 若 Task 运行时间超过配置超时时间或默认超时时间(一般较長)启动 Shutdown
6. 联邦任务输入输出实时追踪
联邦任务输入输出实时追踪,首先会有几个 Definition 定义:
可能以前收集指标需要经过收集日志等一系列操作任务像一座座大山一样摆在面前,现在则有可能成为我们的摇钱树因为我们可以快速的收集各种指标,提交给需求方
下面是某个算法模型数据结构的示例:
同时每个“大饼”算法模型,也由两部分组成:ModelParam 和 ModelMeta也就是参数和元的信息。
8. 联邦模型版本管理
模型版本管理我們参考了 Git 的实现思路但是我们没有做的那么复杂,是基于多叉树版本的记录:
上图为FATE-Flow 的简单使用樣例,主要就是使用 FATE-Flow CLI 提交一个 Job需要提供 Job 的 DSL 描述以及配置文件,那么 FATE-Flow Server 会返回该 Job 的一些必要信息尤其唯一 Job Id 比较重要。后面则是查询 Job 状态以忣停止 Job 的操作指令CLI 还支持许多丰富的指令,可以参考 github 上的文档
第三部分介绍下联邦学习建模可视化:
大体的架构如右图,有一些 Job DashBoard 和可視化两个基本的管理和上面的 Web UI。
FATE-Board 作为 FATE 联邦建模的可视化工具旨在跟踪和记录联邦建模全过程的信息,并通过可视化的方式呈现模型训練过程的变化以及模型训练结果帮助用户简单而高效地深入探索模型与理解模型。
2. 建模交互及可视化
③ 观察 job 运行状态查看运行时的统計信息,包括运行进度、日志、模型过程输出等;
④ 查看 job 运行完成的结果包括模型输出、模型评分、日志等内容及可视化结果。
第四部主要讲怎么发挥模型的最大价值我们构建了高性能的联邦学习在线推理服务:
- 高性能,基于 GRPC 协议批量联邦请求,联邦参与方模型结果哆级缓存
- 高可用无状态设计,异常降级功能
- 高弹性模型 & 数据处理 App 动态加载
- Online FederatedML:高性能在线联邦学习算法包,在线和离线时性能是不一样嘚在线的时候,我们没有采用 Python当前版本是采用 Java 写的一套联邦学习算法。
- Dynamic Loaders:推理节点动态加载器目前支持模型和 APP 两种推理节点,节点通过训练或者编译等方式创建后是序列化后存储在分布式存储上的对于在线服务,每个请求都需要经过每个节点为了保证执行效率,需要把这些节点提前从存储中取出缓存在 Server 的内存空间这也是业界在线服务的常用做法。
- Processing-App Factory:数据处理节点工厂在解决实际业务问题时,還需在模型预测的基础上在 Pipeline 中引入一些人工或者规则打包成一个 App 发布到 Serving,在预测的时候加入一个前处理 Processing 和一个后处理 Processing
2. 在线联邦模型管悝
都是保持一致的(在发布模型的时候,只需要在 Guest 侧发起就可以了会自动走 proxy,把命令推到其他的 Host 中去)当各方都加载完之后,就可以應用了
图中右下角,为动态加载器的一个基本功能
(用来做对齐的)发到不同的参与方,参与方会拿自己的半模型进行最后的预测,最后把结果发到 Federated Network ) -> Processing ( 后处理 )
4. 在线推理服务缓存
在线推理服务缓存分为三种:
在业务的运行当中按照这几个配比,一天下来发现命中远端联邦推理结果 Cache 的请求量占了28%也就是说有28%的联邦请求都不需要这部分,就会大大的增加了用户的体验
我们还有一个缓存唤醒的热身过程,峩们会跑一些离线任务然后对活跃度进行统计,把要缓存的用户按比例提取出来在凌晨的时候发一些批次请求,让整个缓存热身
5. 联邦模型应用生产服务流程
一个联邦模型应用到生产服务的大致流程:
① 全量加载联邦模型,通过 pulish load req 全量加载模型每方的 Serving 都加载这个模型。
② 灰度上线联邦模型pulish online AB test 可以指定多少用户上线 online 模型。(这时就会体现出为什么要做 pulish load req因为在 Guest 方灰度上线时,这个 Serving 请求的 user_id 落到其他参与方需要找到对应的模型,但是通常情况下 Serving 都是做负载均衡的如果灰度这部分的 Serving
已经上线了新的模型,其它 Host 方没有预先加载这个模型就会找不到这个模型,也就是说模型是被所有 Serving 所 load 的但是并不是所有 Serving 当前生效的都是这个模型。)
微众银行 | 人工智能系统架构师