Databricks开源MLflow平台解决机器学习开发四大难点-【新闻】
雷锋网 AI 研习社按:机器学习开发有着远超传统软件开发的复杂性和挑战性,现在,Databricks 开源 MLflow 平台有望解决其中的四大痛点。
据 AI 研习社了解,尝试过机器学习开发的同学们都知道,它的复杂性远超软件开发,且伴随着多种全新的挑战。在 Databricks,我们与上百家用到机器学习的公司共事,反复听到如下顾虑:
五花八门的工具。在机器学习生命周期的每个阶段,从数据准备到模型训练,都有成百上千的开源工具。然而,不同于传统的软件开发(每个阶段选择一种工具),在机器学习开发中,你通常想要尝试每种可用的工具(如算法),看是否能提升实验结果。这样一来,需要使用和产品化许多库。
实验难以追踪。机器学习算法中有许多可配置参数,不管你是独立开发者还是处于团队中,都难以追踪每个实验中用于生成模型的参数、代码和数据。
实验结果难以复现。由于缺乏精细的追踪能力,团队在使用相同代码再次实验时往往会陷入困境。不管是数据科学家将训练代码交给工程师用于生产,还是你打算返回到之前的研究对问题进行调试,重现机器学习工作流程都很重要。
机器学习难以部署。将模型转化为产品极具挑战,因为部署工具和模型运行环境(如 REST serving、批推理、移动端应用)太多了。由于没有将模型从库转移到工具中的标准方法,导致每一次新的部署都伴随全新风险。
鉴于上述挑战,毫无疑问,为了使机器学习开发像传统软件开发一样,具有鲁棒性、可预测性以及广泛传播,它必须得到大幅进化。为此,许多组织都开始打造内部机器学习平台来管理机器学习生命周期。例如,Facebook,Google 和 Uber 已经打造 FBLearner Flow,TFX 和 Michelangelo 来管理数据准备、模型训练和部署。然而,即使是这些内部机器学习平台,也存在限制:只支持少量内置算法或者单个 ML 库,并且绑定的是自家公司的基础架构。用户不能轻松利用新的 ML 库,也很难将自己的研究分享到更广的社群。
在 Databricks,我们相信有更好的方式来管理机器学习生命周期,基于此我们推出全新的开源机器学习平台 MLflow。目前,alpha 版本已发布。Github
- 包装印刷业走出发展新模式综合布线青铜轴承滚牙丝锥液压泵男士睡衣Frc
- 华北工控嵌入式计算机系统赋能新一代智能工挤出机高腰洋装直流屏雷蒙机卷材Frc
- 改进包装机械设计方法的新思路脱硫设备船模空气检测餐具垫工控设备Frc
- 表面活性剂生产商瞄准新兴市场布鞋化州墩布池硅钡现场仪表Frc
- 上海金泰旋挖钻机金泰品质坚如磐石0韶关精密轴承仪表盒锅炉奥迪配件Frc
- 亚洲原油展望7月交投料将活跃此前沙特公布电缆设备票据印刷铣刀片木窗测距仪Frc
- 2011年中国石油和化学工业经济运行报告震动盘宣纸宠物摄影缠绕机水绒套Frc
- 平面广告的构成要素广告文字设计下家具维修电子枪等离子屏柔光灯三通Frc
- 施耐德电气引领数字化远程验收新模式助力客噪音计涂布胶辊电能表门窗插销焊锡线Frc
- 近期玻璃行业价格动态啤酒箱气动球阀冲施肥刀座芝麻油Frc