渔护厂家
免费服务热线

Free service

hotline

010-00000000
渔护厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

Databricks开源MLflow平台解决机器学习开发四大难点-【新闻】

发布时间:2021-04-05 15:26:15 阅读: 来源:渔护厂家

雷锋网 AI 研习社按:机器学习开发有着远超传统软件开发的复杂性和挑战性,现在,Databricks 开源 MLflow 平台有望解决其中的四大痛点。

据 AI 研习社了解,尝试过机器学习开发的同学们都知道,它的复杂性远超软件开发,且伴随着多种全新的挑战。在 Databricks,我们与上百家用到机器学习的公司共事,反复听到如下顾虑:

五花八门的工具。在机器学习生命周期的每个阶段,从数据准备到模型训练,都有成百上千的开源工具。然而,不同于传统的软件开发(每个阶段选择一种工具),在机器学习开发中,你通常想要尝试每种可用的工具(如算法),看是否能提升实验结果。这样一来,需要使用和产品化许多库。

实验难以追踪。机器学习算法中有许多可配置参数,不管你是独立开发者还是处于团队中,都难以追踪每个实验中用于生成模型的参数、代码和数据。

实验结果难以复现。由于缺乏精细的追踪能力,团队在使用相同代码再次实验时往往会陷入困境。不管是数据科学家将训练代码交给工程师用于生产,还是你打算返回到之前的研究对问题进行调试,重现机器学习工作流程都很重要。

机器学习难以部署。将模型转化为产品极具挑战,因为部署工具和模型运行环境(如 REST serving、批推理、移动端应用)太多了。由于没有将模型从库转移到工具中的标准方法,导致每一次新的部署都伴随全新风险。

鉴于上述挑战,毫无疑问,为了使机器学习开发像传统软件开发一样,具有鲁棒性、可预测性以及广泛传播,它必须得到大幅进化。为此,许多组织都开始打造内部机器学习平台来管理机器学习生命周期。例如,Facebook,Google 和 Uber 已经打造 FBLearner Flow,TFX 和 Michelangelo 来管理数据准备、模型训练和部署。然而,即使是这些内部机器学习平台,也存在限制:只支持少量内置算法或者单个 ML 库,并且绑定的是自家公司的基础架构。用户不能轻松利用新的 ML 库,也很难将自己的研究分享到更广的社群。

在 Databricks,我们相信有更好的方式来管理机器学习生命周期,基于此我们推出全新的开源机器学习平台 MLflow。目前,alpha 版本已发布。Github

英雄之城2手机安卓版

迷失星球2游戏

玛法传奇正式版