为什么数据科学家需要承担开发运维的工作?


以下为译文:
?
如果你需要创建一个生产环境下的机器学习流水线,那么开始的部分工作(设计和训练模型等)显然属于数据科学的范畴。
?
某种意义上,当你需要将模型投入生产环境时,需要将常规的流水线从数据科学领域转移到基础设施领域。直观地讲,这时数据科学团队需要将工作移交给其他人,即开发运维。
?
然而,现实并非总是如此。越来越多的公司开始要求数据科学家负责将模型部署到生产的工作。
?
据统计,大多数数据科学家都需要花费25%以上的工作时间来部署模型。有趣的是,在数据科学家职位的招聘广告中也经常看见Kubernetes、Docker和EC2之类的技术要求。
?

为什么数据科学家不应该处理模型服务?
?
简单来说,模型服务是基础架构的问题,不属于数据科学范畴。我们可以比较一下这两个领域使用的技术栈:
? ? ? ?
? ? ?
当然,有些数据科学家喜欢开发运维,他们也可以承担跨部门的工作,但是这种情况比较罕见。事实上,我认为大家都高估了数据科学与开发运维之间的重叠度。
?
我们反过来看,你是否认为开发运维工程师能够设计新的模型体系结构,或者拥有大量调整超参数的经验?可能那些具备了数据科学知识,而且愿意学习一切的开发运维工程师确实能够胜任这些工作,但是将这些工作视为开发运维团队的职责就很奇怪了。
?
将心比心,数据科学家也不应该操心自动伸缩或编写Kubernetes清单文件的工作。那么为什么各个公司会这样要求他们呢?
?

各个公司忽视了基础设施的工作
?
许多组织对于模型服务的复杂程度存在根本的误解。通常他们的态度是“利用Flask打包一下模型就足够了。”
?
然而现实情况是,无论规模如何,任何模型服务都涉及一系列基础设施的难题。例如:
?
如何在保证不停机的情况下,自动更新生产中的模型? 如何有效地自动伸缩一个在GPU上运行的5GB模型? 如何监视和调试生产部署? 如何在控制云消费的情况下,完成所有的工作?

模型:经过训练的模型,即便是没有数据科学专业知识的工程师也可以使用predict()函数。 API:基础设施层接受训练好的模型,然后部署为Web服务。我们构建了Cortex来自动化这一层的工作。 客户端:实际与部署在API层中的Web服务交互的应用程序。

更多精彩推荐
?航拍高手、吉他十级,6500+Star 开源项目作者,后浪程序员给力!
?面试官:你的 SQL 一般有几个 join?| 原力计划
?好扑科技结合区块链行业发展趋势,重磅推出“好扑区块链合伙人”计划
点击阅读原文,精彩继续。
你点的每个“在看”,我都认真当成了喜欢
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 为未成年人健康成长营造良好环境 7904701
- 2 卖国弃民!高市早苗国会现场遭痛斥 7809324
- 3 飞机凌晨在兰州上空盘旋 轰鸣数小时 7712853
- 4 中国玩具“玩转”全球大市场 7619020
- 5 独居女子离世 无法用遗产购买墓地 7523912
- 6 海清和朱亚文有新身份 7429074
- 7 老师群内发言希望学生“全都甲流” 7333017
- 8 菲方人员持刀威胁中国海警画面公开 7235748
- 9 柬军士兵猛烈扫射 一只鸡意外抢镜 7141908
- 10 全球航司为何排队来这里修飞机 7044487








CSDN
