在野外多线程

Stefan Krawczyk,Neelesh Salian和Elijah Ben Izzy
- 旧金山,加利福尼亚州

你好缝合修理manbetx万博体育app 官方下载粉丝,退房在5月份的那个月的缝纫机在哪里。

虚拟的

Stefan Krawczyk., 会在Kafka Summit Europe 20215月12日呈现使数据科学家能够轻松创建和拥有Kafka消费者

描述:

在针线manbetx万博体育app 官方下载修复程序,我们聘请全堆栈数据科学家(145 +)并期望他们执行各种功能:从概念到建模到实现测量。由于Kafka是我们获得事件数据的方式,这不可避免地意味着数据科学家如果他们要完成其实施工作,则需要编写Kafka消费者。例如。to transform some client data into features, or perform a model prediction, or allocate someone to an A/B test, etc. In this talk I’ll go over how we built an opinionated Kafka client to easily enable Data Scientists to deploy and own production Kafka consumers, by focusing on writing python functions rather than fighting pitfalls with Kafka.

新泽西州萨尔瑞人, 会在数据和AI峰会5月27日呈现模块化ETL写作与Apache Spark

描述:

Apache Spark一直是针迹修复的计算基础架构的一个组成部分。manbetx万博体育app 官方下载在过去的五年中,它已成为大多数ETL和大量数据处理需求的事实标准,并扩展了我们在数据仓库中的能力。由于我们对数据仓库的所有写入都通过Apache Spark,因此我们利用它来添加更多的模块来补充ETL写入。配置驱动和有目的地,这些模块将任务执行到目的地Hive表的Spark DataFrame上。这些被组织为在写入表格之前Apache Spark DataFrame上的一系列转换。这些包括新闻稿的过程。它是一个有助于维护与我们业务不同部分相关的可变数据的非重复历史记录。数据质量,另一个这样的模块,使用Apache Spark启用。使用Apache Spark我们计算度量标准并具有相邻的服务,以帮助在传入数据上的表格运行质量测试。最后,我们根据提供的配置清洁数据,验证和写入仓库中的数据。我们在数据仓库中拥有内部版本控制策略,允许我们了解表的新数据与旧数据之间的区别。 Having these modules at the time of writing data allows cleaning, validation and testing of data prior to entering the Data Warehouse thus relieving us, programmatically, of most of the data problems. This talk focuses on ETL writing in Stitch Fix and describes these modules that help our Data Scientists on a daily basis.

Elijah Ben Izzy,也会在数据和AI峰会5月28日呈现函数,上下文和数据 - 在针迹修复上为简单的ML OPS构建抽象manbetx万博体育app 官方下载

描述:

自主权和所有权是在针脚修复上工作的核心,特别是在算法团队上。manbetx万博体育app 官方下载我们使数据科学家独立地部署和运行其模型,并且需要切换或遵守的最小需求。通过编写一个简单的功能并呼唤直观的API,数据科学家可以利用一套平台提供的工具,意味着简单地制作ML操作。在这次谈话中,我们将潜入数据平台团队建立的抽象中。我们将覆盖界面数据科学家使用,用于指定模型以及挂钩的内容,包括在线部署,在火花上执行批量执行以及度量标准跟踪和可视化。

务必在这些事件中抓住我们:)

这篇文章! 帖子在linkedin
多线程

来吧我们!

我们是一支多元化的团队,致力于建立伟大的产品,我们喜欢你的帮助。你想用惊人的同伴建造惊人的产品吗?加入我们!