仔细编写博客文章

算法团队的博客文章

将你的业务带到新的(帕累托)前沿

一个上下文多目标多武装的强盗框架,允许我们量化和导航业务权衡。

在野外多线程

看看四月里谁还在野外。

移动缓慢并制作东西

我们从我们的算法的快速开发和迭代转移到较慢,更加手动制作的方法。

我们模型中的错误

预测可以从可观察到的外源变量中受益,如行星和星星的相对位置。

反事实的适形推理与个体治疗效果

Algo小时,2月16日,2021年 - 以利瓦雷为特色!

在野外多线程

在3月份,看看谁在野外。

机器学习和优化的几何方法|Melanie Weber.

Algo Hour, 2020年1月26日- Melanie Weber主演!

在绑架设计|艺术欧文

Algo小时,1月26日,2020 - 以艺术欧文为特色!

积极有用的平台团队

针迹如何修复数据manbetx万博体育app 官方下载平台团队,积极地在新用户船上,为什么我们建造的中断技术是必要的,以及如何效仿。

《公共算法时间》,2021年2月16日-反事实的适形推理和个体治疗效果|雷丽华博士

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2月16日,2021年下午2:00 PST,包括Lihua Lei博士!

算法如何帮助转换CX业务模式

在大多数企业中,客户经验(CX)组织被视为成本中心。在针迹manbetx万博体育app 官方下载修复时,我们正在使用算法来帮助将此概念转动在其头上。

公开算法时间,2021年2月2日-机器学习和优化的几何方法

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2月2日,2021年下午2:00 PST,特色Melanie Weber!

公共Algo Hour, 2021年1月26日- | Art Owen的平局设计

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2021年1月26日,PM PST凌晨2:00,特色欧文艺术!

ALGO小时 - ML + UX:为人们建造ML产品|米歇尔卡尼

Algo Hour, 2020年12月15日-米歇尔·卡尼主演!

ALGO小时 - 利用来自在线零售市场的赞助广告信息|费施长

Algo小时,12月8日2020年 - 以FEI LONG为特色!

在这个季节……贝叶斯!

时间序列推理的贝叶斯假日建模

公共ALGO小时,12月15日,2020 - ML + UX:为人们建造ML产品|米歇尔卡尼

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2020年12月15日在PV下午2:00,包括米歇尔卡尼!

公共Algo小时,2020年12月8日 - 利用来自在线零售市场的赞助广告信息|费施长

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2020年12月8日下午2:00 PST,特色Fei Long!

资源限制的实验

在实验方面,不同的商业模式面临着独特的挑战,要求超出简单随机控制试验的思考,以便为公司的成功提供关键的决策。在针脚manbetx万博体育app 官方下载上,我们也不例外。库存约束在不同实验变化下的观察结果之间产生不期望的联系。要处理此操作,我们使用虚拟仓库几乎跨实验的变体拆分库存。此外,虚拟仓库还可以轻松实现经验测试不同的库存管理策略。

在野外多线程

在11月份看到谁在野外。

2020夏季实习生项目

我们的2020年夏季实习生所做的项目和研究领域的采样。

这是什么颜色?第2部分

有关我们用于检测我们的物品颜色的算法的更多信息

是什么造就了一个好的评估者?

是什么造就了一个好的评估者?什么是估算者?我为什么要在乎?

ALGO小时 - 现代时间序列分析Stumpy |肖恩法

Algo小时,92日,2020年9月22日 - 以Sean Law为特色!

公共ALGO小时,92日,2020年9月22日 - 现代时间序列分析与Stumby |肖恩法

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;9月22日,2020年下午2:00 PST,包括Sean Law!

这是什么颜色?

我们需要知道我们的Merch是什么颜色。但由于下游用户包括许多不同的人和算法,我们需要将颜色描述为层次结构,而不仅仅是一个标签。

Algo Hour - NLP将成为十年来最具变革性的技术!|克莱门特Delangue

Algo-Hour;2020年7月28日下午2:00太平洋标准时间,Clément Delangue!

多武装土匪和缝补实验平台manbetx万博体育app 官方下载

我们最近建立了对缝合修复实验平台的多武装匪的支持。manbetx万博体育app 官方下载这篇文章将解释如何以及原因。

公共算法时间- Clément Delangue和拥抱脸NLP

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2020年7月28日下午2:00太平洋标准时间,Clément Delangue!

大规模实验

运行实验时,在运行机会成本

ALGO小时 - 最近的邻居血统(和朋友)|李兰博士麦克尼恩斯博士

Algo-Hour;2020年5月19日下午2:00太平洋标准时间,由Leland McInnes主持!

一张图片值1,000错误正面错误报告

我们如何以及为什么为仓库采摘路径的可视化调试为什么构建了自定义应用程序。

一个公开研讨会系列从Stitch修复算法-算法小时manbetx万博体育app 官方下载

加入缝合FIX算法manbetx万博体育app 官方下载团队为Algo-Hourgo;2020年5月19日下午2:00太平洋标准时间,由Leland McInnes主持!

蜂巢的超转移-记录你的记录

Hive Meta Metastore是我们恢复机制的一部分,一旦我们建造它,我们也意识到它也有其他好处。...即使您没有蜂巢转移,我们希望您考虑一般建立自助恢复工具的好处。

介绍我们的培养算法可视化

今天我们正在推出新的交互式可视化。本篇文章介绍了允许算法能力,如旅游(和许多其他人)中描绘的那些算法的组织结构,角色和进程。

在野外多线程

在3月份,看看谁在野外。

在野外多线程

在二月的月份,看看谁在野外。

在野外多线程

在1月份,看看谁在野外。

想要做出良好的商业决策吗?学习因果关系

在某些组织中,认真努力成为“数据驱动”的文化,其中指标的影响不是通过他们的可靠性而决定,而是通过他们的丰富和他们挥之不去的信心。

NewsVendor问题 - 教科书中第一个公式的故事

新闻国模型的介绍与目标跨职能的挑战探讨。

2019年暑期实习项目

我们2019年暑期实习生所做的项目和研究领域的抽样。

在针迹修复的算法团队中的许多道路manbetx万博体育app 官方下载

我们所处理的问题的多样性,以及我们业务中数据丰富的环境,使我们有可能,甚至有必要使用多种学科的工具来处理我们最困难的问题。

超越确定性优化:面对不确定性作出决定

随机编程在面对不确定性方面实现了最佳决策。

建立我们的集中实验平台

运行A / B测试很容易。拧紧A / B测试甚至更容易。

从数据驱动到AI驱动:业务工作流程演变的下一步

在我们的工作流中拥抱AI提供了更好地处理结构化数据,并允许人类以互补的方式贡献。

给我牛仔裤不是鞋子:伯特如何帮助我们提供客户想要的东西

“给我牛仔裤而不是鞋子。”这看起来像是一个简单的请求,但是当我们用我们的人类大脑处理那一点文本时,我们需要很多才能理所当然。

拟像与选择

你能从10000件不同的物品中制作出多少套5个的物品?回想一下关于排列和组合的那一章……

可维护的etl:使管道更容易支持和扩展的技巧

此帖子提供了实用建议,可以帮助您的ETL管道更容易调试,维护和扩展。

患有非劣势复杂?

如果你不需要版本B比版本A更好呢?

数据访谈的大师:更好地在一起,人类和机器的未来

听取数据播客的大师,其中包含Brad Klingenberg。听到它喜欢在针脚固定的算法团队上工作以及如何结合人类和机器可以代表工作的未来。manbetx万博体育app 官方下载

谨防数据科学PIN厂:全堆叠数据科学通用的力量和通过功能划分的跨部门的危险

这篇文章讨论了全堆叠数据科学通用在狭窄的功能专家上的好处。后来将帮助您执行并带来流程效率。但是,前者将帮助您学习,创新,并带来价值的一步变化 - 这是数据科学的作用。

让好奇心驱动:培养数据科学的创新

如何创建一个环境,以赋予您的数据科学家来提出您从未梦寐以求的想法。

你的客户参与项目并没有做你认为的那样。

此帖子探讨了多臂和上下文匪徒作为构建外联和客户订婚计划的框架。

把卡夫卡的力量交给数据科学家

针对针对manbetx万博体育app 官方下载其数据科学家的需求,如何设计和建立可扩展,集中式和自助式数据集成平台的缝线。

联觉:风格之声

如果我们可以为衣服的物品分配声音,那么修复声音是什么样的?

了解潜在风格

这篇文章探讨了矩阵分解的使用,不仅是为了提供建议,也是为了更广泛地理解风格偏好。

在你的工具带中添加约束优化

这篇文章是对受限制优化的介绍,针对数据科学家和开发人员流利的Python,但没有任何操作研究或应用数学。我们将展示如何在针迹修复上应用优化建模。manbetx万博体育app 官方下载在本文结束时,您应该能够开始建模您自己的业务问题。

关于权力的两件事

实验者注意:运行低功率风险的测试远远超过缺少真正效果的检测。

拉链和分离器:分类学中的紧张局势

随着数据科学家任务的,我们发现自己在与物种分类家的同一条船上,跨越了将独一体之间的线路跨越宽组,分成小部分。绘制边界的方法需要考虑数据的信号,同时保持对项目需求的敏锐。绝地和分裂之间的平衡使我们能够通过我们拥有的资源来制作最好的数据驱动的决策......

数据科学家需要了解容器化的是什么?尽可能少。

数据科学家并不总是具备将健壮代码部署到生产作业执行和调度系统所需的工程技能。然而,强制依赖数据平台工程师将阻碍科学家的自主权。要是有别的办法就好了。所以今天,我们很兴奋地介绍Flotilla,我们最新的开源项目……

FAST公司2018年世界上最具创新性的公司名单

哇!我们很荣幸被排名第13FAST公司最具创新性的公司列表.我们很高兴能获得第一名快速公司的数据科学列表

看到数据科学成为战略分化的主要手段,真的很满意......

sat教会了我们如何找到完美的伴侣

在Stitchmanbetx万博体育app 官方下载 Fix Algorithms团队中,我们一直对专业造型师能够做的事情感到敬畏,特别是当涉及到知道客户的尺寸时。走进一家西装店,让专业的购物助理在不给你量尺码的情况下打量你,这是一种神奇的体验。然后拿出一件合身的夹克,说:“你可能有38岁了,让我们试试这件。”虽然这种体验在传统电子商务中是不可能的,但在Stitch Fix,我们正在让它成为现实。manbetx万博体育app 官方下载

字张于

计数和张量分解是优雅且直接的技术。但这些方法在商业环境中非常欠效。在这篇文章中,我们将由在文档中发生的单词跳板组成的示例,以同时到达Word和文档向量。这种分析是有效,简单,并产生强大的概念。

停止使用word2vec.

当我四年前开始使用Word2vec时,我需要(幸运的是)大量超级计算机时间。但由于我们对Word2VEC的理解进行了进展,计算字向量现在以标准数值库的单个铣削计算机上的三十分钟内需要十五分钟1.词向量是太棒了但你不需要一个神经网络 - 并且绝对不需要深入学习 - 找到它们。所以,如果你使用字向量,并没有针对艺术状态或纸张出版物停止使用word2vec。

NBA季节开球

今天是2017-2018 NBA季节的开始。篮球统计数据已成为一个丰富和有趣的研究领域,为拥抱这种经验主义的团队带来新的见解和优势。当然,用于研究篮球的框架和分析技术是概括 - 他们还向业务或其他域中的问题提供了直觉(反之亦然)。因此,对于所有的篮球统计数据讨论,以及那些正在寻求对自己的分析挑战的灵感的人,我们认为我们与我们过去的篮球相关职位分享了一份纲要。

与时间有关的分类

在这篇文章中,我们将看看我们如何用非恒定,时变系数模拟分类预测。有很多方法可以处理时间依赖,包括贝叶斯动态模型(AKA“状态空间”模型)和随机效果模型。每种类型的模型都捕获了不同角度的时间依赖性;我们将保持简单,并查看在正则化框架内定义的时变的逻辑回归。我们发现它非常直观,易于实现,并使用此模型观察到良好的性能。

仓库地图,电影建议和结构生物学之间的奇怪连接

在Stitch manbetx万博体育app 官方下载Fix,我们致力于数据科学的许多有趣的领域。其中一项不寻常的工作是绘制地图,特别是仓库的内部布局。这些地图对于模拟和优化操作过程非常有用。在这篇文章中,我们将探讨如何结合来自推荐系统和结构生物学的想法来自动绘制布局并跟踪它们的变化。

数据科学实习生2017

今年夏天我们的社区包括四个实习生,所有关于应用学术专业知识的研究生,以帮助我们利用我们丰富的数据,以更好地了解我们的客户,他们的偏好和行业的新趋势。在这个博客文章中,您将达到实习生,谁会告诉您他们工作的问题以及他们用于解决它们的策略。

在一个盒子里的Genie:使Spark容易针对缝线修复数据科学家manbetx万博体育app 官方下载

manbetx万博体育app 官方下载缝线是一个渴望帮助你找到你喜欢的风格的数据科学公司。数据科学有助于我们大部分业务和战略决策。

钻石第二部分

宣布Diamond,一个解决混合效应模型的开源项目

钻石部分I.

有效解决混合效果模型:钻石后面的数学

NodeBook.

分析应该是可重复的。这是没有争议的,但不可复制的分析无处不在。我确实创造了很多。尽管出发点是好的,为什么会发生这种情况?因为,在短期内,不去担心重现性更容易也更有利。但这与其说是道德上的失败,不如说是我们工具的失败。工具可以,也应该让可重复分析成为一件自然的事情。作为鼓励重现性的一步,这篇文章介绍了Nodebook,一个对木星笔记本的扩展。

库存时间机器

作为一家以数据驱动为傲的实体商品公司,Stitch Fix在库存管理方面投入了大量精力。manbetx万博体育app 官方下载库存历史服务Tracer是我们正在构建的一个新项目,通过在任何给定时间点提供精确的库存状态,实现更细粒度的分析……

这个奇怪的技巧将简化您的ETL工作流程

在这篇文章中,旨在宁愿花时间写作Python的SQL从业者,我们将展示Web开发工具如何帮助您的ETL保持干燥。

更聪明。是seetd。

如何组织一个办公室,所以每个人都有舒适和富有成效的是讨论的主题。一个共同的战略是他们的团队或小组成员座位的人。我们一直雇用的另一种策略是随机分配人。建立这些经验,我们开发了一个新的座位分配工具“SEETD”,允许我们将其框架作为优化问题。我们现在可以客观地结合这些和其他方法。

制作中的R:有龙!

R是一个很棒的交互式数据科学工具,但它有一些默认设置,让我们担心在生产管道中使用它。

叙事谬论的幸福无知

我们有一个天生和无法控制的冲动来解释事物 - 即使没有什么可解释的。这篇文章探讨了我们为什么倾向于叙事谬误。我们从体育历史的史诗时刻开始,Steph·Curry在游戏中为大多数3个指针打破了记录,并得出了更好地决策的结论。

建立一个反应的数据探索工具

Dora帮助数据科学家在Stitch Fix可视化地探索他们manbetx万博体育app 官方下载的数据。在React和Elasticsearch的支持下,它为数据科学家提供了一个直观的UI来利用Elasticsearch的强大功能。

旅游制作,第3部分:微动画

在我们的制作系列的最后一部分中,我们将看到一些有趣和随机的内容。

旅游制作,第2部分:模拟

在这篇文章中,我们将讨论一些模拟驱动的动画,提供一些你可以使用的清理后的代码,并讨论这些动画的起源和用于可视化抽象系统和算法,或用于可视化真实的历史数据和预测的未来。

旅游制作,第1部分:流程和结构

本月早些时候,我们发布了一个互动动画,描述了数据科学是如何融入Stitch Fix: our架构的manbetx万博体育app 官方下载算法之旅.让人们对它的回应更有趣,这是很有趣。对于那些对我们如何做到的人,我们认为我们会快速浏览这个旅游所在的内容。

数据驱动时装设计的逆向

去年夏天,我们写了一篇关于Stitch Fix在数据驱动manbetx万博体育app 官方下载时尚设计方面的早期实验。从那以后,我们一直在研究、开发和测试新的方法来制作让客户满意的衣服。《华尔街日报》(The Wall Street Journal)昨天发表了一篇文章,介绍了其中一些工作。作为对这篇文章的补充,我们想强调一些我们最近探索的途径。

巡回算法寓言寓言

数据科学是如何融入Stitch Fix的。manbetx万博体育app 官方下载在本次互动之旅中,我们将分享10个“故事”,讲述数据科学是如何融入我们的运营和产品的。

外产上的亲密关系与时尚趋势

乍一看,太阳系外的行星(从今以后是系外行星)和时尚趋势之间的差异似乎是巨大的,但我们所有的数学爱好者都知道,完全不同的现象可以有几乎相同的数学描述。在这种非常特殊的情况下,系外系统和某些时尚趋势可以被描述为具有周期性,具有周期性的大小重复,这将允许我们使用非常相似的技术来研究它们。

我的时间序列有什么问题

时间序列建模坐在关键业务运营的核心,如供需预测和欺诈和异常检测等快速响应算法。小错误可能是昂贵的,因此知道对不同错误源的期望是什么很重要。在这篇文章中,我将通过替代战略来了解时间序列中的误差源和幅度。

扩展数据科学:
从# DDTX17幻灯片

对于那些参加了我上周在奥斯汀的德克萨斯数据日的演讲的人来说,你们听到了我谈论的Stitch Fix是如何减少争用的:访问数据和访问临时计算资源;manbetx万博体育app 官方下载帮助扩大数据科学的规模。根据与会者的要求,我在这里发布了我的幻灯片,你可以找到一个链接……

更新:错误的正确次数

总统选举的结果清楚地表明,Fivethirtyeight的模型更接近真理,而不是普林斯顿选举联盟的真实性,而不是在预测中的不确定性水平 - 但不是尽可能多地思考。我定量考虑这个问题:赋予状态逐个结果的一个或另一个模型是什么?

我宁愿预测比选举的篮球比赛:弹性NBA排名

当唐纳德·特朗普(Donald Trump)赢得2016年总统大选时,政治派别的双方都感到惊讶。预测模型没有预见到它的到来,而Nate Silver的世界也因此受到了一些指责(尽管Nate Silver自己也很接近)。在此之后,很多人可能会同意,世界不需要另一个统计预测模型。

那么,如果我们应该在预测模型上转过身来?不,我们只需要修改我们的期望。乔治盒曾提醒我们,统计模型是最有用的*现实世界的近似值*。随着最近的数据科学和“金钱球”的炒作,这一点往往被忽视。

80岁生日快乐到图灵机!

在1936年的这一天,Alan TING在伦敦数学社会之前站在伦敦数学社会之前,并在一个“在可计算数字上的纸上递送了一个题为ChoptaiDungsProblus的文件”,其中他描述了他称之为“通用计算引擎”的抽象数学装置后来会被称为图灵机。作为针线修manbetx万博体育app 官方下载复致敬,我们融合了一个图灵机和1936台歌手缝纫机。

正确的次数是错误的

更新,2016年12月12日:有一个跟进帖子讨论选举结果已知后所有这些的结果。

趋势报告我:劳动节之后白色

格子是秋天的;情人节红色;劳动节之后没有白色。这些都是我们之前听到的时尚谚语 - 即使约翰奥利弗促进了。但他们是如何真实的?缝合修复manbetx万博体育app 官方下载算法团队在一个独特的位置,首次定量回答这些问题。鉴于本赛季,我们决定首先看看“劳动节之后的白色”索赔。它有多真实?

照片基衣物测量

数据科学不使用数据但具有问题。并且有时让回答这些问题所需的数据需要一些聪明才智。

在AWS上采用不可变服务器模式部署

在针对拼写修复的算法团队中,我们的目标是让每个人都拥manbetx万博体育app 官方下载有自己的自主权并部署他们写的所有代码,何时何地以及它们想要的方式。这是具有挑战性的,因为世卫组织为谁写了微观服务,涵盖了广泛的用例 - 从写作服务与工程应用相结合,例如,服务样式建议,编写消耗和显示数据的仪表板,以编写内部服务以帮助制作所有此功能。在查看许多部署管道选项后,我们在实现不变的服务器模式时结算。

构建可扩展的自助服务数据管道(第1部分)

数据被缝合为缝合的第一类公民。manbetx万博体育app 官方下载为了为用于造型的复杂机器学习算法,库存管理,修复调度和许多其他智能服务,具有可扩展数据流水线实现至关重要。该管道必须有效地消耗和移动数据,并提供低延迟,高可用性和可见性。

Stitch Fix的季节性趋势manbetx万博体育app 官方下载

在Stmanbetx万博体育app 官方下载itch Fix,我们构建工具,帮助我们取悦我们的客户,这包括执行深思熟虑的研究,使这些工具。一个很好的例子就是我们如何研究识别时间趋势的方法。考虑季节性,它描述了我们客户的偏好在一年内如何变化的周期性模式。确定季节趋势需要时间序列分析和机器学习的混合,这是具有挑战性的,但对时尚零售组织至关重要。

不要太舒服

想要坐在我们最多的人旁边是很自然的。这样做使配对编码更容易,促进无论如何需要发生的对话,并且 - 一般 - 促进一定的效率。

但是有一个替代的观点,但是:如果没有经常在一起工作的人坐在一起,那么就不会发生谈话。

在野外多线程

我们的分析和算法团队的成员已经出来了,这个月,来听听我们的演讲吧!

天网推销员

在Stitch manbetx万博体育app 官方下载Fix,我们致力于解决各种各样的数据科学问题。我们高度参与的一个领域是运营。操作涉及范围广泛的问题,包括优化运输、将物品分配到仓库、协调流程以确保我们的产品准时到达,或者优化仓库的内部工作。

数据驱动的时装设计

Stitch Fix的核心方法是将机器的建议manbetx万博体育app 官方下载与专家的判断相结合。我们的机器通过在结构化数据上操作的算法产生推荐,而我们的造型师则根据尚未在我们的数据集中反映出来的非结构化数据和知识(如新时尚趋势)来策划和修改这些推荐。这有助于我们选择最好的5项项目,以提供给每个客户在每个修复。这一策略在我们的造型组织中的成功促使我们考虑如何在时尚领域将机器和人类结合在一起设计.在这篇文章中,我们描述了这样一个系统的一个实现。特别是,我们探讨如何在目标客户端部门和季节实现系统。

在野外多线程

我们的分析和算法团队的成员已经出来了,这个月,来听听我们的演讲吧!

更多人类:一种方式可以通过将任务加入机器来更好地实现我们的生活。

机器将接管世界,并在没有工作的情况下留下我们人类。这是关于人工智能(AI)主题主流商业书籍的MEME。这是可以理解的,因为机器可以比人类更好的事情增加:诊断医疗条件,分析法律文件,使假释决定,命名为一些。但是做得更好的事情并不一定会使机器成为人类的替代品。如果机器和人类每个人都有不同的贡献能力,那么有机会将其独特的人才结合起来产生比任何一个人可以自己实现的结果更好的结果。这不仅可以改变我们的工作方式,还具有真正的潜力,而且还有如何理解我们的人类经验。

所有数据的好书

在Stitch Fix与不同的数据科学家和数据工程师一起工作的最大好处之一是,我们可以从我们的同行那里学到很多东西。manbetx万博体育app 官方下载通常这意味着在具体问题上从常驻专家那里得到特别的帮助。但这也意味着获得建议,如何最好地填补我们自己的技能或知识库的空白,或者只是在我们的业余时间探索什么有趣的数据科学材料。我们的博客文章通常强调前者;这篇文章涉及了后者。

介绍我们的Hybrid LDA2Vec算法

LDA2VEC的目标是为人类(不是机器!)制造有用的文本,同时仍然保持模型来修改。它学会了强大的词表示Word2vec.同时共同构建人类可意识形态乔治。文档表示。

实时事件可视化

美丽的数据可视化揭示了只有数字无法辨别的故事。使用可视化,我们可以获得数据的规模,速度,方向和趋势。此外,我们可以引起观众的注意 - 任何成功呈现的关键 - 以干燥的表格不可能。虽然新的在线注册的表格视图是通知跟踪的,但动态地图将提供更加迷人的视图,并揭示表格不能的维度。

不好意思,ARIMA,我要去贝叶斯

当人们想到“数据科学”时,他们可能会想到扫描大型数据集以预测客户下一步行动或解释非结构化文本的算法。但是,那些利用小的、带有时间戳的数据集来预测需求和销售等枯燥指标的模型呢?是的,我说的是古老的时间序列分析,这是一门古老的学科,它还没有得到其他分析领域喜欢的“数据科学”的重新命名。

浏览器中的思想实验

作为数据科学家,我们与一个组织的其他成员一起工作,以实现更好的决定。这通常涉及在历史数据中寻找趋势和异常,以引导未来的行动。但在某些情况下,决策的最佳援助较少关于在数据中找到“答案”,更多地了解对对潜在问题的更深入了解。在此帖子中,我们将重点侧重于代理基于代理的模型的交互式模拟。

机器学习启动人类训练

manbetx万博体育app 官方下载在我们的造型过程中,Stitch Fix为人类专家和计算机算法的输入值。作为我们之前指出了在美国,这种方法有很多好处,所以越来越多的技术(比如特斯拉的自动驾驶汽车、Facebook的聊天机器人和Wise)出现也就不足为奇了。Io的增强客户服务)也将计算机和人类劳动力结合起来。人们对如何优化这种混合算法的兴趣一直在上升。在Stmanbetx万博体育app 官方下载itch Fix,我们意识到训练有素的人类和训练有素的机器一样重要。

评估零假设 - 一个元分析(4月1日的Ruminations)

作为统计学家和数据科学家,我们经常出发来测试零假设。我们获取一些数据,应用一些统计测试,看看p值是什么。如果我们发现一个足够低的p值,我们拒绝零假设,通常称为\(h_0 \)。

缝线修复的数据科学manbetx万博体育app 官方下载

在过去的几年里,针脚修复已经大放大了一支令人印象深刻的数据科学manbetx万博体育app 官方下载团队。该团队已成长为65人,与业务的所有领域合作,并拥有众所周受的数据科学博客加上几个开源贡献。

作为本队以来的成员,自2014年末以来,在此之前已经花了15年的人,我经常反映出数据科学团队如何在缝线修复到这一点。manbetx万博体育app 官方下载它是否归因于我们的商业模式?或者,缝线修复manbetx万博体育app 官方下载在成长和管理其数据科学团队方面的不同之处不同?

简而言之,商业模式确实为数据科学提供了一个肥沃的环境。然而,还有更深层的原因:Stitch Fix管理和建立数据科学团队的方法在很多方面都是独一无二的。manbetx万博体育app 官方下载事实上,它揭穿了我在加入团队之前对管理和增长的许多信念。

尽管机器接管了世界,但人类仍然证明了很有用

我们现在依靠算法告诉我们要观看的电影,猫粮买什么,我们甚至开始让他们开车。也就是说,在周六晚上为您的日期挑出一件连衣裙的算法仍然有点奇怪,或者为您最好的朋友的婚礼提供完美的领带。简单的事实是,这些日子可以做很多东西,但是当他们的能力继续发展时,人类仍然有很多东西做得更好。

用经验证明的解释揭穿叙述谬误

当我们在商业指标中经历波动时,我们倾向于掌握解释。我们落在可用性偏见,并且更快的解释更快的内容或直观的解释。‘The cool weather is dissuading customers’, ‘customers are happier on Fridays because the weekend is coming’, ‘people are concerned with the economic downturn’, ‘competitor xyz is making a lot of noise in the market which is diluting our messaging’, … etc. The list goes on and on.

工程师不应该写ETL:建立高功能数据科学部的指南

“你的团队和数据科学家之间是什么关系?”毫无疑问,这是我在面试数据平台工程师时最常被问到的问题。这是一个很好的问题——考虑到数据领域的工程工作的现状,作为评估新机会的尽职调查的一部分,问这个问题是必要的。我总是很乐意回答。但我希望我不必这么做,因为这个问题是由怀疑和恐惧引发的。

我们能得到一个下载按钮吗?(Pyxley更新)

算法团队在针脚修复的各个方面都深入嵌入,提供了见解和建议,以帮助我们的业务合作伙伴制定数据驱动的决策。manbetx万博体育app 官方下载Pyxley诞生于不需要提供这些见解,而无需花费大量时间在前端设计上。使用Pyxley的原始计划是用一小部分简单的组件开始关闭,然后在为各种仪表板开发时添加新组件。不幸的是,该计划中有一个致命的缺陷:我们的团队喜欢桌子.可排序的表,有两个标题的表,甚至表中的表。因此,尽管已经构建了几个仪表板,但没有必要增加组件集。

后现代裁缝:超越标签的大小个性化

“你的尺寸是什么?”

今年的金州邮轮将巡航吗?

在9月回到2015-2016 NBA季节之前 - 我们写了一个帖子关于金州勇士队的标题是“人数的力量:为什么金州应该赢得总冠军”。邮报探讨了勇士队上个赛季是否幸运。他们是被自己的势头所支撑,还是被对方球队的伤病所帮助,还是他们仅仅拥有最好的篮球DNA?我们的结论是,金州勇士确实拥有最好的DNA,尽管如果乐福和欧文都很健康的话,与克利夫兰的最后一场系列赛将会非常接近。

纽约州vs. la:谁是他们的闪败所有?

涉及数据时,针脚修复及其客户具有共生关系。manbetx万博体育app 官方下载我们对客户在服装中偏好的更多信息,我们可以用与他们喜欢的衣服迎合他们的衣服越好。我们的客户了解这一点,又提供了高质量的定价反馈,颜色,风格,属性,避免,等等。

无监督计算机视觉:最先进的技术

计算机愿景领域正在迅速发展,特别是在无监督的深度学习领域。在过去的一年左右,已经开发出许多新的和激动人心的方法,以以自动方式代表和生成图像,但该领域正在发展如此迅速,以至于它可能很难跟踪所有这些方法。我最近在无监督的计算机视觉研究中与缝合修复的拼写修复了一项研究谈话。manbetx万博体育app 官方下载它绝不是全面的,但更多关于我认为的有趣方法的调查可能适用于我最近在努力工作的问题:一个解开潜在图像表示的水平如何脱颖而出?

Fontastic Voyage: Generative Fonts with Adversarial Networks

两周前埃里克·伯恩哈德森的店还很热闹博客帖子,他在超过50,000个字体上培训了AutoEncoder。结果很棒,如果你还没有看到它,请去检查出来.几个月前,我们发布了一个名为假设,在通过变化自动码下对图像进行无监督深度学习(v)。不到一周前,我们在卷积和对抗网络()增加能力。那么包装如何与Erik共享的字体数据集进行更新?

使因果影响分析变得容易

如果您曾在营销分析领域过时,则您已经分析了新的当地电视剧,主要事件,或新的当地竞争对手的出现存在因果影响。从分析的角度来看,这些类型的事件都有一个共同点:无法在个人客户级别跟踪的影响,因此我们必须使用市场水平使用时间序列分析来分析来自鸟瞰图的影响。数据科学可能会以快速的节奏变化,但这是一个旧学校用例,无论您是什么行业,仍然非常相关。

d3在jupyter.

Jupyter和D3都成为数据科学工具包中的主食:用于交互数据分析的Jupyter和交互式数据可视化的D3。最近有一个越来越多的各种选项,用于使用两个一起 - 例如MPLD3.散景情节和其他人 - 但这些工具通常专注于Python或R程序员的用例,他们宁愿不挖得太远的javascript,因此有点限制了D3可用的诸如巨大的灵活性。对于那些想要完整的可能性的人来说,还有另一种方法如下所示。一定要使用力量图!

Chainer介绍:Python中的神经网络

神经网络在统计建模领域提供了大量功能,从数据转换到分类和回归。遗憾的是,由于计算的复杂性和涉及的数据通常大小,所谓的训练深度学习模型已经历史上仅限于具有相当多的计算资源的模型。然而,随着GPU计算的进步,现在大量易于使用的框架,培训这种网络都可以对Python和个人计算机的简单知识完全访问任何人。在这篇文章中,我们将使用一个名为的异常可读的框架来完成Python中的第一个神经网络的过程龙头.您可以通过这里或通过本教程遵循这篇文章Jupyter笔记本

在Cran上忍受你的困境 - 只有莎士比亚所知的r

当我们的贝特斯看到我们的困境时,
我们很少把自己的痛苦当成敌人。
李尔王

人数优势:为什么金州勇士应该赢得一切

黄金州勇士去年赢得了NBA决赛,并发布了常规赛的最佳纪录。然而,有些人认为他们的成功是基于运气的,并且演奏“小球”是一个只在常规赛中工作的食谱。

多假设检测

近年来,对假设检测有很多关注,所谓的注意事项“p-hacking”或滥用统计方法以获得更多“重大”的结果。正确的是:例如,我们花费数百万美元的医学研究,我们不想浪费我们的时间和金钱,追求由片状统计造成的虚假引导。但即使我们的所有假设都得到满足,我们的数据收集完美无瑕,它并不总是容易获得统计数据;我们需要了解很少的微妙之处。

数据科学的线性模型导论

数据科学是一个新的领域,它并不总是显而易见的是使一个良好的数据科学家。他们应该知道什么?工具,框架和技术始终变化。在这个转移景观中,数据科学家可以通过掌握来自应用统计数据的最有用工具之一来区分自己:线性建模。上周我谈到了最新课程的研究员洞察力你们可以找到我演讲的幻灯片这里

Spark为数据科学家提供快速开发和性能

Spark是一个集群计算框架,可以显著提高数据科学家在处理分布式数据时的工作效率和能力。然而,要决定它的众多模块、特性和选项中哪个适合某个给定的问题是很麻烦的。我们在Stitch Fix的经验表明manbetx万博体育app 官方下载,这些决策对开发时间和性能有很大的影响。这篇文章将讨论数据处理工作流每个阶段的策略,新加入Spark的数据科学家应该考虑在大数据上采用高生产率的开发。

量化我从学术界到数据科学的过渡

当我从神经科学的博士后职位转到Stitch Fix的数据科学职位时,我希望能做更多作为一名科学家我最喜欢的事情:协作数据驱动的发现。manbetx万博体育app 官方下载这就是我得到的结果,我有数据可以证明。

深度风格:通过推测未知来预测时尚的未来

在缝线修复,我们manbetx万博体育app 官方下载一直在寻找提高客户体验的新方法。在算法方面,这意味着帮助我们的造型师通过强大的推荐系统更好地修复。考虑到这一点,更好的建议的一条路径涉及创建自动化过程,以了解和量化我们在基本级别的库存和客户的风格。很少有人怀疑时尚主要是一种视觉艺术形式,因此为了实现这一目标,我们必须首先开发一种方法来解释服装图像中的风格。在这篇文章中,我们将专门用于如何使用衣服照片来构建自动化过程,以量化我们集合中的一些物品的风格。然后我们将使用这种风格的模型来制作新的计算机生成的衣服,就像右边的图像一样。

manbetx万博体育app 官方下载SXSW的缝合修复算法

2016年3月,SXSW将举办互动节在奥斯汀,德克萨斯州。该节日的重点是前沿技术和数字创意的意识份额,人们可以从中看到未来提供的微光。埃里克·科尔森(Eric Colson)和伊莱·布雷斯特(Eli Bressert)都计划出席会议,讨论用数据分析改变行业,以及机器如何影响艺术。法官们正在考虑谈判,直到9月4日,届时公众投票将占他们考虑的30%。

基于证据权重和信息价值的数据探索

二进制分类模型可能是预测分析中最常见的用例。原因是,许多各行业的许多关键客户行动都是二进制的,如借贷违约,点击广告或终止订阅。

GAM:预测建模银弹

想象一下你踏入数据库学者的房间;着装代码是随意的,强大的咖啡的气味悬挂在空中。如果他们定期使用广义添加剂模型(GAM),请询问数据科学家。很少有人会说是的,如果有的话。

Pyxley: Python动力仪表板

图像

从混合效果模型中学习其他人的经验

在缝线manbetx万博体育app 官方下载修复中,我们有许多问题沸腾,以找到两套物品之间的最佳匹配。我们的推荐算法在我们的造型师的专家判决的帮助下与客户匹配。我们还将这些造型师与客户匹配。该博客文章是关于一些经典统计模型的显着用应用于这些和类似的问题,具有重复测量。

个性化超出了没有回报的观点

有一个指挥官的旧故事,他在对他的对手的海滩上着陆时,命令“烧毁船”,以便他的勇士们没有其他选择,而是为了胜利。强加的约束提供了清晰度。缺乏回力机制和失败成本的高成本集中了一切努力。

最丰富多彩的状态

全年,人们穿不同类型的衣服。当我们从夏天和秋天过渡的时候,背心被毛衣取代了,当春天变成夏天的时候,裤子被短裤和裙子取代了。但是颜色呢?人们会穿不同的颜色来配合季节吗?根据我们的经验,我们会说是的。人们甚至可能会猜测,在冬天,相比阳光明媚的洛杉矶,人们更倾向于在纽约穿灰色/黑色的衣服。

那么,你需要一个统计上重要的样本吗?

虽然常用的短语,但没有像“统计学上有关的样本”这样的东西 - 这是可以在统计上显着的结果,而不是样品。除了需要采样的任何研究的情况下,缩小 - 例如,调查和A / B测试 - 确保我们有足够的数据来确保对结果的信心绝对是至关重要的。

manbetx万博体育app 官方下载缝线修复+ jupyter + github =令人敬畏!

在Stmanbetx万博体育app 官方下载itch Fix,我们是木星的热心用户,在个人和团队规模的研究。在个人层面上,Jupyter是一个很好的界面来研究手头的问题。它捕获了研究的工作流,我们可以在其中详细记录代码,并使用书面内容和数学方程解释模型。

关于数据科学家的建议

这是成为数据科学家的好时机。如果您有技能,经验,好奇心和激情,有一个广阔而接受的公司的公司可供选择。然而,在评估前瞻性公司作为应用您的才能的地方有很多值得考虑。即使退伍军人也可能没有机会体验不同的组织,成熟的阶段,文化,技术或领域。我们在这里融合了我们的综合体验,提供一些建议 - 在一家可以使其成为一个伟大的工作地点的公司来寻找三件事。

数据科学的语法

Python和R是数据科学家使用的流行编程语言。直到最近,我专门使用Python进行探索性数据分析,依赖于熊猫Seaborn用于数据操纵和可视化。但是,在看到我的同事后,r在r中做一些惊人的工作dplyrggplot2.在美国,我决定冒险一试,了解另一个世界是如何生活的。我发现用R比用Python更容易把我的想法转化成代码和漂亮的可视化效果。在这篇文章中,我将通过将R和Python解决方案与一些简单的数据探索练习进行比较和对比,阐述我切换团队的经验。

一个字胜过一千个向量

标准的自然语言处理(NLP)是一个凌乱和艰难的事件。它需要教授关于英语特定的单词歧义的计算机以及句子中单词的分层,稀疏性质。在缝合manbetx万博体育app 官方下载修复时,Word Vectors帮助计算机从客户票据中的原始文本中学习。Our systems, composed of machines and human experts, need to recommend the maternity line when she says she’s in her ‘third trimester’, identify a medical professional when she writes that she ‘used to wear scrubs to work’, and distill ‘taking a trip’ into a Fix for vacation clothing.

多线程数据-约翰迈尔斯怀特的朱莉娅

上周我们开始了第一次多线程数据事件, 在哪里John Myles White谈到了朱莉娅,这是我们一些新的编程语言.这是缝线修复的许多令人兴奋的会谈中的第一个。manbetx万博体育app 官方下载我们的下一个邀请的演讲者是哈德利威克姆,谁将谈论如何将数据变为R.如果您在SF湾区,主题激励您,请留意我们即将到来的活动!!

五月贝叶斯定理与你同在

频繁的范式享有最广泛的统计分析验收。频繁的概念,如置信区间和P值统治从科学部门到商业学校的介绍性统计课程,以及频繁的方法仍然是大多数从业者的转向工具。

探索性数据分析和图形

在数据科学或任何相关的定量领域,我们努力理解和利用我们的数据,以实现我们的目标。这些数据通常是我们正在进行的更大项目的一部分,其中的工作流程如下所示:

我♥茱莉亚

在过去的一年中,我一直在探索朱莉娅以零碎的方式。这是一种不符合传统编程概念的语言。朱莉娅是一种高级动态语言(如Python),并且在性能下与C和Fortran相提并论。

建议与您一样独特

客户样式向量

机器和专家-人力资源:推荐的艺术和科学的综合

为我们的每位客户挑选合适商品的过程并不简单;有很多事情需要考虑。这个过程的某些部分可以被分解,并被框定为客户机实用程序的数学模型。在这里,每个客户端的个人偏好可以通过结构化数据的机器处理进行建模和经验验证。然而,还有其他部分规避了这种严格的理性假设,倾向于更好地从情感上或从没有体现在结构化数据中的信息中进行评估。为此,我们需要依赖人类专家的判断。每一块都对整个选择过程有不同的价值,只关注其中任何一块都是不完整的。出于这个原因,我们设计了Stitch Fimanbetx万博体育app 官方下载x样式应用程序来利用各种资源(包括机器和专家-人),以用尽所有可用的信息和处理。

manbetx万博体育app 官方下载缝线修复用户!2014年

我刚刚回来,在加州洛杉矶度过了美好的一天(在加州大学洛杉矶分校的主校区),我很高兴在那里做了一个演讲R用户2014会议.会议汇集了顶级用户和开发人员R..这是分享关于如何最佳应用R语言及其工具的想法,以解决数据管理,处理,分析和可视化的挑战。

欢迎杰夫·麦格森,数据平台总监

我很高兴地宣布缝合Fix算法团队的最新补充,杰夫·麦格松。manbetx万博体育app 官方下载Jeff将加入我们作为数据平台的总监,主要负责开发缝合修复算法运行的架构。manbetx万博体育app 官方下载