将您的企业带到新的(Pareto)边界

Miriam Leon和Karim Wahba
- 加利福尼亚州旧金山

“我想要它,我想要一切,我想要它,我现在想要它”——弗雷迪·墨丘利(皇后乐队)

在他们80年代中期的摇滚歌曲《我想要一切》(I Want It All)中,皇后乐队似乎不想承认生活就是一种权衡的现实。在商业环境中,这是不可逃避的现实。大多数企业都会面临某种形式的权衡,当存在相互竞争的目标时,这种权衡就会出现。一个经典的例子就是增长(客户群或收入)与盈利能力的对比。但权衡在许多其他业务方面也很普遍[1]。例如,汽车制造商希望尽量减少生产成本,同时最大限度地提高舒适度。餐馆老板希望最大限度地提高他们可以座位的顾客的数量,同时最大限度地减少餐饮时间。即使一家公司意识到一些权衡正在制作 - 并且通常只是一个模糊直觉的这种目标之间的关系 - 量化通常不会尝试权衡。

和其他公司一样,Stitch Fix有多个目manbetx万博体育app 官方下载标,其中一些可以相互竞争(从这个意义上说,改善一个是要付出另一个的代价的)。在设计应用程序/网站突出部分的用户体验时,我们需要了解每个选择对用户的影响。最终,我们需要了解这些选择如何影响不同的业务指标。当我们关心多个且经常相互冲突的参数时,我们该如何决定优化目标?我们如何引导客户有价值的(和有限的)注意力?

在这篇文章中,我们将描述一种明确权衡的方法,并展示它如何为业务决策提供支持。首先,我们将引入帕累托边界的概念。然后我们将讨论方法:一个多目标多臂强盗(MAB)系统,它允许我们在面对竞争目标时量化我们的权衡。最后,我们将讨论对竞争目标进行优先排序的方法。

为了让读者更容易理解,我们将以另一款80年代的经典游戏《吃豆人女士》(Ms. Pac-Man)为例。在这一点上,如果你觉得我们真的喜欢80年代,那你就没错:)。

多重目标和帕累托最优性:捕捉重要权衡

让我们假设您正在设计Pac-Man Video Game Franchise女士的业务。让游戏成为一个击中,你需要玩家来享受他们,最终会导致销售。换句话说

\[textrm{video game sales} = f(\textrm{game enjoyment})\]

享受是一种复杂的现象,并取决于游戏设计的许多方面,以及游戏玩家的特殊演奏风格。然而,使其令人愉快的游戏的广泛特征是(1)可玩性和(2)技能分化的东西。可播放的游戏可通过各种各样的人使用。奖励卓越战术的游戏区分游戏玩家的技能。游戏设计对这些享受特征的影响是一个活跃的研究领域[2],[3]。如果一款游戏严重缺乏其中一个或两个方面,它可能会导致它的快速消亡1。因此,在设计具有广泛可玩性的游戏时,这种权衡就会显现出来,但同时也会使游戏对有动机的玩家具有挑战性。

在开发Ms. Pac-Man游戏时,让我们假设你捕获了与关键业务目标密切相关的代理参数。每天活跃的玩家回合数可以作为可玩性的代表,回合数越多说明可玩性越强。游戏得分差异可以作为技能差异的代理。差异越大,玩家的游戏技能差异就越大。

你的游戏设计策略的目标是最大化这两个目标:可玩性P和技能差异化S,因为这将创造出更有趣的游戏。换句话说,我们有一个多目标优化问题。到目前为止一切都很好,但为了做到这一点,你需要面对两个设计考虑因素(游戏邦注:实际上,原版《吃豆人》的设计因素很多![4]):

(设计考虑1)捉鬼策略:捉鬼策略决定了Inky、Blinky、Pinky和Clyde如何追逐吃豆人。这包括追逐战术、速度等。用\(x_G\)表示这个选择向量。

(设计考虑2)Energizer颗粒效果:颗粒给Pacman女士暂时免疫力,让幽灵在有限的时间内被追逐和吃。这种效果决定了像鬼魂散射策略一样的东西,在恢复追逐之前,它们在追逐之前害怕等等。表示这种选择矢量\(X_P \)。

因此,设计选择是一对向量(\(x_G\), \(x_P\))。《吃豆人》的设计问题可以归结为:

\[max (S(x_G,x_P), P(x_G,x_P)))\]

受一些限制。

在单个物镜的优化问题中,通过比较目标函数的两个值,一个解决方案比另一个解决方案更好地优于另一个解决方案。在多目标优化问题中,解决方案的“善良”更细致。可行的设计解决方案(\(x'_g \),\(x'_p \))将有以下一个案例应用:

  1. 在所有目标中占据主导→其他解决方案具有更好的S和更好的P值
  2. 在所有目标中占主导地位→没有其他解决方案具有更好的S或更好的P值
  3. 目标冲突——其他解决方案在S上更好,在P上更差,反之亦然

占主导地位或冲突的解决方案(即B或C)是非主导的。通过通过所有可行的解决方案进行这项练习,一定结束了Pareto最佳设计集,该设计集被定义为非主导的解决方案集。这些解决方案在客观空间中追踪帕累托前沿。由于不同的游戏设计选择,前沿显示薪酬和技能分化之间的权衡。

pareto-frontier
帕累托边界显示了可玩性和技能差异之间的权衡,这是由于不同的游戏设计选择。

多目标多臂机强盗

为了能够对鬼魂追逐策略进行知情的设计决策,我们需要数据!一种multi-armed强盗(MAB)能够有效地理解和利用设计选择对可玩性和技能差异化结果的影响。通过不断将玩家随机分配到各种武器(设计选择)中,然后利用获胜策略,我们便能够更好地进行测试和迭代2

一旦我们拥有数据,我们必须与标准MAB不同地接近多目标优化问题[5]。这是因为前面提到的解决方案的“优点”。在一个定义明确的标准单抗中,最优解通常不存在模糊性。在一个多目标单抗中,在目标之间的帕累托边界有一个折衷。某些东西或某些人必须决定目标的相对重要性。作为《吃豆人》系列的制作人,你应该在多大程度上关注游戏的可玩性与技能差异?

一个有助于使这一决定的常用方法是通过控制,将多目标优化问题转换为更熟悉的单个客观问题。最简单的方法是线性标准化(这有限制,更复杂的方法尝试克服[5])。这种方法将单个目标定义为多个目标的加权和。最初的《吃豆人》设计问题现在变成了:

λ_S·S(x_G,x_P) + λ_P·P(x_G,x_P))\]

受一些约束和\(λ_S, λ_P > 0\)和\(λ_S + λ_P = 1\)。

我们如何设置这些重量?我们将在下一部分到达,但现在假设他们预先确定。

我们之前提到过,可玩性和技能差异也取决于玩家的特点。通过将单抗扩展到be,可以考虑到这个潜在的重要信息上下文。整体方法是这样的:

  • 假设您正在考虑Pac-Man女士的设计选择(即不同的幽灵追逐策略和能量颗粒效果)
  • 从探索MAB探索阶段的随机收集的数据,列车模型以预测每个设计的目标(P,S)(i = 1,...,k \)。
  • 对于新一轮数据,预测每个玩家的k个目标(p,s),并且每个目标的重量给定固定的一组重量。
  • 选择帕累托最佳的设计选择(武器)的子集\(a ^ * \),这意味着它们在客观空间中是非主导的3.。此时,从可玩性(P)和技能差异化(S)目标的角度来看,来自\(A^*)的任何设计选择都与其他设计选择“一样好”。
  • 最后,对于每一个最优设计选择,计算标度函数,并在(A^*)中选择标度函数最大的选项。这为您预先确定的重量提供了最佳的设计选择4
pipeline-image
MOO-MAB方法概述:考虑一组设计选择,以及我们关心的两个目标,可玩性(P)和技能差异化(S)。对于每个设计选择,我们预测一个二维奖励向量。我们首先将奖励向量的每个值乘以其相应的权重。然后我们确定所有的帕累托最优设计(这里是绿色和蓝色)。支配武器不被进一步考虑。然后我们将剩下的帕累托最优设计通过累加它们的奖励向量来缩放,最后给每个参与者分配最大化缩放函数的设计选择。

选择你的重量

我们在上一节中提到,我们通过缩放将多目标问题转换为单目标函数问题。问题是,我们应该如何选择权重?最不明智的决定就是设定相同的权重。另一种可能性是根据一些外部标准对目标进行排序。例如,市场营销团队可能认为可玩性比技能差异更重要。一旦决策者提供了一个排名,我们需要将排名转化为权重。其中一种方法是使用秩序质心[6]。该方法将权重分配给M个排序的项目,其中第i个项目获得权重

λ_i = \frac{1}{M} \sum_{k=i}^M(\frac{1}{k}).\]

在可玩性是更重要的目标的情况下,分配的权重可以是\(λ_P = 0.75\)和\(λ_S = 0.25\)。

最后,决策者可能是对目标排名的矛盾,但希望了解不同排名选择对业务结果的影响。如果可播放性和技能分化的相对重要性颠倒,影响会对游戏享受是什么?以及最终如何影响游戏销售等商业指标?在这样的场景中,您可以同时使用两个权重组合运行用户级A / B测试(\(λ_p= 0.75 \),\(λ_s= 0.25 \)和\(λ_p= 0.25 \),\(λ_s=0.75 \))。如果有两种以上的目标,排名可能性很快就会增长,并且有效地回答所有组合可能是挑战性的。

结论

上面概述的框架(使用《吃豆人Ms. Pac-Man》的开发)可以扩展到任何具有多个目标的业务设置,以及测试和度量的能力。多个目标伴随着权衡,而数据科学家所能做的最好的事情就是让企业看到权衡。这种方法的一个关键部分是决策者的参与。毕竟,随着战略的转变,优先事项也在不断变化。在Stmanbetx万博体育app 官方下载itch Fix,我们的算法系统澄清了这些权衡,我们的产品和金融合作伙伴积极参与导航它们。我们相信这就是你如何从仅仅玩游戏,到赢得游戏!

参考文献

  1. 多目标优化的实际应用
  2. Togelius等人:星际争霸地图空间的多目标探索
  3. J.H Kim和R. Wu:在游戏开发中利用机器学习
  4. 《吃豆人》设计:难度变量
  5. 多目标多武装强盗算法设计:一项研究
  6. M. Danielson和L. Ekenberg:在多标准决策中的顺序排序方法的权衡

脚注

发布的这篇文章! 文章在LinkedIn
多线程

来吧我们!

我们是一个多元化的团队,致力于打造伟大的产品,我们希望得到你的帮助。你想和出色的同行一起创造出色的产品吗?加入我们吧!