华尔街的矿工们通过机器学习来降低订单的市场冲击-王茂琪财新博客-财新网

对于Buy Side的矿工（quant）来说，由于其交易体量太过巨大，一个重要的研究内容就是如何能够理解和掌握自己公司的交易对市场价格的影响，也就是所谓的“市场冲击”，并把这种冲击降低到最低。很多时候人们都把大额的交易比作“把大象推入游泳池” ，避免市场冲击就自然被比作避免“大象入水”的水花了。

过去人们如果想要了解一个大额交易可能会带来的市场冲击，一般会从历史的交易数据中寻找答案。但是当大家仔细研究就会发现，历史上的交易很少能够有很类似的结果/影响，而且即使新交易和过往交易之间存在相似之处或一定的模式，有时候这种关系也过于微妙或变化太快，以至于交易者很难发现和把握。

正因为如此，类似于彭博（Bloomberg），摩根大通（JP Morgan）和Portware等公司已经转向机器学习模型寻求答案。负责摩根大通欧洲、中东和非洲的算法研究负责人David Fellah表示：“只有当我们具备了硬件技术，更快的机器学习算法，以及对市场冲击的作用模式的更好理解之后，我们才能够把这些因素综合起来并加以运用。”

机器学习算法可以从几个方面帮助矿工（Quant）们解决“大象入水”的水花问题。一方面，它可以对传统的市场冲击模型起到补充作用。比如说人工智能算法可以帮助人们从稀疏历史数据中挤出更多信息，或帮助人们确定订单流（Order Flow）中的非线性关系。

另一方面，在更大胆的应用下，机器学习算法可以用来创造出交易机器人。这些机器人可以教会自己如何对市场变化做出反应。这两种方法都已经在实践中被应用了，而它们所带来的交易成本的节省是十分惊人的，尤其是对那些交易非常频繁的大型基金。

据Capital Fund Management研究主管Jean-Philippe Bouchaud介绍，对一个系统性基金来说，市场冲击带来的成本可能会侵蚀掉多达三分之二的交易收益。一名对冲基金的订单执行专家说，该基金每年由不利市场冲击带来的成本达到约100万美元，约占税前利润的十分之一。

摩根大通的Fellah同时表示，交易员业绩表现的上限和下限之间通常也只有两个基点（bps）：“如果你可以把一个算法的表现提高哪怕几分之一个基点，你的收益就会有很大的不同。” 这主要是由于目前市场上由算法交易的订单数量占绝对多数的原因。

目前主流的机器学习技术包括聚类分析（无监督学习），贝叶斯回归，随机森林和强化学习等监督学习技术。聚类分析（Cluster analysis）首先在70多年前作为宽泛的统计技术被开发出来，用于识别复杂数据中难以觉察的相似之处。贝叶斯回归（Bayesian regression）和随机森林（Random Forest）是预测技术，给出既定场景的出现概率。强化学习的目的是通过许多模拟来训练所谓的人工智能（AI）单元，以在特定的情境下选择最佳的行动方式。

虽然这些技术本身并不新鲜，但随着人类计算能力和可用数据量的不断增加，它们的应用场景也不断增加。当然人们对市场冲击和人工智能的理论认识不断向前迈进，也是其应用越来越广泛的原因。

彭博正在使用聚类分析来填补用于校准传统参数模型的数据的空白。这些看起来很基础的模型仍然在行业中占主导地位。虽然与之一起使用的已经是很复杂的工具了，但这些模型还是被迫依赖于稀疏的历史数据。例如彭博的流动性评估工具——LQA。它首先将债券分成直观上类似的大类组合，然后应用聚类分析确定每个大类中最为可比的产品。每种债券都是根据一系列共同特征进行定量测量的，例如货币种类，期限，到期日和未偿还金额。这些衡量指标确定某一个债券在多维向量空间内的位置。

例如，交易500手的一种不活跃的美国国债（obscure bond），LQA将在多维向量空间内寻找与该国债“距离最近”也就是最为相似的债券。然后LQA将使用它们的组合数据池来校准模型参数，从而达到解决历史数据稀疏的问题。

最初，彭博自己尝试了聚类分析，在聚类上构造线性回归模型以估计预期成本。但这并没有给他们带来预期当中的结果。单纯的聚类分析很容易导致不稳定性，数据的微小变化就可能会带来聚类组合的意外变化。于是，彭博认识到了需要引入一个参数模型来增加模型的稳定性。

Bloomberg的量化研究负责人Naz Quadri说：“聚类分析在某些应用中比其他应用更有效。“我们的研究表明，当用来评估结构性市场冲击时，聚类分析是最有用的，结果也更加稳定。”

与彭博不同，Portware和摩根大通则通过人工智能来更好的协助交易员选择交易的具体时机，以最大限度地减少市场冲击带来的影响。

Portware和摩根大通两家的市场冲击模型，都是从刻画历史交易对当前交易的市场冲击的影响作为起点。例如，在摩根大通的瞬时模型（transient model）中，每个交易的市场冲击随着时间的推移而逐渐减弱。这样建模的目的是避免将交易安排得太紧密，从而导致订单叠加的市场冲击过大。

这样的模型对流动性好的资产（如股票）效果很好，但其他资产类别可能就没有这么容易了。 Quadri表示：“我知道一些公司试图将瞬时模型应用在固定收益产品上，但是看起来在流动性较低的证券中不尽如人意。”

这些模型被公司用来制定不同情境下的最优交易安排方案，然后使用贝叶斯回归或随机森林等监督学习技术来决定如何随着实际交易进度来调整这些最优的交易实施方案。

例如，Portware的贝叶斯回归方法可以随着交易的进行，使用多个人工智能单元来同时预测短期波动率，订单流和交易量。模型的输入变量包括市场数据，新闻和社交媒体数据。

Portware的研究主管Henri Waelbroeck说：“订单流的不平衡性实际上是相当可预测的。通过自回归模型可以预测到足够合理的精确度，但是我们发现使用非线性方法可以更进一步地提高准确性。”

Portware系统中的人工智能单元给出订单流的预测，并进一步预测交易中面临的风险，如交易的紧急性（urgency，是用来衡量更快速的交易如何能够降低成本的一种指标）。由于这些预测都存储在系统的内存中，每个单元都可以使用其他单元的预测来强化自己的结果。

随着交易的进行，如果订单流，波动率或交易量偏离预期，Portware的系统将提醒交易员是否需要切换订单执行算法。市场冲击模型进而计算这些算法的预期执行成本，并与其他预先训练好的人工智能单元的结果进行比较。

摩根大通的Fellah表示，由于缺少流动性，一般而言每30次操作（提交限价订单，修订或是取消）才能实现一单交易。如果计算时间太长，调整订单后被发送到订单序列靠后的位置，那么自然效率就会很低。

摩根大通使用随机森林算法来产生短期订单流的预测，这意味着订单操作（修改、取消、提交）的数量可以大大减少。 Fellah说，随机森林算法因为其计算的速度快而被选中。

他的团队还对机器学习的另一个可能的应用进行研究和测试，期望使用强化学习来训练一个单一的人工智能单元对限价订单中的订单不平衡和排队位置做出反应。

他们通过模拟生成限价订单簿，然后人工智能单元将使用这些虚拟的订单簿来优化其交易安排。其订单的市场冲击由瞬时模型来刻画，大量的模拟样本可以使人工智能单元“学习”交易是如何导致市场冲击的。

“如果你考虑强化学习算法（re-inforcement learning）是怎么用于自动驾驶或游戏的就应该知道，这些算法必须了解其运行系统的原理。从这点上来说，在金融领域也是一样的。”Fellah说。

这里的基本思路是通过这些模拟的框架来训练人工智能单元或机器人，使其能够做出最佳的选择和行动。大量的训练可以使人工智能单元具备了解交易如何引起市场冲击，以及这种冲击如何随时间而衰退的直觉。人工智能单元从而具备了判断何时延迟订单或以更快的速度进行交易的能力。

“这种方法的一个好的地方是我们不需要写代码。从某种意义上说，机器自己“写”算法”，Fellah说。

使用机器学习来评估市场冲击的这些成功案例正在促进进一步的研究。例如，Waelbroeck说他的公司正在寻求将其短期预测技术扩展到长期投资组合风险管理。他说：“这可能对我们来说还有一段路要走。但是，我们正在探索这套系统作为投资组合风险管理的一种不同方法的可能性。它可以帮助投资组合经理从资产组合配置的角度更好地为未来的市场冲击做准备。这些市场冲击往往仅从相关性的角度来看并不能很好的确定其风险。”

当然，有些矿工（quant）对机器学习可以带来多大的帮助持怀疑态度。Alliance Bernstein的研究主管Nataliya Bershova表示，她更倾向于依靠参数模型（parametric models）：“举例来说，通过机器学习，你不能说一个因子X比因子Y更有影响力。这只是一个黑匣子，告诉你它的非参数模型可以更好地拟合真实数据。通过大多数机器学习技术，你并不能清楚地分离永久性影响和暂时性影响。而在参数模型中你是可以的。这是一个很重要的功能。”

与此同时，Capital Fund Management的Bouchaud认为，低频机器学习可用的分析数据太少，因此机器学习带来的好处有限。“如果有非线性效应，机器学习是有趣的。而如果一切都是线性的，你可以做线性回归就够了。”

在低频下，数据太有限以至于无法避免出现误导性结果（misleading results），过度抽样（oversampling），过度拟合（overfitting）。Bouchaud说：“所有的机器学习算法能够发现的低频数据中的非线性特征，我们都已经通过更传统的数据分析方法或直觉捕捉到了。”

但高频交易是不同的，他认为。 “在几秒钟或几分钟的高频率范围内，通常有足够的数据，使得机器学习算法提供的对相关性的自动搜索可以带来帮助。”

Waelbroeck对机器学习可以帮助低频交易则更乐观，并且认为机器学习具备帮助解决远远超出市场冲击问题的潜力。当市场处于压力之中时，（资产价格）相关性结构就会发生变化。风险管理者依靠先前的类似压力事件的相关性来估计这种变化。他认为这是最糟糕的预测方法，也是一个机器学习可以起作用的地方。

“更先进的方法是能够识别过去事件中哪些特点在今天最有可能保持不变。下一次危机不会是ABS市场崩溃的重复，但是对于过去的危机来说，有些真相仍然将会存在，并且可以帮助预测下一次危机如何展开。机器学习可以帮助揭露这些真相。”

【注】文章首发于公众号“量化风险管理研究”，公众号ID：RiskQuant。转载请注明。

话题：