人工智能定量金融学的中断。从预测概率密度估计,生成模型,优化与强化学习

民主化的AI和大数据技术的发明已经扰乱了定量金融实践。各种ML和DL模型提供下一代的非线性和不直观时间序列建模相比,传统的计量经济学。这同样适用于优化问题。强化学习提供了一个可选择的方法是传统的随机优化的投资组合管理。

在这个演讲,我将展示一个端到端资产管理管道基于最近人工智能发展。我将展示如何构建一个自主投资组合经理,学会平衡动态组合资产。不仅自主代理使用AI(比如一个actor-critic类型的网络如DDPG)学习,它通常可以使用各种其他人工智能组件来帮助学习。特别是,我将讨论如何预测人工智能组件,如非线性动态玻耳兹曼机,可以提高学习的代理。该组件使用AI改进众所周知的自回归模型预测的投资组合资产的价格在下次的一步。这些可以送入学习代理本质上限制整个action-state空间的探索。我还讨论的可能性,使用数据生成组件(使用甘斯)学习资产价格的条件分布,然后生成合成数据克服有限的历史数据的问题。

这一切,我计划为:

  1. 概念的理解AI /大数据如何改变传统的定量金融实践。
  2. 有一个真实的例子一个端到端数据管道的样子和复杂模型的不同组件如何一起工作在一个统一的平台架构bob体育客户端下载

看更多的火花+人工智能会话

免费试着砖

视频记录

-大家好,我是尼玛Nooshi我客户成功工程师砖。今天,我将谈论强化学习应用到金融投资组合优化的问题。最终的目标是设计和实现一个自动交易机器人与火花。然而,我觉得在我跳进实现之前,我通过投资组合优化理论和人工智能特别是强化学习如何应用。我将讨论特定的实现在会谈后我将展示在人工智能会议即将到来的火花。好了,今天的日程是这样的。首先我们定义金融投资组合优化和讨论如何接近随机优化方法开始了马科维茨在50年代。然后我们谈谈我们如何可以将投资组合优化问题转化为一个框架,它可以应用于强化学习,即马尔可夫决策过程。

这里我们将讨论一些具体的金融市场带来一些挑战MDP的一般公式。之后,我们会讨论模型建立和模型免费强化学习和讨论如何将这些模型应用于优化问题,我们将讨论一些这些算法的优点和缺点,这使我们处于有利地位开始一个像样的实现在接下来的会话。

——制定投资组合优化问题

金融投资组合优化是什么?嗯,这是一个更广泛的类的子类的基金分配问题。想象这样一个索引一个试图建立一个投资组合根据一些定义索引的方法。甚至更简单的场景中,一个同样加权组合,重新使持有投资组合的每一天,每个单独的资产得到平等的初始资本份额。这些基本上是基于资本的基金分配的一些示例。

这样我们能想到的另一个或订单分配不关注美元的头寸。例如,而不是每个人的分配相同数量的资本资产提出同样的加权组合,能想到的一个投资组合完全多元化对某种程度的风险。这里有相同的金额为每一个位置,我们有同等数量的风险。

一般来说,一个可以优化一些函数来构造投资组合,对的。想象你想有一个投资组合,可以提取的最大价值回报或你想最大化预期回报通过波动单位的投资时间,因为你不能只关心回报,但是你想管理风险。我们可以制定多面手问题如下,给定一组资产像M资产价格历史和定义一个初始投资组合或初始禀赋,在零的时候,那么你想要找到一个分配最大化目标函数,它是用γ。这个函数可以简单的预期回报,实际上你的财富最大化的投资周期。也可以是预期收益除以某种程度的风险基本上像一个波动或任何其他函数描述了投资目标。目标函数,一般情况下,一个函数的投影分布的资产回报率的投资期限。这意味着投资组合优化的问题自然是一个随机优化问题可以解决它,就像在两个方面是的,你可以考虑在一个静态优化项目的估计下一时期的回报的投资期限的结束。你想出的分配收益的投资期限和解决优化一次,或者你可以估计下一个时期返回动态和解决连续优化问题,基本上建立了一个动态优化之前。

马科维茨投资组合理论,随机优化问题的理论

马科维茨,他开创了试图解决最后一行的讽刺的优化问题。他的框架实际上是由两个步骤组成。无论哪一个目标函数的第一步,你只需要解决均值方差的优化问题,这是一个约束的二次优化,试图减少投资组合方差而限制投资组合的预期回报率目标水平。解决方案的不同值的目标平均值,定义在均值方差平面曲线,称为有效边界。一旦你有了有效边界,一个人可以解决一维优化问题的优化自定义目标函数,沿着这条曲线在均值方差平面上。一种方法我认为,定期使用此方法来解决静态优化问题,使它成为一个动态设置。嗯,看来,这是一个可行的选择,除非你试一试在现实世界中,因为在现实世界中你有交易成本。问题是解决优化两个时期可能远离彼此,重新平衡投资组合和交易成本导致子最优政策。事实上,近视的最优行动会导致次优的累积奖励的最后时期。

所以现在,我们谈论了一些关于投资组合优化问题和它是如何制定的学习优化和做出的努力基本上解决这些这些问题,我们现在可以讨论一下我们如何制定投资组合优化的马尔可夫决策过程和应用一些强化学习的方法来解决组合优化问题。首先,是一个MDP如何定义?

动态投资组合优化-部分可观测的Marko决策过程

假设一个设置在每个时间步代理从一个初始状态需要一个动作,这是某种与环境互动。和环境给代理一个奖励和变化。对吧?如果状态转移概率,这是由环境决定的,只有一个函数的当前状态,并不是所有的历史更新到目前为止,动力系统称为马尔可夫决策过程。

好吧,它是如何看起来像交易代理,正确的。在每个周期的开始,代理必须平衡的投资组合和想出一个向量资产控股。这基本上定义了一个交易的行动的行动机器人将直接投资组合权重,他想出了在每一个时期的结束。的奖励,奖励环境的功能是什么?一般来说,确定奖励有点更具挑战性。

什么是奖励奖励基本上是一个标量值,这充分指定代理的目标,而最大化预期的累积奖励在许多步骤将导致任务的最优解。

让我们看一些例子。

以游戏为例,代理的目标很好定义的游戏,对吗?你赢了或者你失去了一个游戏,它可以分为独立的奖励为每个时间步信号。如果你赢了一场比赛,最后一步,你得到的奖励,如果你失去了一个游戏结束的时候时间步得到的奖励-例如,零,否则,你得到一个奖励,所以很好定义和可分割成单独的时间步长。然而,以贸易代理为例,谁想最大化回报,但同时不希望让这个有趣的极端市场回到下跌趋势和崩溃。他是否为例,通过管理这个投资组合的风险价值,以便代理的目的是明确这个目标划分成连续奖励信号可能是一个非常具有挑战性的任务。

现在,让我们来谈谈国家和观察。在任何步骤中,我们只能观察资产价格,并给出观察到所有资产的价格,这是明确的。我们也知道,当一个周期价格并不完全捕捉市场的状态,这是现在我的意思是,你基本上无法预测的整个国家市场,但昨天刚看的价格为例。这使得金融市场更加具有挑战性,他们和一般金融市场不是一个完全可观测的马尔可夫决策过程。他们只是部分可见,因为我们只能代理遵守价格。

这意味着一个代理的状态是完全不同的环境。有一些解决方案基本上构建这个,然后整个环境状态从代理的状态。最明显的解决方案是我们可以从整个构建这组环境的历史观察,这基本上是不可伸缩的。或者,我们可以通过一些参数化函数近似的环境一天过去的观察。

当我们处理时间序列时,当我们在金融市场,这样做是很自然的认为国家生成函数不仅是功能性的观察,而且过去的能源和状态的函数,对的。因此,我们认为一些模型,一些记忆。

让我们看看一些例子,Garch模型,这些模型广泛应用于质量融资,他们基本上都是用这种方法创建。假设市场的状态在每一次可以完全由个人资产的波动性。这是假设基本上是说,如果你知道波动,你知道市场的完整状态。如果你认为Garch模型可以构建一个简单的映射过去的价格波动和嘉年华观察生成当前时间步的波动,因此他们可以完全建立市场的状态,从观察和过去的过去的观察和过去的状态。

我们可以看看一个帐户和其他模型在连续域随机波动模型相同,他们基本上是建立波动,市场的隐藏状态,但通过拟合的一种波动的随机过程。基本上通过这种方式,他们能产生的隐状态的市场波动并生成一个完整的表示。

但很显然的一个可以使用更复杂的featurization隐藏甚至国家的市场环境。所以不应该那么简单就波动可以表示复杂的神经网络,例如,可以构建这样的复杂模型的市场状态。但常见的在所有的这些模型是他们的环境是构建使用过去的观测和过去的状态和状态的当前时间是不够的,基本上想出基本上整个国家的金融市场或返回下一段。

好吧,既然我们谈到了MDP制定投资组合优化一点,我想经历一些主要部件的强化学习这种形式基本上把我们能够想出一些算法,利用强化学习我们想要最终实现。

强化学习算法——组件

政策,政策只是从一个状态映射这一个动作,他需要一个代理经验,它可以是确定的政策,这意味着如果一个代理发现自己处于某种状态,他总是采取某种行动或它可能是一个概率政策这意味着他会选择一个特定的行动从一个范围的所有可能的行为有一些预定义的概率。

价值函数的概念。那么,什么是价值函数?值函数被定义为预期的回报,可以从一个MDP从国家和某些政策。

例如,如果我们定义一个交易机器人的奖励只是日志返回投资组合的回报,在每个时间步,价值函数将预期数量的累积地平线尽头的投资回报。

和模型,模型是什么?模型只是代理的表示环境,它定义了过渡状态的概率的部署。举个例子,如果你认为下一步返回金融时间序列的高斯分布后,模型定义的环境是完全通过高斯分布的转移概率。

投资组合优化,规划一个模型基于强化学习~

现在我们拥有了所有的材料,我们想谈谈在投资组合优化模型为基础的强化学习,如何设置的样子,我们可以构建算法基于此设置。我们开始从我们熟悉的MDP设置当代理与环境交互基于他所采取的行动,并获得奖励。但现在的想法是,代理首先尝试学习环境的模型从他经历的过渡。所以他不会优化政策直接从经验,但他首先尝试学习一些模型转换,他的经历。然后基于这个模型,他将试图解决的优化。所以,在每个时间步,代理首先预测第二天因为他有一个对环境模型。所以,他预测下一步和奖励他将获得基于行动了,他观察到真正的过渡和真正的回报,他从部署了,然后他可以进行增量更新模型,因为他有一个模型和他有一个损失函数,可以训练模型。那么,这种模式的优势。所以,有一些优势特别是在金融投资组合优化。最重要的是,已经有很多的研究行为的金融市场和金融时间序列数据的属性。 It is very easy to basically implement those findings directly into a model based reinforcement learning paradigm, So, you basically can put all those findings explicitly into a model, and then have a model that best describes the financial market transitions. So, things like what volatility clustering seems like heavy tails of the returns, tail dependence among different assets, existence of jumps and non-stationary can be directly modeled and learn from the data. But then obviously, there are some disadvantages, because you have an explicit model that you have to first and to learn there are some sources of errors and approximations coming in . So you first have to learn a model and if your model is not a an accurate representation of the environment, the optimal policies that you learn based on that model won’t be optimal at all because you have a model which cannot or is not basically describing the market as good as it can or it should.

模型基于强化Learning-Finar模型学习计划

我们制定的一切我们所讨论的基于模型的强化学习。我们应该做些什么呢?

基本上,一般来说,如果你想使用强化学习或基于模型的强化学习,我们需要收集一些经验通过与环境的交互和计算出模型的经验,我们已经收集正确的。

但在金融领域,它有点容易得多,因为我们与环境的交互,这基本上是我们的事务,不影响状态转换。你的意思是,任何时候我们购买或出售任何资产在市场上,我们可以假设这种交易不会改变价格,这样我们可以单独的整个行动从整个过渡,我们将有一个设置,只有价格的过渡,所以基本上我们可以看看价格的历史或回报,我们可以训练模型的基础上,基于,或监督模型。所以,整个方法是这样的,会选择一个参数化的模型,预测下一个状态转换或提出了未来时间的概率分布的回报,我们选择一个适当的损失函数,所以我们可以训练模型。然后我们找到参数,减少我们的损失函数,我们整个模型基本上可以训练数据集。

规划算法与基于模型的钢筋

让我们把这一切都到一个通用的算法,我们可以使用任何类型的基于模型的强化学习。这个算法的输入是简单的,你有你的交易宇宙或资产主要有定义什么样的你想交易,您需要定义参数模型,你认为预测,市场回报的最好的,你需要想出一个损失函数,描述了模型预测的偏差从观察到的回报。例如,您可以有一个正常的Garch模型与非高斯的创新。和相应的损失函数是一个可能性,你可以使用最大似然估计在一个批处理数据集基本上首先初始化模型或学习模型的参数,然后进入一种在线强化学习训练集,所以剩下的算法很简单。基本上你使用批处理数据聚集这只是你的历史价格。

你用它来学习模型的参数。然后你开始,迭代步骤的时候,你开始从模型预测下一步,你基本上学会了批处理数据。你观察的回报和国家,而不是国家,你观察的回报和收益的价格只是向前走。你建立你的状态观测和状态的历史,你已经收集。

这是您的模型的一部分,所以基本上,您的模型的一部分,负责建筑环境状态的观察,他一直在。然后计算偏离状态,你观察到的或基本上建立在观察你,你预测的状态。

然后逐步学习参数或改变参数基于损失函数的梯度和平衡投资组合的模型的基础上,您可以使用任何类型的基于模型的控制基本上解决优化问题。一旦你有一个模型为您的环境,您基本上可以样本模型为例,在多极设置,所以你可以有一个样本的所有回报投资期限的结束,基本上开始估计目标函数如预期回报率,波动基本上不管你让你将作为一个对象作为函数的目标函数优化,然后解决的优化问题,我们所说的一个示例。你有模型视图,基本上可以控制你的政策基本上使用不同的政策问题或只是指quadripolar重申,直到你基本收敛。这是一个整体模式整体方案使用基于模型的强化学习学习模型的同时,使用该模型来规划和提出优化在同一时间。

学习好的,而不是一个预测模型的转换,然后使用该模型提出最优政策。

投资组合优化模型——免费的强化

你可以开始学习最优政策直接基于价值函数?正确的。假设值函数可以定义为累计回报,你将得到最终的投资眼光。然后您可以使用一个广义函数参数化的政策如何平衡投资组合在每个时间步,然后在同一时间,您可以使用另一个函数参数化的累积量返回你会得到相应的平衡的投资组合。

所以,这是一个典型的演员评论家设置,这是一个最先进的方法模型的自由强化学习和可以直接应用于机器人自动交易的问题利用强化学习之一。图中这里,我基本上见如何看起来像网络基本上是演员网络会观察的价格。

模型自由强化学习示例

基于这些观察,我们将首先建立一个环境,然后使用该状态提出一些行动,这基本上是投资组合权重。然后批评网络同时,使用这些权重,这些投资组合权重,当然,观察价格的同时,他建立一个国家在那些,然后想出一个值,基本上多少再平衡将会给你一个累积在你的投资回报。基本上,我们会滚出来到投资期限结束后,看看你将得到的回报和给你一个估计的价值我们的行动,你从演员选择网络。这些设置可以与不同国家的共同训练算法我把一个通用DDPG艺术。所以,深决定性策略梯度算法,它可以适用于这个特定的问题。这是我将尝试与和基于模型的强化学习能够展示我们如何实现火花和使用的一些火花的特性基本上麻痹那些模型训练和想出的点子如何全面实施。让我们简要讨论的挑战和问题,所有这些类型的模型,我们讨论过。

投资组合Optimization-Reinforcement学习挑战

所以,正如我之前所说的,我的意思是它是非常重要的

和强化学习算法的关键,MDP制定有明确的奖励函数信号对吧?

它是一种具有挑战性的广义投资组合优化框架来奖励函数生成器。如果你有某种复杂的风险泛函,如价值风险,或任何其他基于quanto度量投资组合的风险回报,这可能是一个问题基本上工程师奖励生成函数。另一件事是关于环境、金融市场环境是一个非常复杂的环境。很多功能,基本上使它很难有效学习的模型。和最重要的是,在金融市场上有一种普遍的主题基本上比,信号噪声,很低与其他地区相比,

基本上,强化学习已经成功地应用于诸如游戏、图像处理、

文本分类。主要金融市场的本质和性质,这些都是非常嘈杂的环境使它很难学习的强化学习算法。

添加到这些问题,有些具体问题与模范自由和基于模型的强化学习金融市场。

举个例子,如果你想用模范自由有有限的交易数据所以你知道英国《金融时报》系列如果你举个例子,我想让你了解一个模型,它使用每日返回数据或每日价格,你基本上有250数据点了一年。然后我的意思是,如果你想训练你的模型在10年的历史,你就不会有超过2000 3000数据点基本训练你的模型,这是一个非常,非常小的数据量,这基本上意味着金融市场结合的事实非常嘈杂的环境会使模型很容易过度拟合和无法概括的示例数据。在基于模型的强化学习,你可以有一些特定的金融市场模型的特点是显式地到你到你的算法,但是你必须想出办法应对模型不确定性变化的模型,不准确的模型和超参数的模型,这些将直接影响你的最优组合和最优解决方案,你会在一天结束的时候。这是一些想法,可以使用这些所谓的规则的好处,使强化学习的可行的选择投资组合优化的混合方法,基本上同时开始学习一个模型使用模型自由生成样本和增强数据基本上,基本上来应对有限的训练数据的问题,尝试使用模范自由强化学习在生成的模型获得更准确的数据类型的解决方案,但是这些都小心翼翼地测试,进入账户。所以,这是我的演讲。所以,我只是想给你一个第一部分的理论如何样子,利用强化学习的挑战和尝试理解其背后的理论。在接下来的部分,我将努力实现它完全集成解决方案基于强化学习算法,不同类型的算法和列车自动交易机器人,

基本上能想出的最优投资组合的特定的投资期限。

看更多的火花+人工智能会话

免费试着砖
«回来