新書推薦:
《
财富方程式
》
售價:HK$
77.3
《
知识社会史(下卷):从《百科全书》到“在线百科”
》
售價:HK$
99.7
《
我读巴芒:永恒的价值
》
售價:HK$
132.2
《
你漏财了:9种逆向思维算清人生这本账
》
售價:HK$
55.8
《
我们终将老去:认识生命的第二阶段(比利时的“理查德·道金斯”,一位行为生物学家的老年有用论
》
售價:HK$
91.8
《
谁是窃书之人 日本文坛新锐作家深绿野分著 无限流×悬疑×幻想小说
》
售價:HK$
55.8
《
一个经济杀手的自白 第3版
》
售價:HK$
110.9
《
8秒按压告别疼痛
》
售價:HK$
87.4
|
編輯推薦: |
1.金融领域趋势。近年来,机器学习和数据科学在投资中发挥着越来越大的作用。借助机器学习和大数据,投资经理能够做出以往传统模型无法实现的预测,进而做出明智的决策。未来,机器学习技术和数据科学将成为金融投资领域的新主流。
2.内容丰富,案例翔实。这本书不仅提供微观方法的理论阐述、案例说明,还有宏观视角的比较分析、趋势展望,是量化投资领域稀缺的“手册”型书籍。
3.全能作者团队。汇集来自买方、卖方及量化研究的多位业内颇具影响力的专家学者的前沿分享,他们从不同方面审视了大数据和机器学习技术在金融投资领域中的应用,将为从业者提供重要参考。
4.硬核译者团队。这本书具有极强的专业性,包含了数学、计算机、金融投资等领域的专业内容,来自国际国内名校的毕业生和量化投资领域的专家组成的译者团队和译校团队,对这本书做了精益求精的翻译,力求为从业者和爱好者提供良好的阅读体验。
|
內容簡介: |
以从业者视角探讨如何在金融领域有效运用大数据和机器学习。
近年来,机器学习和数据科学在投资中发挥着越来越大的作用。借助机器学习和大数据,投资经理能够做出以往传统模型无法实现的预测,进而做出明智的决策。然而,并不是所有的数据集和机器学习技术都对金融投资有用,也不是所有的机器学习技术都可以“即插即用”。
《大数据、机器学习与量化投资》这本书由资深量化分析专家托尼·吉达主编,汇集了多位业内颇具影响力的专家学者的前沿分享,阐释如何应用机器学习和大数据技术来解决投资问题并提高投资绩效。这本书共有13章,理论严谨,案例丰富,内容涵盖机器学习在投资管理中的应用现状和前景、另类数据和大数据在宏观交易中的应用、处理大数据集的难点和解决方案、挖掘社交媒体数据集分析企业文化、使用自然语言处理技术进行投资者情绪分析、基于支持向量回归的全球战术性资产配置策略、强化学习和深度学习在投资组合优化中的应用等主题,可以作为量化投资从业者、金融算法研究人员、高等院校计算机专业和金融工程专业的师生以及机器学习爱好者的参考用书。
|
關於作者: |
托尼·吉达,伦敦一家老牌养老基金的资深量化投资基金经理,负责管理多因子股票投资组合。在此之前,曾在EDHEC RISK Scientific Beta 担任高级顾问,负责聪明贝塔和风险配置,就如何构建和配置风险溢价向资产所有者提供专业建议。在加入EDHEC之前,他在UNIGESTION工作了8年,担任高级研究分析师。他曾是Minimum Variance Strategies研究和投资委员会的成员,负责领导机构客户因子投资研究小组。他拥有法国萨沃伊大学计量经济学和金融学学士和硕士学位。曾多次发表关于量化投资现代方法的演讲,并多次举办关于“机器学习应用于量化投资”的研讨会。
|
目錄:
|
第1章 算法能构建出具有人类智慧的alpha吗
1.1导读
1.2重复或是重塑
1.3用机器学习重塑投资
1.4信任问题
1.5经济存在主义∶一项宏大设计抑或一次偶然事件
1.6这一系统究竟是什么
1.7动态预测与新方法论
1.8基本面因子、预测与机器学习
1.9结论:寻找投资中的“钉子”
第2章 驾驭大数据
2.1导读
2.2使用另类数据的驱动因素
2.3另类数据类型、形式与范围
2.4如何判断哪些另类数据有用
2.5另类数据需要多少成本
2.6案例研究
2.7使用另类数据的明显趋势
2.8结论
第3章 机器学习在投资管理中的应用现状
3.1导读
3.2数据无处不在
3.3人工智能应用图谱
3.4行业间的相互联系和人工智能的实施推动者
3.5行业发展前景
3.6关于未来
3.7结论
第4章 在投资过程中使用另类数据
4.1导读
4.2量化浩劫:激励人们寻找另类数据
4.3利用好另类数据爆炸带来的好处
4.4选择要进行评估的数据源
4.5评估技术
4.6基本面基金管理者与另类数据
4.7若干例证
4.8结论
第5章 使用另类数据和大数据交易宏观资产
5.1导读
5.2理解大数据和另类数据的一般概念
5.3传统建模方法与机器学习
5.4大数据和另类数据:在宏观交易中的广泛使用
5.5案例研究:使用大数据和另类数据深入挖掘宏观交易
5.6结论
第6章 大即为美,从电子邮件收据数据预测公司销售额
6.1导读
6.2Quandl的电子邮件收据数据库
6.3大数据工作中的挑战
6.4预测公司销售额
6.5实时预测
6.6案例研究:亚马逊销售案例
第7章 将集成学习应用于量化股票:多因子框架中的梯度提升算法
7.1导读
7.2提升树入门
7.3数据和方案
7.4建立模型
7.5结果和讨论
7.6结论
第8章 企业文化的社交媒体分析
8.1导读
8.2文献综述
8.3数据与样本构建
8.4推断企业文化
8.5检验结果
8.6结论
第9章 能源期货交易的机器学习与事件检测
9.1导读
9.2数据说明
9.3模型框架
9.4表现
9.5结论
第10章 财经新闻中的自然语言处理
10.1导读
10.2新闻数据来源
10.3实际应用
10.4自然语言处理
10.5数据及方法论
10.6结论
第11章 基于支持向量机的全球战术性资产配置
11.1导读
11.2过去50年的全球战术性资产配置
11.3经济学文献中的支持向量机
11.4基于支持向量回归的全球战术性资产配置策略
11.5结论
第12章 金融中的强化学习
12.1导读
12.2马尔科夫决策过程:决策的一般框架
12.3理性及决策的不确定性
12.4均值-方差的等价性
12.5回报
12.6组合价值与财富
12.7具体案例
12.8结论与进一步的工作
第13章 金融深度学习,基于LSTM网络的股票收益预测
13.1导读
13.2相关工作
13.3金融市场的时间序列分析
13.4深度学习
13.5循环神经网络
13.6长短期记忆网络
13.7金融模型
13.8结论
附录
参考文献
译者简介
|
內容試閱:
|
量化投资是一种利用数学模型和计算机技术来进行投资决策的方法。自20世纪中叶以来,经过数十年来的探索,海外量化投资行业已在成熟市场中积累了丰富的实践经验。量化投资的历史可以追溯到20世纪50年代,当时一些先驱者开始尝试用统计学和概率论来分析金融市场。*早的量化投资者之一是哈里·马克维茨,他在1952年提出了现代投资组合理论,为量化投资奠定了重要的理论基础。此后,1969年爱德华·索普推出首只量化基金,1988年詹姆斯·西蒙斯推出文艺复兴大奖章基金,在成立20年来取得年化70%的惊人收益,1991年彼得·穆勒开发出Alpha系统策略,首次以计算机与金融数据结合的方法构建投资组合。此后,股票多空、宏观对冲、统计套利、事件驱动、高频交易、多因子等策略不断发展涌现,同时与传统的主观基本面投研结合,共同构成了海外市场投资生态。目前,美国量化基金的交易规模已经占到美股总交易量的70%左右。
与此同时,我国量化投资行业在*近十几年时间里也经历了蓬勃的发展。2010年开始,我国量化投资发展进入快车道,量化投资机构和产品数量大幅增加,涉及的市场和策略也更加多样化,包括债券、基金、外汇、商品等,以及多因子、机器学习、人工智能等。2015年后,我国量化投资继续不断创新,量化投资机构和产品不断优化和升级,利用大数据、云计算、区块链等新技术来提高投资效率和风险管理能力。截至2023年一季度末,我国公募量化基金总规模已经超过2 000亿元,而私募量化基金的规模已经突破1万亿元,其中不乏一些投资回报优异稳健的公司。但纵向对比,量化占公募基金总规模仍不足1%,私募量化基金规模增长速度放缓;横向对比,我国量化投资行业无论在规模上还是在技术发展上与海外仍然存在较大的差距。如何让量化投资更适应A股市场,如何让量化策略更适应波动性更大的宏观环境,如何打开量化的“黑箱”,增强其结果的稳健性与可解释性,都是需要在实践之中思考的关键议题。
量化投资行业的发展,主要源于数据端和方法端的双重驱动。对数据端而言,除了*广泛使用的量价数据外,基本面财务数据、宏观指标数据在应用中也发挥越来越大的作用,各种另类数据也变得更加可用、更加高频,并且出现了标志着行业成熟化的专业数据供应商,投资者得以从海量数据中掘金Alpha;对于方法端而言,随着算力的提升和理论的发展,机器学习、神经网络等新技术被逐渐应用于量化投资领域,为“金融炼金术”提供了先进手段。此外,市场的环境和规则、投资者的需求和偏好也在不断动态进化,对其进化趋势的理解变得十分重要。这些综合因素相互作用,共同推动了量化投资行业的创新和变革,同时带来了机遇和挑战。
本书是一本关于大数据与机器学习方法如何应用于量化投资领域的最新著作,凝聚了以托尼·吉达为首的若干量化投资专家的重要研究成果与一线实践经验,不仅有微观方法的理论阐述、案例说明,还有宏观视角的比较分析、趋势展望,是量化投资领域稀缺的“手册”型书籍。
本书具有极强的专业性,包含了很多来自数学、计算机、金融投资领域的专业术语,在译者团队的努力下,终于完成了本书的翻译工作。徐照宜、薛扬荣、陈宇翔负责全书翻译工作的整体统筹把控,周康林、李剑雄、崔鼎茗负责完成全书专业性的审核以及专业术语索引系统的建立,其他译者负责完成部分章节的初稿翻译与校对工作。
特别鸣谢清华大学全球私募股权研究院首席专家、证监会市场监管二部原副主任、一级巡视员、湖南大学金融与统计学院刘健钧教授从金融市场的角度为本书提供指导建议并作推荐语;特别鸣谢中国国家创新与发展战略研究会副会长、中国科学院大学经济与管理学院吕本富教授从数字经济的角度为本书提供指导建议并作推荐语。
特别鸣谢乾象投资创始合伙人兼首席技术官鲜染先生、中信证券研究部高级副总裁丁奇先生、分享通信创始人兼董事会主席蒋志祥先生从量化投资的一线实践与产业应用的视角为本书提供了宝贵建议和倾情推荐。
特别感谢清华大学产业创新与金融研究院、清华大学新百年发展基金、北京大学对冲基金协会、北京大学金融校友联合会、西南财经大学金融投资协会对本书翻译与研讨工作的大力支持。
此外,张闻凡、朱震、徐皓钶、郭仲星、胡展畅、侯承钰、卢波、汪慧洁、杨天鸣参与了本书的阅读与校正工作,高孝森、刘书涵、刘明鑫、赵菁雨、朱良盛、陈欣然、张云昕、杨以恒、沈良翰、杨天凯参与了本书的宣传与推广工作,在此一并感谢。
*后,衷心感谢中信出版社编辑团队对本书精心负责的排版校对工作,若没有大家精益求精的协同合作,本书的中文版本不可能如此顺利地与读者们见面。
由于译者水平有限,译文难免出现瑕疵,还望读者朋友批评指正,多多包涵,也欢迎与译者团队进行探讨。希望本书能为国内量化投资领域的从业者带来有益参考价值,共同推动我国量化投资行业迈向更美好的明天。
精彩文摘 (摘自第1章 算法能构建出
1.1导读
从传统上讲,不管是源于均衡经济学、行为心理学还是代理模型,绝大多数金融实践的核心都是通过结合优雅的理论与略显“琐碎”的实证数据而形成的。正如我在伦敦政经学院攻读博士学位期间所学到的,优雅的理论是高智力人群智力活动的凝结,它能够在代理人模型中进行微妙权衡,形成复杂的平衡结构,并指出传统理论有时候存在的矛盾。虽然“琐碎”的实证工作经常受到怀疑与藐视,人们还是不得不承认实证工作的必要性,它能够提供现实中的实际应用。这让我回想起在起风的院子里和狭窄的走廊中数次与那些睿智的博士生进行的对话,我们一直为“我该如何为我的假设寻找验证”这一个问题争论不休。
在量化金融中,出现了很多伪数学框架,它们通常是从邻近学科借鉴而来,比如物理学的热力学、伊藤引理、信息论、网络理论、数论,以及不那么技术性但勉强承认为科学的心理学。来去之间,市场吸收了这些理论。
机器学习和极端模式识别,非常注重大规模的实证数据,对这些数据进行分析的规模和对细节的关注是前所未见的。有趣的是,机器学习对概念框架的贡献较少。在某些圈子中,有人吹嘘缺少概念框架是机器学习的优势,能够消除人类的偏见,以免限制于某一模型。但无论你认为这一工具有利或有弊,你必须承认一个事实,即这个领域的发展只会越来越快,越来越强有力。我们今天或许会称其为神经网络,也许明天又会有新的名字,但我们最终会到达一个时间点,届时大多数(即使不是所有)的模式都能够以近乎实时的方式被发现和检验,关注重点将几乎完全聚焦于定义目标函数而非框架结构。
本章其余部分涵盖一系列观察与例证,分析机器学习如何能够帮助我们更加了解金融市场,以及机器学习现在所发挥的作用。这部分内容不仅来自我的经历,还基于我和学者、从业者、计算机科学家进行的多次对话,源自众多书籍、文章与播客的内容,是对目前涉及此类话题的广泛讨论的总结。
这是一个令人难以置信的时刻,我们保持求知探索的欲望与量化的思维,为后来者在量化投资领域提供科学的思考框架与统一的技术工具。
1.2 重复或是重塑
对世界的量化是人类的一种痴迷。这里的量化是指将人类观察到的模式进行分解,并在之后大量的观察中重复应用。量化金融的基础源于一代又一代智慧投资者的投资原则或洞察,这些投资者在没有大规模数据的帮助下就已经得出了这些洞见。
早期有关因子投资和量化金融的想法是对这些洞见的重现;它们本身并未创造出投资原则。有数代人研究并推断过价值投资(资产定价与公司估值)的内涵。量化金融吸收了这些观点,将其分解,吸取能够观察和延展的要素,再将其在大量的可比公司中拓展。
提升规模的代价是将某一特定的投资准则应用在某一特定公司上所带来的复杂性和差异性,但在更大体量的投资组合中,这些细微差别被认为会被稀释而消弭,这些细微差别在过去和现在都在很大程度上被忽视。考虑你对一家银行或一家医药公司估值的细微差异,与所有股票都可以置于同一通用评价框架下进行比较的观点进行对比,如市净率等。投资洞见与未来回报的关系被重现成为因子暴露(风险敞口)与未来回报的线性关系,目前很少关注非线性的动态性或复杂性,而是关注因子的多样性与大规模应用,这被认为可以给现代投资组合带来更好的结果。
然而,也有人从早期因子研究中认识到因子之间的相互关系与相互作用,这一点成了现代风险管理技术的核心。有观点认为,有共同特征的股票(对共同特征的识别源于投资洞察力)也可能与宏观风格因子存在相互关系与相互作用。
在我看来,这点小小的发现实际上是对投资世界的重塑,在此之前甚至到现在,很多投资人依旧以孤立的方式看待股票,对股票的评价就好像是独立的私募股权投资。这无疑是一种重塑,将关注的对象从单个股票转向了共同的“主线”或因子,将单独来看没有直接商业关系的多种股票联系起来,这些股票有相似特征,意味着它们能够被同时买进或卖出。对“因子”联系的识别与改进成了许多投资过程的目标,尤其是2010年之后,这种投资方法获得了可观的收益。重要的是,我们开始将这个世界视为一系列因子,有些转瞬即逝,有些持久不衰,有些涉及短期预测,有些关乎长期预测,有些提供能够消除的风险,有些则提供有风险的回报。
因子代表了看不见(但可检测到)的主线,这些主线织起了整个全球金融市场。当我们(量化研究者)搜寻、发现并理解这些主线时,绝大多数人还在关注看得见的企业、产品与周期性盈利。我们将世界看作一个网络,其中的连接和节点是*重要的要素,而其他人则将世界视为一系列投资观点与活动的集合。
这样的重塑关键在于兴趣对象的转换,从单个股票到一系列网络关系,以及在时间维度上的变化。这样的重塑是严肃而微妙的,现在可能仍未得到充分的理解。我们现在只是在探索我们对因子理解的极限,考虑如何更好定义它们,如何对它们进行择时,同时努力尝试向非技术的投资者解释它们。好的因子择时模型是很罕见的,针对如何看待和运用择时,业界也争论不休。情景因子模型甚至更为罕见,这为实证与理论研究提供了非常有趣的研究方向。
1.3用机器学习重塑投资
使用机器学习重塑投资,这会重塑我们思考金融市场的方式,我认为这既是对投资对象的再确定,也是对金融网络的再思考。
请允许我利用简单的类比做一个思想实验。在字迹或人脸识别中,作为人类,我们寻求某种特定的模式来帮助我们理解世界。在有意识的、感知的层面上,我们注意的是在某人面部中,比如鼻子、眼睛、嘴巴中存在的某种模式。在这一例子中,感知的主体是这些单元,我们将它们的相似性与我们所熟知之人五官的相似性做评估。因此,就组成部分而言,我们的模式识别在一个相当低的维度上发挥作用。我们将问题分解成一系列有限的分组信息(在这个例子中即分解成面部特征),并对这些分组信息进行评估。在现代机器学习技术中,面部特征和手写字迹被分解成更小、数量更多的组成部分。以手写字迹为例,图片的像素被转换成数值矩阵表示,人们使用深度学习算法来寻找其中的模式。
我们现在有难以置信的强大工具来运算大规模数据,足以在样本的亚原子水平上寻找模式。在人脸和字迹识别的例子中,以及其他很多实践中,我们可以不再凭直觉或可理解的复杂方式来寻找这些模式;计算机工具不会从直觉上确定鼻子或眼睛,而是会在深度交叠的信息中寻找模式。早期实验结果喜忧参半,对抗系统已经表明有些初期模式极其脆弱。但随着技术的发展,以及我们技术使用水平的发展,这些模式可能会变得逐渐强劲,但仍将保留其复杂性。有时这些工具可以比我们更好、更快、更高效地找到模式,这样就不需要我们的直觉感知时刻跟上事物变化了。
以此类推到金融领域,大部分的资产管理公司都关注金融(基本面)数据,例如损益表、资产负债表中的科目及收益数据等。这些数据条目可以有效地定义一家公司,正如一张面孔的主要模式特征可定义一个人。如果我们利用这些数据条目,将几百个数据条目运用在机器学习一类的大规模算法中,我们或许就可以发现在使用这一手段之前我们其实极大地限制了自己。
神经网络的“神奇”之处在于它们能够在原子(例如像素水平)信息中识别模式,但由于我们为其预先设定了更高维度的结构,我们或许已经限制了它们寻找新模式的能力,尤其是那些超越了我们线性框架中已经识别的模式。重塑意味着我们寻找新结构的能力,以及寻找更多投资中“原子”级别的微观表达,使得这些算法能够更好寻找模式。这可能意味着我们可以从季报、年报的科目中解脱出来,可以利用销售与收益的高频指标(基于另类数据源),寻找更高频且更相关的模式,来预测价格变动。
用机器学习重塑投资或许也意味着将我们的注意力转向将金融市场建模为一个复杂的(或仅仅是扩大的)网络,其中问题的维度或许会爆炸性地迅速升高,以至于我们的大脑无法处理。对一个网络进行单一维度评估的方法,就是有效地估计n×n的协方差矩阵。一旦我们将这一系统变为内生系统,二维矩阵内的许多链接将变成其他链接的一个函数,这样一来,模型将成为递归模型和迭代模型。而这还仅仅是在二维水平上。将金融市场建模成神经网络已经在有限应用场景中进行了尝试,近年来,供应链分析作为一种发现公司间细微关系的方式逐渐流行起来。另类数据或许能够从业务往来的角度,提供公司与公司之间新的明确可观察到的联系,从而构成网络的基础,但价格很可能会变动过快且变动幅度过大,从而不能由受普通供应合同简单决定价格。
|
|