报 告 人:周迅宇,哥伦比亚大学工业工程及运筹学系刘氏家族金融工程讲席教授以及FDT智能资产管理中心主任。
报告时间:2019年5月30日(周四)下午4:00-5:00
报告地点:览秀楼105学术报告厅
报告摘要:
We consider reinforcement learning (RL) in continuous time and study the problem of achieving the best trade-off between exploration of a black box environment and exploitation of current knowledge. We propose an entropy-regularized reward function involving the differential entropy of the distributions of actions, and motivate and devise an exploratory formulation for the feature dynamics that captures repetitive learning under exploration. We carry out a complete analysis of the problem in the linear--quadratic (LQ) setting and deduce that the optimal feedback control distribution for balancing exploitation and exploration is Gaussian. This in turn interprets and justifies the widely adopted Gaussian exploration in RL, beyond its simplicity for sampling. Moreover, the exploitation and exploration are captured, respectively and mutual-exclusively, by the mean and variance of the Gaussian distribution.We also find that a more random environment contains more learning opportunities in the sense that less exploration is needed. This talk is based on the work with Haoran Wang and Thaleia Zariphopoulou.
报告人简介:
周迅宇,哥伦比亚大学工业工程及运筹学系刘氏家族金融工程讲席教授以及FDT智能资产管理中心主任,华东师范大学商学院客座教授,南京大学工程管理学院客座讲席教授。1984年获得复旦大学数学学士学位,1989年获得复旦大学运筹学与控制论博士,时年24岁。在1989至1991以及1991至1993年间分别于日本神户大学以及多伦多大学担任博士后研究员。从1993年起至2014年,在香港中文大学系统工程与工程管理系历任助理教授,副教授,教授,讲席教授,以及李卓敏金融工程讲席教授。2007年至2016年间,在牛津大学数学研究所任野村数理金融讲席教授,野村数理金融中心主任,以及数学和计算金融组主任。2014年至2016年间,担任牛津-聂氏金融大数据实验室主任。2016年至今,担任哥伦比亚大学工业工程及运筹学系刘氏家族金融工程讲席教授以及FDT智能资产管理中心主任。


