设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
Designing problems are ubiquitous in science research and industry applications. In recent years, Bayesian optimization, which acts as a very effective global optimization algorithm, has been widely applied in designing problems. By structuring the probabilistic surrogate model and the acquisition function appropriately, Bayesian optimization framework can guarantee to obtain the optimal solution under a few numbers of function evaluations, thus it is very suitable to solve the extremely complex optimization problems in which their objective functions could not be expressed, or the functions are non-convex, multimodal and computational expensive. This paper provides a detailed analysis on Bayesian optimization in methodology and application areas, and discusses its research status and the problems in future researches. This work is hopefully beneficial to the researchers from the related communities.
设计类问题在科学研究和工业设计等领域无处不在.例如:编程人员通过选择恰当的算法来优化系统性能; 环境学家通过设计传感器部署位置来监控环境状况; 化学家通过设计实验来获取新的物质; 制药厂商通过设计新型药物来抵抗疾病; 食品厂商通过设计新的食谱来生产优质食品等等.通常, 将这些设计问题考虑成如下最优化问题加以求解(本文只考虑最小化问题, 最大化问题可简单通过取负号操作转换成最小化问题):
其中,
近年来, 大数据应用的发展给物理学、生物学、环境生态学、计算机科学等领域以及军事、金融、通信等行业带了巨大的生机.这些大数据应用通常都存在以下特点:大规模用户量、极其复杂的软件系统、大规模异构计算和分布式存储架构.这些复杂应用包含大量的设计决策, 并且更为复杂, 其优化目标不仅具有多峰、非凸、高维、决策空间巨大等常见特征, 通常还具有黑箱和评估代价高昂等新特点.优化目标不存在明确的数学表达, 并且需要花费高额代价才能观测到目标函数的返回值.例如:在研制某癌症的有效药物问题中, 药物配方可以作为决策空间, 药物效果(药物效果用药物能够治愈病人的概率大小来描述)作为函数输出, 临床实验作为评估药物效果的手段, 目标是找到一种药物配方, 使得药物能够最大概率地治愈病人.在该问题中, 目标函数很难写成一个明确的数学表达式, 评估函数过程可能会导致病人死亡.显然, 这样的评估代价是巨大的.
针对具有以上特征的复杂设计问题, 贝叶斯优化(Bayesian optimization, 简称BO)是一种有效的解决方法[
本文主要综述了贝叶斯优化方法的研究和应用领域.第1节引入贝叶斯优化的主要框架, 并深入分析其优化原理.第2节从模型选择角度介绍贝叶斯优化中两个核心组成部分:概率代理模型和采集函数.第3节介绍贝叶斯优化过程中涉及的近似和优化技术.第4节综述贝叶斯优化方法的扩展及当前应用领域.第5节讨论其在未来发展中将面临的问题与挑战.第6节对其进行总结.
概率模型已经成为当前人工智能、机器人学、机器学习等领域的主流方法[
贝叶斯优化是一种十分有效的全局优化算法, 目标是找到公式(1)中的全局最优解.贝叶斯优化有效地解决了序贯决策理论中经典的机器智能(machine-intelligence)问题:根据对未知目标函数
贝叶斯优化之所以称作“贝叶斯”, 是因为优化过程中利用了著名的“贝叶斯定理”:
其中,
贝叶斯优化框架主要包含两个核心部分——概率代理模型(probabilistic surrogate model)和采集函数(acquisition function).
● 概率代理模型包含先验概率模型和观测模型:先验概率模型即
● 采集函数是根据后验概率分布构造的, 通过最大化采集函数来选择下一个最有“潜力”的评估点.同时, 有效的采集函数能够保证选择的评估点序列使得总损失(loss)最小.损失有时表示为regret:
或累计regret:
其中,
贝叶斯优化框架是一个迭代过程, 主要包含3个步骤:第1步, 根据最大化采集函数来选择下一个最有“潜力”的评估点
1: for
2: 最大化采集函数, 得到下一个评估点:
3: 评估目标函数值
4: 整合数据:
5: end for
贝叶斯优化在一维函数
An example of using Bayesian optimization on a 1D function
当优化危险化学试剂成分时, 错误的试剂成分融合可能发生毁灭性的爆炸; 当优化药物配方时, 潜在致命的药物配方可能导致临床病人死亡; 当优化航天飞机零部件配置时, 不科学的零部件尺寸、结构配置可能导致航天飞机的运行不稳定甚至发生严重的航天事故.由于对这些优化目标进行评估时会花费大量的时间、费用乃至危害生命, 因此, 在优化时通常希望在少量评估代价下得到满意解.相比其他无模型(model-free)优化算法(如进化计算和局部搜索等)关注于对求解效率的提升, 贝叶斯优化更侧重于减少评估代价, 保证其能够仅经过少数次目标函数评估即可得到近优解.
在最优化采集函数的前提下, 贝叶斯优化能够在理论上保证最终收敛[
几种优化算法特点对比
Features of optimization algorithms
最小代价 | 利用先验知识 | 弱假设 | 参数引入不确定性 | 主动选择策略 | |
贝叶斯优化 | √ | √ | √ | √ | √ |
× | √ | × | √ | √ | |
进化计算 | × | × | √ | × | × |
局部搜索 | × | × | √ | × | × |
虽然贝叶斯优化具有多方面的优势, 但该方法仍存在以下局限性.
1) 无模型优化算法不需要考虑模型更新问题, 而贝叶斯优化在更新概率代理模型时需要高昂的计算开销.如:在使用高斯过程代理黑箱函数时, 模型更新的时间复杂度为立方阶.一些研究采用近似技术和并行方法降低模型复杂度, 提高计算效率, 以缓解更新概率模型计算开销大的问题, 具体见第3.1节和第4.1.2节;
2) 相比无模型的优化方法, 贝叶斯优化需要谨慎地选择模型和先验.在使用贝叶斯方法解决具体问题时, 需要根据问题背景和专家知识选择合适的概率模型来代理黑箱函数.为贝叶斯优化选择合适的概率代理模型, 甚至比选择恰当的采集函数更为重要.目前, 还不存在一种通用的方法为贝叶斯优化选择合适的代理模型和先验分布, 都是采取具体问题具体分析的策略.
根据以上特点分析, 贝叶斯优化适合求解优化目标存在多峰、非凸、黑箱、存在观测噪音并且评估代价高昂等特点的问题, 例如危险化学试剂实验、危害生命的药物测试、航空航天测试等等.但这些需要我们根据具体问题选择合适的模型代理模型和采集策略, 才能充分发挥贝叶斯优化方法的潜力.
贝叶斯优化框架有两个关键部分:(1)使用概率模型代理原始评估代价高昂的复杂目标函数; (2)利用代理模型的后验信息构造主动选择策略, 即采集函数.在实际应用中, 需要针对具体问题选择合适的模型.本节介绍贝叶斯优化中常用的概率代理模型和采集函数.在本节最后, 汇总常用概率代理模型和采集函数, 并系统地介绍各自方法的优劣及适用范围.
概率代理模型用于代理未知目标函数, 从假设先验开始, 通过迭代地增加信息量、修正先验, 从而得到更加准确的代理模型.概率代理模型根据模型的参数个数是否固定可分为:参数模型和非参数模型.
参数个数固定的概率模型称作参数模型.该模型在数据量增加和优化过程中, 参数个数始终保持不变.使用
1) 贝塔-伯努利(Beta-Bernoulli)模型
首先讨论最简单的概率代理模型:贝塔-伯努利模型.再次用药物设计问题举例, 假设存在
其中,
概率分布为
其中,
贝塔-伯努利模型不仅可以应用于药物设计问题, 也可以应用于
2) 线性(linear)模型
在许多应用中, 通常假设各决策之间相互独立.如在网页设计中, 考虑页面布局、字体大小、颜色、按钮样式等5种因素, 并且每种因素包含5种选择, 因此, 总共有625种页面配置.若使用贝塔-伯努利模型, 需要假设每种配置相互独立, 因此, 为保证有效性, 每种配置都需要至少一次评估.因此, 该方法不适合解决决策空间庞大的问题.然而, 通过建立线性模型捕获各配置之间的关系, 根据一种配置的表现来推断其他配置的表现, 能够达到减少评估次数的目的[
在线性模型中, 首先假设每种配置
其中,
定义
其中,
其中,
公式(8)仅考虑线性关系, 然而在大多数实际问题中,
其中, 权重参数
3) 广义线性(generalized linear)模型
上面提到的线性模型能够捕获决策之间的关系, 但仅考虑了实数型的观测量.为了推广线性模型处理其他类型的观测量(如整型), Neider等人提出了广义线性模型(GLMs), 通过link function把观测量从观测量空间映射到实数空间, 使得能够处理的观测量类型更加灵活[
在机器学习中, 高度灵活的模型通常能够得到满意的预测效果.这是因为这些模型具有高可扩展性等特点.一般有两种方法扩展模型的灵活性.
(1) 使参数模型拥有比数据集更多的参数.例如:目前用于翻译英语和法语的神经网络拥有3亿8千4百万个参数[
(2) 使用非参数模型.在非参数模型中, 模型的参数随着数据量的增加而增加, 甚至存在无限多个参数.因此, 相比参数固定的参数模型, 非参数模型更加灵活, 并且使用贝叶斯方法不易发生“过拟合”[
1) 高斯过程
高斯过程(Gaussian processes, 简称GPs)是常用的一种非参数模型, 目前, 高斯过程已被广泛应用在回归、分类以及许多需要推断黑箱函数的领域中[
高斯过程是多元高斯概率分布的范化[
其中, 均值函数
高斯过程是一个随机变量的集合, 存在这样的性质:任意有限个随机变量都满足一个联合高斯分布[
其中,
当存在观测噪声时, 即
其中,
根据公式(18)和公式(19), 可以得到边际似然分布:
通常, 通过最大化该边际似然分布优化超参数
根据高斯过程的性质, 存在如下联合分布:
其中,
根据公式(21), 容易得到如下预测分布:
其中, 〈
先验均值函数表示目标函数期望的偏移量.为了增加模型的解释性同时方便先验信息的表达, 可以明确地指定先验均值函数
然而, 在实际应用中, 指定一个明确的、合理的先验均值函数十分困难[
在高斯过程中存在这样一致连续或利普希茨连续的平滑性假设:当输入点
在实际应用中, 只有选择合适的协方差函数才能保证得到理想的预测效果.协方差函数一般分为平稳(stationary)协方差函数(平稳的协方差函数满足
常用的平稳协方差函数有平方指数(squared exponential)协方差函数、指数(exponential)协方差函数和Matérn协方差函数等等.
Matérn协方差函数簇是一类高灵活性的协方差函数, 具体函数表达式如下:
其中,
从使用Matérn协方差函数的高斯过程中采样的目标函数
常用Matérn协方差函数
Common Matérn covariance functions
具体表达式 | |
1/2 | |
3/2 | |
5/2 | |
当
当
当
也可根据问题特性使用有效协方差组合.更多的协方差函数在文献[
2) 随机森林
随机森林回归是一种十分适合并行化的回归方法[
与高斯过程高昂的更新代价相比, 随机森林方法具有极其优秀的计算效率.由于其计算的高效性和对大规模数据集的有效性, 该方法已成功地应用于自动算法配置领域[
虽然随机森林回归在训练数据附近能够快速得到高精度预测, 但在远离训练数据时的预测效果通常很差, 并且该方法的响应面是非连续、不可微的, 因此不能对其使用基于梯度的优化方法.
3) 深度神经网络
深度神经网络通常是指层数超过2层的神经网络, 虽然具有无限多个隐层单元的神经网络等价于高斯过程, 但该神经网络具有无穷多个参数, 无法训练.为了减少参数个数, 一种常用的方法就是增加神经网络的深度.
近年来, 由于其优越的性能, 深度神经网络已成功应用于语音识别[
前一节介绍了代理复杂黑箱目标函数的概率模型, 并介绍了如何结合新样本进行模型更新.本节介绍在贝叶斯优化中, 选择下一个评估点的主动策略:采集函数.所谓采集函数就是从输入空间
为方便描述, 本节不考虑采集函数对超参数的依赖, 对超参数的优化将在第3.2.1节加以介绍.
几种常用采集函数对比
Comparison of several common acquisition functions
基于提升的策略偏好选择对于当前最优目标函数值有所提升(这里的提升是指比当前目标函数值要小)的位置作为评估点.
PI(probability of improvement)量化了
其中,
虽然PI策略能够选择提升概率最大的评估点, 但是PI策略把所有提升看成是等量的, 只反映了提升的概率而没有反映提升量的大小.
Močkus等人提出了一种新的基于提升的策略:EI(expected improvement)[
其中,
置信边界策略已在
然而, 当求解目标函数的最小值时, 使用置信下界策略LCB:
其中, 参数
Srinivas等人给出了相对于不同协方差函数参数
首先定义在未知目标函数全局最优解
汤普森采样(Thompson sampling, 简称TS)[
考虑药物设计问题, 参数
其中,
汤普森采样策略存在如下几个优势:(1)没有多余的参数并且容易实现; (2)由于根据后验分布随机采样选取最优, 该方法很自然地平衡了寻找当前最优与探索新区域之间的关系; (3)特别适合批量或延迟的反馈情形[
前面提到的汤普森采样针对搜索空间是离散的, 当搜索空间
熵搜索策略(entropy search, 简称ES)[
其中,
公式(34)在实际中是不能精确计算的, 因为计算
Hernándezlobato等人在2014年提出熵预测搜索(predictive entropy search, 简称PES)[49].该方法利用
相比公式(34)依赖
采用单一采集函数的贝叶斯优化算法不可能在所有问题上都表现出最好的性能[
Shahriari等人提出一种基于信息的组合策略ESP(entropy search portfolio)[
利用贝叶斯优化解决实际问题时, 选择合适的概率代理模型和采集函数是十分重要的.然而在贝叶斯优化领域中没有统一而明确的选择标准, 这仍是具有挑战性的开放问题.为了从总体上更加清晰地认识常用的代理模型和采集函数, 我们总结了各自方法的优势、劣势以及其代表性应用和文献, 希望为相关研究者提供有益的参考, 帮助他们在采用贝叶斯优化解决实际问题时选择合适的模型.
常用概率代理函数汇总
A summary of common probabilistic surrogate models
类别 | 概率代理模型 | 优势 | 劣势 | 代表性应用 |
参数模型 | 贝塔-伯努利模型 | 简单, 适用于观测量为二值的问题 | 需假设各决策之间独立, 不适用于决策空间庞大的问题 | |
线性模型 | 考虑各决策之间依赖关系, 适用于决策空间庞大的问题 | 需预先为决策定义 |
传感器网络和自动算法配置[ |
|
广义线性模型 | 具有线性模型的优点, 且能处理任意类型(如:整型)观测量 | 需预先为决策定义 |
||
非参数模型 | 高斯过程 | 高灵活性和可扩展性, 理论上能代理任意线性/非线性函数 | 训练复杂度高, 不适用于具有大量已观测样本的问题, 且需预先仔细选择领域相关的协方差函数 | 机器人控制[ |
随机森林 | 计算效率高, 适用于大规模数据集 | 预测精度与训练集高度依赖, 且不能对其使用基于梯度的优化方法 | 自动算法配置[ |
|
深度神经网络 | 可处理大规模数据 | 需预先设计合适的神经网络结构(如每层的神经元个数, 层数等) | 自动算法配置[ |
常用采集函数汇总
A summary of common acquisition functions
类别 | 采集函数 | 优势 | 劣势 | 代表性文献 |
基于提升的策略 | PI | 简单易推导 | 把提升看作等量, 仅反映提升的概率而没有反映提升量的大小 | [ |
EI | 参数少, 既整合提升的概率又体现不同的提升量, 并平衡了深度和宽度之间的关系 | 当使用基于梯度的方法优化时, 需推导导数信息 | [ |
|
置信边界策略 | 置信边界策略 | 简单, 平衡了深度和宽度之间的关系 | 对参数 |
[ |
基于信息的策略 | 汤普森采样 | 无多余参数, 其随机性避免局部最优, 适用于批量或延迟反馈的情形 | 具有强宽度搜索性质, 不适用于处理高维度问题 | [ |
熵搜索策略 | 利用熵定义精确减少最优解的不确定性 | 计算量高, 且需使用近似技术 | [ |
|
熵预测策略 | 具有熵搜索策略优点, 且方便计算 | 引入熵和期望的计算量 | [ |
|
组合策略 | GP-Hedge | 强鲁棒性 | 每次迭代需计算所有采集函数, 增加计算量, 且优化初期可能做出错误选择 | [ |
ESP | 强鲁棒性, 对表现差的采集函数高容忍, 并能克服初期错误选择 | 每次迭代需计算所有采集函数, 同时引入熵的计算 | [ |
上节介绍了多种常用的概率代理模型和采集函数.选择合适的模型之后, 需要考虑如何对概率模型进行更新推断以及如何优化超参数和采集函数.本节介绍贝叶斯优化过程中涉及到的近似和优化技术.
在贝叶斯优化中, 概率代理模型更新是迭代优化过程中的核心步骤.概率代理模型更新是指根据整合的新样本推断出模型后验.
当模型先验与似然分布非共轭时, 难以得到后验分布的封闭解.该情况可以采用变分贝叶斯(variational Bayesian, 简称VB)近似推断[51]或蒙特卡洛近似方法得到近似后验分布.并且, 这两种近似方法的好处在于能够处理任意类型的模型先验与似然, 十分灵活.
当概率代理模型为高斯过程时, 由于在推断后验分布时需要计算
常用近似技术
Common approximation techniques
方法 | 时间复杂度 |
精确GP | |
Cholesky分解[ |
|
SPGP[ |
|
SSGP[ |
SPGP(sparse Gaussian process using pseudo-inputs)方法属于降秩近似方法, 引入
之后, 通过蒙特卡洛方法采样
概率代理模型中, 超参数的取值直接影响模型的预测效果.对这些超参数的优化是必要的.极端情况下, 每次迭代都根据当前的数据重新学习所有超参数.这样的方法虽然能够保证模型的准确率, 但是对超参数的学习需要高昂的计算量, 效率低下.当前常用的贝叶斯优化实现(如BayesOPT[
贝叶斯优化过程中, 一般对超参数处理有两种方法:点估计和近似边际化估计.
点估计方法有:
1) 通过第Ⅱ类极大似然估计(type Ⅱ maximum likelihood, 简称ML)对边际似然(见公式(20))最大化, 得到
2) 为超参数赋予先验
最后, 通过最大后验估计(maximum a posteriori, 简称MAP)最大化公式(37), 得到
3) 最大化留一法交叉验证得到的似然均值(称作leave-one-out likelihood或pseudo-likelihood), 得到超参数估计
根据上面估计出的
在贝叶斯优化过程中, 不确定性在指导宽度搜索时起着重要作用.然而, 上面提到的点估计方法本质上不能捕获这些不确定性.因此, 为了处理这一问题, 通常对
通常使用蒙特卡洛方法近似得到公式(39)中的积分.即, 首先从后验分布
Osborne等人[
其中, 权值
第2.2节介绍了几种常用采集函数, 注意到:在贝叶斯优化中, 当通过这些采集函数选取下一个评估点时, 需要通过最大化公式(27).然而, 采集函数通常是非凸、多峰的, 甚至在本质上比目标函数更难优化.但是相比较目标函数, 采集函数的评估代价通常很小.因此, 为了不影响求解效率, 通常需要尽量简单地设计采集函数.优化采集函数的方法称作辅助优化器.目前, 在贝叶斯优化研究中常用的辅助优化器有离散化方法[
本节对贝叶斯优化方法扩展研究和当前主要应用领域进行总结.
对贝叶斯优化方法扩展可分为两类:对概率代理模型的扩展和对采集函数的扩展.
1) 高维度扩展
维数灾难(curse of dimensionality)是机器学习、数据挖掘等多领域涉及的现象.随着维度的增加, 搜索空间
2) 多任务扩展
前面提到的贝叶斯优化仅适用于单个任务的情形, 然而许多情况下, 希望同时优化多个相关的任务.解决这一问题的本质方法是通过一个任务提供的信息应用到其他相关任务上.Swersky等人通过使用多输出的高斯过程[
其中,
Bonilla等人提出的多任务扩展方法是将公式(42)中的
3) 冻融(freeze-thaw)扩展
在实验设计时, 传统的贝叶斯优化在完全训练后才能对模型的性能进行评估.然而模型训练需要花费大量的时间, 因此希望在训练模型的同时能够预先评估模型的性能.Swersky等人提出一种冻融贝叶斯优化[69].“冻”表示挂起未完全训练的模型, “融”表示继续训练某个未完全训练的模型.该方法可在训练过程中预测模型性能, 使其能挂起表现相对不好的实验并恢复表现相对好的实验.同时, 该方法构造了一个非稳定性的协方差函数来预测模型的性能:
并且通过基于熵搜索的采集函数选择继续训练的模型.
1) 约束和代价敏感性
在优化现实生活中的实际问题时, 有时需要满足某些预先定义的约束.例如:食品工厂生产一种饼干, 目标是使饼干具有最低的卡路里, 同时需要满足大多数人的口味.实际优化问题中的这些约束有时也是黑箱的.针对这一问题, Gelbart等人提出一种解决带黑箱约束的贝叶斯优化[70].该方法假设约束之间相互独立, 并提出一种结合约束的采集函数:
其中,
如果优化过程中需要考虑时间消耗或存储量有明确预算等, 并且每个
其中,
Kandasamy等人[
2) 基于距离的采集函数
Marchant等人提出一种基于距离的采集函数[
其中,
这类采集函数可以应用于距离敏感的采样过程, 如在环境监控中, 需要通过飞行器飞行到达某一位置去采样当地污染物浓度, 利用基于距离的采集函数不仅保证通过少量采样找到污染物浓度最大的地区, 而且保证飞行距离最小.
3) 并行化扩展
贝叶斯优化本质上是一个序贯模型, 但是为了加快贝叶斯优化的求解效率, 可同时进行多次函数评估, 即并行化扩展.Ginsbourger等人提出一种并行化方法[
Snoek等人提出一种并行化的采集函数[
其中,
为方便相关领域研究者对当前贝叶斯优化的扩展方法有一个清晰的认识, 本节对上述扩展方法进行分类、总结和对比, 并列出其最具代表性的扩展方法.
概率代理模型扩展方法对比
Comparison of extension methods of probabilistic surrogate models
类别 | 代表性方法 | 特点描述及适用场景 |
高维度扩展 | Wang等人[ |
利用随机嵌入降维, 可求解近10亿维问题, 但需满足低有效维度假设 |
Qian等人[ |
利用连续随机嵌入降维, 放松了低有效维度假设 | |
Li等人[ |
泛化了低有效维度假设, 利用在优化过程中根据最大边际似然学习分组, 增加分组的计算量 | |
Wang等人[ |
利用概率图模型更准确地学习分组结构, 但同样引入分组计算量 | |
Gardner等人[ |
利用MCMC学习分组并根据似然自动选择模型(如协方差函数) | |
Li等人[ |
简单、有效且附加计算量少, 但需要预先定义维度补充方法 | |
多任务扩展 | Swersky等人[ |
利用多输出高斯过程代理目标函数 |
Bonilla等人[ |
引入多源信息增强任务之间的关联性, 适用于具有多源任务相关信息的情形 | |
Bonilla等人[ |
通过数据学习任务关联性, 增加模型的灵活性, 由于参数增加, 因此需保证足够的数据量 | |
冻融扩展 | Swersky等人[ |
可在训练过程中预测模型性能, 挂起表现不好的实验, 恢复表现好的实验, 从而加快优化进程, 适用于可随时暂停和恢复训练且完整训练极其耗时的问题 |
采集函数扩展方法对比
Comparison of extension methods of acquisition function
类别 | 代表性方法 | 特点描述及适用场景 |
约束和代价敏感性 | Gelbart等人[ |
可处理带黑箱约束的问题, 但需假设各个约束相互独立 |
Snoek等人[ |
考虑代价敏感性, 适用于候选点评估代价不同的问题 | |
Kandasamy等人[ |
适用于多精度评估问题, 基于置信区间策略选择不同精度评估 | |
Marco等人[ |
适用于多精度评估问题, 基于熵搜索策略选择不同精度评估 | |
距离敏感 | Marchant等人[ |
适用于对移动距离敏感的问题, 如利用无人机监控交通或环境 |
并行化 | Ginsbourger等人[ |
为未完成的观测分配假的观测值(如常量或均值), 用于选择之后的评估点, 但假的观测会影响候选点的选择结果 |
Snoek等人[ |
考虑了未完成观测的所有可能情况, 用采样方式近似积分, 以精确地选择之后的评估点, 但引入了积分近似的计算量, 且不是严格上的并行 | |
Hutter等人[ |
可同时产生多个候选点并同时评估 |
作为优化复杂黑箱问题的有效手段, 贝叶斯优化已被应用于许多领域.本节将详细地总结其当前应用领域.
1)
Google和Microsoft等公司在广告与网页优化设计方面[
2) 推荐系统
Google和Microsoft等公司应用贝叶斯优化技术, 根据订阅者订阅的网站、视频、音乐等方面的内容为订阅者推荐相关的新闻文章[
3) 机器人学、嵌入式系统及系统设计
对两足或多足机器人的步态优化十分具有挑战性.Lizotte等人应用贝叶斯优化解决传统步态优化方法容易陷入局部最优和需要大量评估的缺点[
4) 环境监控与传感器网络
传感器设备用于测量速度、温度、湿度、空气质量、污染物含量等环境指标.由于不能在所有区域布置传感器, 再加上噪声的干扰, 传感器测量的数据常常存在不确定性.此外, 激活传感器设备进行环境感知都会消耗能量, 如电量和传输流量.Srinivas等人使用高斯过程代理的贝叶斯优化, 通过仅激活少量的传感器, 便可找到室内温度极值位置或高速公路上最堵位置[
5) 偏好学习与交互界面
在处理计算机图形与动画领域中的问题时, 通常需要专业人员手动调整大量棘手的参数.例如, 构造烟雾场景的粒子系统, 需要调整速度、半径、涡环大小、长度尺度、旋度噪音等参数.通常情况下, 这些参数十分复杂, 非专业人员难以理解.Brochu等人提出一种使用贝叶斯优化的迭代选择方法.该方法在处理图片时不需要专业人员手动调参, 只需在每次迭代时从生成的两张对比图片(两张对比图片具有不同的参数配置)中选取与目标更像的图片作为反馈(此时, 用户知道最终想要的图片效果), 不需要用户理解复杂参数的具体含义.该方法通过返回的对比偏好信息更新代理模型, 并根据完全随机、EI等策略生成下一次迭代的两张对比图片, 直到找到满足需求的目标图片[
6) 自动算法配置
构造一种优秀的算法通常需要经过大量的参数调节实验.若算法的参数调节都需要人工干预, 将花费大量的时间和人力, 甚至做无用功.因此, 自动算法配置十分必要.这样不仅能减少人工干预, 使得人们能够更专注于新模型构建等高层次问题, 还能缩短大量的训练时间.相比人工经验或穷举, 优化算法会自动选择合适的参数配置进行训练验证.贝叶斯优化能够胜任这类问题, 并已取得了令人瞩目的成果.Bergstra等人应用贝叶斯优化自动地调整神经网络和深度信念网络中的超参数[
7) 自然语言与文本处理
Wang等人使用贝叶斯优化对文本进行术语提取(term extraction)[
8) 生物、化学及晶体学
贝叶斯优化同样可以胜任在生物、化学及晶体学等领域中的高代价优化任务.Carr等人应用贝叶斯优化技术在晶体表面上寻找分子最稳定的吸附位置[
9) 迁移学习
Ruder等人在迁移学习过程中, 利用贝叶斯优化技术从多源或多领域数据中自动地选择有效数据作为训练集, 以达到增强模型能力的目的, 且与具体学习模型无关[
前面详细地介绍了贝叶斯优化的研究现状.然而, 随着大数据应用的发展, 待优化目标的规模和复杂程度将会有所增加.作为处理评估代价大的复杂黑箱问题的有效解决方法, 贝叶斯优化在未来发展中将面临下列问题与挑战.
一.实时性和自适应性
贝叶斯优化每次迭代需要对概率代理模型进行更新, 当问题维度高或存在大量历史数据时, 更新概率模型需要高昂的计算量, 尤其不能满足对实时性要求高的实际任务.针对该问题, 研究者已经提出了一些解决策略.
1) 降维映射, 见第4.1.1节.当贝叶斯优化处理高维度问题时, 需要从高维度空间映射到低维度空间进行优化, 虽然该方法加快了求解效率, 但是需要假设问题存在低有效维度的性质;
2) 近似方法, 见第3.1节.当模型的先验不为共轭先验时, 需要使用变分贝叶斯近似推断或蒙特卡洛采样方法得到模型近似后验分布.当使用高斯过程代理目标函数时, 精确推断需要
3) 并行化, 见第4.1.2节.通过对贝叶斯优化进行并行化扩展, 能够同时评估多次目标函数, 加快求解效率.该策略选择评估点时, 根据部分未完成评估的采样点返回的虚拟观测值, 而不是真实观测值, 会在一定程度上影响求解精度;
4) 时间敏感性, 见第4.1.2节.时间敏感性主动选择策略能够选择单位时间期望提升最大的点进行评估.但该方法在相同迭代预算下, 与传统方法相比, 存在精度差异.在提高贝叶斯优化求解效率时, 难点在于如何解决精度和计算开销之间的平衡关系.
此外, 贝叶斯优化在处理优化目标动态变化的问题时, 应该具有自适应的调整能力.在已有规划解的基础上, 针对问题变化, 动态调整现有策略, 而不需要推倒重来, 从头计算.例如:在交通领域中, 当车辆前方发生不可预测的事件(如车祸)造成拥堵时, 需要优化程序能够自适应地、增量地调整规划路线.
二.分布式
随着数据量的增加, 复杂应用很难在一台终端上高效执行.因此, 贝叶斯优化还需要具有分布式处理数据的能力.贝叶斯优化的分布式扩展应具有以下特点.
1) 负载均衡.能够有效地利用计算资源, 避免资源过于集中和浪费;
2) 具有高效的计算效率.目前, 贝叶斯优化并行技术是为了加快其求解效率, 同时进行多次函数评估, 本质上是对采集函数的并行化扩展(见第4.1.2节).该方法仍存在集中环节, 即集中回收评估点返回的观测值集合, 然后整合更新概率模型决策候选点集合;
3) 高容错性和强健壮性.分布式计算中一个任务往往存在多个备份, 一个备份所在终端失效后, 其余备份仍可继续执行, 从而实现任务的健壮性.与之不同的是, 贝叶斯优化过程所要求的高容错性和强健壮性应能有效处理没有备份的任务, 根据需要动态地进行优化策略调整.例如:在无人机对抗情景中, 将每个无人机看作节点, 这些无人机基于自组织、不可靠的通信网进行协同作战.当一架无人机被击落时, 该小组应能动态调整队形, 继续执行作战任务.这种去中心化的优化策略可以避免出现击毁中心机使整个小组瘫痪的情况;
4) 多策略分布式协同求解.贝叶斯优化的分布式扩展可同时存在多个不同的策略(不同的概率模型和采集函数), 并像深度学习中的对抗网络一样, 各个策略相互促进、相互影响, 从而达到理想的学习效果.然而, 对贝叶斯优化分布式扩展的难点在于分布式概率代理模型和采集函数的构建, 并且需要处理各个分散节点之间的信息交互问题.
三.多目标
贝叶斯优化的多任务扩展能够处理多个相关任务, 根据相关性, 将一个任务的信息应用到其他相关任务上, 从而达到迁移学习的目的.例如:第4.1.1节中, Swersky等人使用高斯过程同时处理多个相关的超参数优化任务, 为每一个任务得到最优的超参数配置, 从而使系统性能最大化.该方法的优化目标是最优化所有任务的平均性能.但在实际应用中, 许多问题需要同时优化多个目标, 这些目标可能会存在“冲突”关系.例如:在智能交通应用中, 既要规划出最短路径, 又要尽量多地收集未知区域的道路情况, 但这两个目标很难同时满足.第4.1.2节中介绍的约束扩展方法将两个目标中的一个作为优化目标, 另一个作为约束处理.当目标间存在冲突时, 不存在绝对最优解, 只存在有效解集合.当把多目标转换成带约束的单目标优化时, 求得的优化解仅是单目标的最优解, 忽略了转化为约束的目标的重要程度.Tesch等人提出一种面向多目标的贝叶斯优化方法, 尽管该方法能够得到帕累托集, 但忽略了目标之间的依赖关系[
四.模型选择问题
模型选择一直是贝叶斯方法面临的棘手问题.贝叶斯优化涉及的模型选择有观测模型选择、(非)参数模型先验选择以及超参数先验选择.观测模型需根据领域知识指导选择.合理的观测模型需对错误假设具有鲁棒性, 即:当真实数据与模型假设不相符时, 其仍具有良好的表现.不同问题具有不同的性质, 因而具有不同的先验形式.例如:在监测城市道路状况时, 由于人们有早出晚归的习惯, 通常道路状况会出现早晚高峰周期性的表现, 因此, 可以选择存在周期性质的协方差函数构造先验模型.然而, 极端环境监测问题不具备这样的周期性质, 因此需要选择其他合适的先验模型.当使用贝叶斯方法估计超参数时, 需要选择合理的超参数先验, 增加超参数估计精度, 提升模型预测准确率.
在贝叶斯优化中, 选择合适的概率代理模型甚至比采集函数的选择还要关键.在一些领域中, 如制药和传染病控制, 需要更加谨慎地选择合适的模型, 提高概率模型预测的准确度, 降低评估过程的代价.尽管目前存在一些模型选择的方法[
作为求解非凸、多峰、评估代价高昂、黑箱的复杂优化问题的有效解决方案, 贝叶斯优化近年来在多领域获得了广泛关注.本文综述了贝叶斯优化的研究现状.
● 首先, 从其优化框架和优化原理入手, 详细分析其优势与劣势, 以帮助相关领域研究者深入理解贝叶斯优化; 然后, 从模型选择的角度介绍了贝叶斯优化两个核心部分:概率代理模型和采集函数, 旨在为建模求解复杂优化问题进行模型选择时提供参考;
● 其次, 介绍了贝叶斯优化涉及的近似与优化技术, 并深入到技术细节;
● 最后, 总结了贝叶斯优化的方法扩展和当前主要应用领域.
同时, 本文也关注随着待优化目标的规模和复杂程度的增加, 贝叶斯优化将面临实时性和自适应性、分布式、多目标以及模型选择等问题与挑战.此外, 相比于其他优化技术, 贝叶斯优化还存在一些局限性.本文通过对贝叶斯优化的详细分析和讨论, 希望为相关领域的研究者予以帮助.
Shahriari B, Swersky K, Wang Z, Adams RP, Freitas ND. Taking the human out of the loop:A review of Bayesian optimization. Proc. of the IEEE, 2016, 104(1):148-175.
Kohavi R, Longbotham R, Dan S, Henne RM. Controlled experiments on the Web:Survey and practical guide. Data Mining and Knowledge Discovery, 2009, 18(1):140-181.
Scott SL. A modern Bayesian look at the multi-armed bandit. Applied Stochastic Models in Business and Industry, 2010, 26(6):639-658.
Chapelle O, Li L. An empirical evaluation of Thompson sampling. Advances in Neural Information Processing Systems, 2011, 2249-2257.
Khajah MM, Roads BD, Lindsey RV, Liu YE, Mozer MC. Designing engaging games using Bayesian optimization. In: Proc. of the ACM Conf. on Human Factors in Computing Systems. 2016. 5571-5582.
Frazier PI, Wang J. Bayesian optimization for materials design. In: Proc. of the Mathematics. 2015.
Li L, Chu W, Langford J, Schapire RE. A contextual-bandit approach to personalized news article recommendation. In: Proc. of the Int'l Conf. on World Wide Web. 2010. 661-670.
Vanchinathan HP, Nikolic I, Bona FD, Krause A. Explore-Exploit in top-n recommender systems via Gaussian processes. In: Proc. of the ACM Conf. on Recommender Systems. 2014. 31.
Brochu E, Brochu T, Freitas ND. A Bayesian interactive optimization approach to procedural animation design. In: Proc. of the ACM SIGGRAPH/Eurographics Symp. on Computer Animation. 2010. 103-112.
Brochu E, Cora VM, Freitas ND. A tutorial on Bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning. In: Proc. of the Computer Science. 2010.
Lizotte D, Wang T, Bowling M, Schuurmans D. Automatic gait optimization with Gaussian process regression. In: Proc. of the Int'l Joint Conf. on Artifical Intelligence. 2007. 944-949.
Martinez-Cantin R, Freitas ND, Doucet A, Castellanos JA. Active policy learning for robot planning and exploration under uncertainty. In: Proc. of the Robotics: Science and Systems Ⅲ. 2007. 321-328.
Schneider J. Bayesian optimization and embedded learning systems. In: Proc. of the ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. 2016. 413-413.
Marchant R, Ramos F. Bayesian optimisation for intelligent environmental monitoring. In: Proc. of the IEEE/RSJ Int'l Conf. on Intelligent Robots and Systems. 2012. 2242-2249.
Zhang Y, Sohn K, Villegas R, Pan G, Lee H. Improving object detection with deep convolutional networks via Bayesian optimization and structured prediction. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015. 132-132.
Wang Z, Zoghi M, Hutter F, Matheson D, Freitas ND. Bayesian optimization in a high dimensions via random embeddings. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence. 2013.
Bergstra J, Bardenet R, Bengio Y, Kégl B. Algorithms for hyper-parameter optimization. Advances in Neural Information Processing Systems, 2011, 24(24):2546-2554.
Snoek J, Larochelle H, Adams RP. Practical Bayesian optimization of machine learning algorithms. Advances in Neural Information Processing Systems, 2012, 4:2951-2959.
Swersky K, Snoek J, Adams RP. Multi-Task Bayesian optimization. Advances in Neural Information Processing Systems, 2013, 2004-2012.
Mahendran N, Wang Z, Hamze F, Freitas ND. Adaptive MCMC with Bayesian optimization. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2010.
Thornton C, Hutter F, Hoos HH, Leyton-Brown K. Auto-WEKA: Combined selection and hyperparameter optimization of classification algorithms. In: Proc. of the Computer Science. 2013. 847-855.
Hoffman MW, Shahriari B, Freitas ND. On correlation and budget constraints in model-based bandit optimization with application to automatic machine learning. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2014. 365-374.
Srinivas N, Krause A, Kakade SM, Seeger M. Gaussian process optimization in the bandit setting: No regret and experimental design. In: Proc. of the Int'l Conf. on Machine Learning. 2010.
Garnett R, Osborne MA, Roberts SJ. Bayesian optimization for sensor set selection. In: Proc. of the Int'l Conf. on Information Processing in Sensor Networks. 2010. 209-219.
Ghahramani Z. Probabilistic machine learning and artificial intelligence. Nature, 2015, 521:452-459.
Jones DR, Schonlau M, Welch WJ. Efficient global optimization of expensive black-box functions. Journal of Global Optimization, 1998, 13(4):455-492.
Nelder JA, Baker RJ. Generalized linear models. Journal of the Royal Statistical Society, 1972, 135(3):370-384.
Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 2014, 4:3104-3112.
Rasmussen CE, Williams CKI. Gaussian Processes for Machine Learning. The MIT Press, 2006.
Lu C, Tang X. Surpassing human-level face verification performance on LFW with GaussianFace. In: Proc. of the Computer Science. 2014.
Neal RM. Bayesian learning for neural networks[Ph.D. Thesis]. Toronto: University of Toronto, 1996.
Paciorek CJ, Schervish MJ. Nonstationary covariance functions for Gaussian process regression. Advances in Neural Information Processing Systems, 2003, 16:273-280.
Hutter F, Hoos HH, Leyton-Brown K. Sequential model-based optimization for general algorithm configuration. In: Proc. of the Conf. on Learning and Intelligent Optimization. 2011. 507-523.
Watson, GN. A Treatise on the Theory of Bessel Functions. 2nd ed., London:Cambridge University Press, 1966.
Breiman L. Random forests. Machine Learning, 2001, 45(1):5-32.
Zhang Y, Chan W, Jaitly N. Very deep convolutional networks for end-to-end speech recognition. In: Proc. of the Int'l Conf. on Acoustics, Speech and Signal Processing. 2017.
Karpathy A, Li FF. Deep visual-semantic alignments for generating image descriptions. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2014, 39(4):664-676.
Snoek J, Rippel O, Swersky K, Kiros R, Satish N, Sundaram N, Patwary MMA, Prabhat, Adams RP. Scalable Bayesian optimization using deep neural networks. In: Proc. of the Statistics. 2015. 1861-1869.
Springenberg JT, Klein A, Falkner S, Hutter F. Bayesian optimization with robust Bayesian neural networks. Advances in Neural Information Processing Systems, 2016.
Kushner HJ. A new method of locating the maximum point of an arbitrary multipeak curve in the presence of noise. Journal of Fluids Engineering, 1963, 86(1).
Jones DR. A taxonomy of global optimization methods based on response surfaces. Journal of Global Optimization, 2001, 21(4):345-383.
Mockus J, Tiesis V, Zilinskas A. The application of Bayesian methods for seeking the extremum. In: Proc. of the Towards Global Optimisation 2. 1978. 117-129.
Lizotte DJ. Practical Bayesian optimization[Ph.D. Thesis]. Alberta: University of Alberta, 2008.
Lai TL, Robbins H. Asymptotically efficient adaptive allocation rules. Advances in Applied Mathematics, 1985, 6(1):4-22.
Thompson WR. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika, 1933, 25(3-4):285-294.
Shahriari B, Wang Z, Hoffman MW, Bouchard-Côté A. An entropy search portfolio for Bayesian optimization. In: Proc. of the Conf. on Neural Information Processing Systems: Workshop on Bayesian Optimization in Academia and Industry. 2014.
Lázaro-Gredilla M, QuiñOnero-Candela J, Rasmussen CE, Figueiras-Vidal AR. Sparse spectrum Gaussian process regression. Journal of Machine Learning Research, 2010, 11(9):1865-1881.
Villemonteix J, Vazquez E, Walter E. An informational approach to the global optimization of expensive-to-evaluate functions. Journal of Global Optimization, 2009, 44(4):509-534.
Hernándezlobato JM, Hoffman MW, Ghahramani Z. Predictive entropy search for efficient global optimization of black-box functions. In: Proc. of the Conf. on Neural Information Processing Systems: Workshop on Bayesian Optimization in Academia and Industry. 2014.
Brochu E, Hoffman M, Freitas ND. Portfolio allocation for Bayesian optimization. In: Proc. of the Conf. on Uncertainty in Artificial Intelligence. 2011.
Tzikas DG, Likas CL, Galatsanos NP. The variational approximation for Bayesian inference. IEEE Signal Processing Magazine, 2008, 25(6):131-146.
Seeger M, Williams CKI, Lawrence ND. Fast forward selection to speed up sparse Gaussian process regression. In: Proc. of the Conf. on Artificial Intelligence and Statistics. 2003.
Snelson E, Ghahramani Z. Sparse Gaussian process using pseudo-inputs. Advances in Neural Information Processing Systems, 2006, 18(1):1257-1264.
Martinez-Cantin R. BayesOpt:A Bayesian optimization library for nonlinear optimization, experimental design and bandits. Journal of Machine Learning Research, 2014, 15:3735-3739.
Osborne MA, Garnett R, Roberts SJ. Gaussian processes for global optimization. In: Proc. of the Int'l Conf. on Learning and Intelligent Optimization. 2009.
Rasmussen CE, Ghahramani Z. Bayesian Monte Carlo. Advances in Neural Information Processing Systems, 2002.
Osborne MA, Roberts SJ, Rogers A, Ramchurn SD, Jennings NR. Towards real-time information processing of sensor network data using computationally efficient multi-output Gaussian processes. In: Proc. of the Int'l Conf. on Information Processing in Sensor Networks. 2008. 109-120.
Bardenet R, Kégl B. Surrogating the surrogate: Accelerating Gaussian-process-based global optimization with a mixture crossentropy algorithm. In: Proc. of the Int'l Conf. on Machine Learning. 2010.
Jones DR, Perttunen CD, Stuckman BE. Lipschitzian optimization without the Lipschitz constant. Journal of Optimization Theory and Applications, 1993, 79(1):157-181.
Hansen N, Ostermeier A. Completely derandomized self-adaptation in evolution strategies. IEEE Trans. on Evolutionary Computation, 2001, 9(2):159-195.
Wang Z, Shakibi B, Jin L, Freitas ND. Bayesian multi-scale optimistic optimization. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2014. 1005-1014.
Qian H, Hu YQ, Yu Y. Derivative-Free optimization of high-dimensional non-convex functions by sequential random embeddings. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence. 2016.
Li CL, Kandasamy K, Poczos B, Schneider J. High dimensional Bayesian optimization via restricted projection pursuit models. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2016.
Wang Z, Li C, Jegelka S, Kohli P. Batched high-dimensional Bayesian optimization via structural kernel learning. In: Proc. of the Int'l Conf. on Machine Learning. 2017.
Gardner JR, Guo C, Weinberger KQ, Garnett R, Grosse R. Discovering and exploiting additive structure for Bayesian optimization. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2017.
Li C, Gupta S, Rana S, Nguyen V, Venkatesh S, Shilton A. High dimensional Bayesian optimization using dropout. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence. 2017.
Bonilla EV, Agakov FV, Williams CKI. Kernel multi-task learning using task-specific features. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2007.
Bonilla EV, Chai KMA, Williams CKI. Multi-Task Gaussian process prediction. Advances in Neural Information Processing Systems, 2007.
Swersky K, Snoek J, Adams RP. Freeze-Thaw Bayesian optimization. Eprint Arxiv, 2014.
Gelbart MA, Snoek J, Adams RP. Bayesian optimization with unknown constraints. In: Proc. of the Computer Science. 2014.
Kandasamy K, Dasarathy G, Oliva J, Schneider J, Poczos B. Gaussian process bandit optimisation with multi-fidelity evaluations. Advances in Neural Information Processing Systems, 2016.
Marco A, Berkenkamp F, Hennig P, Schoellig AP, Krause A, Schaal S, Trimpe S. Virtual vs. real: Trading off simulations and physical experiments in reinforcement learning with Bayesian optimization. In: Proc. of the Int'l Conf. on Robotics and Automation. 2017.
Ginsbourger D, Riche RL, Carraro L. Kriging is well-suited to parallelize optimization. In: Proc. of the Computational Intelligence in Expensive Optimization Problems. 2010. 131-162.
Hutter F, Hoos HH, Leyton-Brown K. Parallel algorithm configuration. In: Proc. of the Int'l Conf. on Learning and Intelligent Optimization. 2012. 55-70.
Akrour R, Sorokin D, Peters J, Neumann G. Local Bayesian optimization of motor skills. In: Proc. of the Int'l Conf. on Machine Learning. 2017.
Torun HM, Swaminathan M, Davis AK, Bellaredj MLF. A global Bayesian optimization algorithm and its application to integrated system design. IEEE Trans. on Very Large Scale Integration Systems, 2018, 1-11.
Morere P, Marchant R, Ramos F. Sequential Bayesian optimization as a POMDP for environment monitoring with UAVs. In: Proc. of the Int'l Conf. on Robotics and Automation. 2017. 6381-6388.
Colopy GW, Roberts SJ, Clifton DA. Bayesian optimization of personalized models for patient vital-sign monitoring. IEEE Journal of Biomedical and Health Informatics, 2018, 22(2):301.
Candelieri A, Perego R, Archetti F. Bayesian optimization of pump operations in water distribution systems. Journal of Global Optimization, 2018.
Klein A, Falkner S, Bartels S, Henning P, Hutter F. Fast Bayesian optimization of machine learning hyperparameters on large datasets. In: Proc. of the Int'l Conf. on Artificial Intelligence and Statistics. 2017.
Xia Y, Liu C, Li YY, Liu N. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring. Expert Systems with Applications, 2017, 78:225-241.
Yogatama D, Kong L, Smith NA. Bayesian optimization of text representations. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2015. 2100-2105.
Carr S, Garnett R, Lo C. BASC: Applying Bayesian optimization to the search for global minima on potential energy surfaces. In: Proc. of the Int'l Conf. on Machine Learning. 2016.
Krivák R, Hoksza D, Škoda P. Improving quality of ligand-binding site prediction with Bayesian optimization. In: Proc. of the Int'l Conf. on Bioinformatics and Biomedicine. 2017. 2278-2279.
Tanaka R, Iwata H. Bayesian optimization for genomic selection:A method for discovering the best genotype among a large number of candidates. Theoretical and Applied Genetics, 2017, 131(1):1-13.
Lancaster J, Lorenz R, Leech R, Cole JH. Bayesian optimization for neuroimaging pre-processing in brain age classification and prediction. In: Proc. of the Frontiers in Aging Neuroscience. 2018.
Ruder S, Plank B. Learning to select data for transfer learning with Bayesian optimization. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2017. 372-382.
Tesch M, Schneider J, Choset H. Expensive multiobjective optimization and validation with a robotics application. In: Proc. of the Conf. on Neural Information Processing Systems: Workshop on Bayesian Optimization and Decision Making. 2012.