詹伟:基于蒙特卡洛模拟和挣值分析的项目完工预测优化论文

摘要：基于挣值分析和风险管理，通过蒙特卡洛模拟获取项目数据，使用二次判别分析、随机森林和支持向量机进行模型学习和完工预测是项目控制的有效方法之一。在现有研究基础上，考虑项目执行过程中的剩余工作时间、剩余工作费用和风险，分别应用现有研究方法、梯度提升树和人工神经网络进行模型学习，利用嵌套交叉验证进行模型选择和模型评估。研究结果表明，优化后的方法显著提升项目完工预测的准确率。

关键词：项目管理；挣值分析；项目控制；蒙特卡洛模拟；风险管理

对比项目实际进度和项目基线以确认项目偏差，并采取纠偏行动是项目控制的两项重要内容［1］。在这个框架下，挣值管理整合范围管理、时间管理和费用管理，识别项目执行偏差，为项目管理者采取纠偏行动提供重要决策依据，成为最广泛使用的项目控制工具［2-3］。Anbari［4］、Fleming 等［5］和 PMI［6］分别阐述了挣值管理的主要特征、基本过程和实践方法；在此基础上，研究者们又分别应用统计分析、学习曲线、模糊集理论等拓宽了挣值管理的应用场景，特别是用于项目完工预测。其中，集成挣值分析和风险管理决策工具是近期一个非常活跃的研究领域。Pajares等［7］于2011年提出基于成本控制指数和进度控制指数的集成挣值管理和风险管理的决策工具，用于估计项目偏差来源于结构性偏差还是项目随机偏差；Acebes等［1,8］(以下简称Acebes研究)于2014年应用蒙特卡洛模拟和统计控制图对该决策工具进行了优化，又于2015年基于统计机器学习和蒙特卡洛模拟提出了不确定性背景下的项目完工预测方法。本文基于Acebes等［8］2015年的研究成果，提出两点优化思路：（1）Acebes研究完工预测使用的输入变量是Triad方法完工百分比为50%时的实际工期和实际工作费用，没有考虑当前任务执行的完成情况；（2）Acebes研究使用二次判别分析、随机森林和支持向量机进行模型训练和预测，没有考虑具有较强分类性能的人工神经网络和梯度提升树。本文先是复现Acebes研究完工预测分类问题的模型结果，然后根据上述两点思路进行优化，优化后的方法显著提升该分类问题在嵌套交叉验证下的预测准确率。

1 理论背景

1.1 挣值管理

挣值管理的评价指标体系基于3个参数：（1）计划值(planned value, PV)，指为计划工作分配的经批准的预算；（2）挣得值(earned value, EV)，指对已完成工作的测量，用该工作的批准预算来表示；（3）实际值(actual cost, AC)，指在给定时间段内因执行项目活动而实际发生的成本［9］。

在评估项目执行情况时，挣值管理主要采用4个评价指标：（1）费用偏差(CV)，为挣得值与实际值之差；（2）进度偏差(SV)，为挣得值与计划值之差；（3）费用执行指数(CPI)，为挣得值与实际值之比；（4）进度执行指数(SPI)，为挣得值与计划值之比。费用偏差为正或费用执行指数大于1，则预算节约，反之则预算超支；进度偏差为正或进度执行指数大于1，则进度超前，反之则进度滞后。

1.2 Triad

Acebes等［1］于2014年提出利用蒙特卡洛模拟和统计控制图识别项目偏差的Triad方法，该方法利用蒙特卡洛模拟来获得指定项目固定完工百分比的工期和费用分布，然后对比项目实际执行的工期和费用，根据置信度，得出项目进展偏差来源于结构性偏差还是项目和环境固有的随机性偏差。

封国生也表示，随着病种分析的持续深入，精细化管理系统对医院人才培养、学科建设方面的促进作用将更加显现。

Triad方法得名于(x,tx,cx)三元组，其中x是基于费用计算的完工百分比，tx指在项目完工x%时的实际工期，同理cx指项目完工x%时的实际费用。项目完工时，Triad三元组为(100%,t100%,c100%)，其中t100%是每次蒙特卡洛模拟完工时的总工期，c100%是每次蒙特卡洛模拟完工时的总费用。通过多次蒙特卡洛模拟，我们可以获取某一固定完工百分比的工期费用分布，基于给定置信度，对比当前项目的实际工期和成本，得出项目偏差来源的估计。Acebes和本文主要研究完工百分比是50%的情况。

监督学习的目的是学习由输入到输出的映射，所有满足要求的映射构成学习的假设空间。我们期望能够在假设空间中选择逼近真实映射的模型。而训练数据是有限的，为提高模型的泛化能力，通常需要对训练数据进行切分，从而在测试集上验证模型的泛化能力。S折交叉验证是常用的模型选择方法之一，该方法将训练数据随机切分成S份大小相等且不相交的子集，然后使用S-1份数据进行模型训练，剩余1份数据用于模型验证。此过程将重复S次，最后选择S次评测中平均测试误差最小的模型［10］15。研究表明，在考虑计算成本的前提下，S=5或者S=10能够实现较好的偏差-方差权衡［11］。在本文中，S折交叉验证参数取5。

2 实验方法

2.1 Triad和蒙特卡洛模拟

将神经元按照一定层次结构连接起来，就得到了人工神经网络。感知机由两层神经元组成，但学习能力非常有限，只能学习线性可分问题。多层神经网络可以有效地解决非线性可分问题［16］。本文通过模型选择和计算权衡，最终选择双隐层前馈网络，并通过BP算法进行参数计算，网络结构见图3所示［17］。本文使用scikit-learn的MLPClassifier分类器。

本文的模型训练输入在tx和cx的基础上，增加了每个工作的剩余工作时间、剩余工作费用和风险(方差)。其中风险是计划工作时间的方差，剩余工作时间和剩余工作费用分以下3种情况：（1）当工作已完成时，剩余工作时间和剩余工作费用皆为0；（2）当工作未开始时，剩余工作时间就是该工作计划的工作时间，剩余工作费用就是该工作计划完成的费用；（3）当工作正在执行中，剩余工作时间是合理预期的剩余完工时间，剩余工作费用是合理预期的剩余完工费用。合理预期是假设项目管理者在项目执行过程中能够合理预见到当前工作的实际完工时间。该假设主要克服使用计划工作时间的两点问题：（1）剩余工作时间若是使用计划工作时间减实际工作时间，结果可能为负，不符合常理；（2）实际工作时间和计划工作时间是两个维度的计算量，在考虑风险的前提下，两个计算量相减没有实际的理论意义。

提升(Boosting)方法是一种应用广泛且有效的集成学习方法，它基于PAC框架下强可学习和弱可学习的关系［14］，根据分类误差率改变数据集的权值分布，学习多个基本分类器，通过基本分类器的线性组合构建最终分类器［10］137。具体方法原理见式（2），其中T(x;Θm)表示决策树，Θm表示决策树参数，M为树的个数。

不过，学习典型经验，问题还是有一些。有人直言，典型经验看上去很好，但不适合在本地推广——“听说村里每年要给保洁公司交10多万元，我们县里财政吃紧，肯定没有这么大的支持力度。”“我们那儿地处深山，交通不便，垃圾车从城里开进来就得一个多小时。”

2.2 嵌套交叉验证

2015年，Acebes在Triad三元组的基础上作出了部分优化，以(ev,tev,cev)取代(x,tx,cx)，其中tev指项目达到挣得值EV时的实际工期，cev指项目达到挣得值EV时的实际费用。主要体现在以下两点：（1）(x,tx,cx)三元组中的x是假设挣得值和完工预算(BAC)成线性关系，而(ev,tev,cev)三元组不需要这个假设；（2）对于项目管理者来说，挣得值是更实用并直观的。

Anderssen 等［12］、Varma等［13］认为交叉验证在模型选择过程中对预测误差过于乐观，嵌套交叉验证后才可以获得预测误差的无偏估计。嵌套交叉验证分为两层交叉验证，内层用于模型选择，外层用于验证选择模型的实际效果。本文使用scikit-learn提供的嵌套交叉验证方式。

2.3 二次判别分析(QDA)

判别分析以贝叶斯理论为基础，在训练数据充分的前提下，使用训练数据的分类比例估计先验概率，使用后验概率估计实例属于各分类的条件概率，从而选择实例分类，是最广泛使用的贝叶斯分类器。具体模型见式（1），其中：P(Y=k)是根据训练数据分类比例，计算样本属于第k类的先验概率；P(X=x|Y=i)是样本属于第i类时观测值是x的条件概率。

二次判别分析假设P(X|Y)符合多元高斯分布，且样本均值和协方差仅与分类相关。相对于线性判别分析来说，该假设使得二次判别分析获得更大的参数空间和更灵活的分类边界；同时，二次判别分析可以计算实例属于各个分类的概率，这为项目管理者提供更大的决策空间。本文使用scikit-learn的Quadratic Discriminant Analysis分类器。

2.4 随机森林(random forest，RF)

本文使用和Acebes研究中相同的案例，该案例是由Lambrechts等［18］于2008年提出。此案例中工作的并行设计可以凸显该方法的有效性［8］，单代号网络图如图4所示。

随机森林是基于Bagging和Bootstrap的一种集成学习方法，其基本组成单元是决策树。随机森林的随机性主要体现在随机放回抽样和样本特征的随机选取，可以有效地克服决策树中的过拟合问题，具有较好的预测准确率。随机森林的原理图，如图1所示［8］，Xi是基于Bootstrap方法从全部样本集中选取的训练样本，根据该训练样本和随机选取的特征可以训练出一棵CART树(T)，最后通过所有树的投票结果来确定实例的预测分类。本文使用scikitlearn的Random Forest Classifier分类器。

图1 随机森林原理

2.5 支持向量机(SVM)

支持向量机是一种分类模型，它寻找对样本进行分割间隔最大的超平面，间隔最大使其不同于感知机，原理如图2所示。其中：wTx+b=0是分离超平面；wTx+b=1和wTx+b=-1是间隔边界，间隔边界上的点如A和B分别是支持向量，分离超平面仅由支持向量确定。支持向量机由简单到复杂，可分为：线性可分支持向量机、线性支持向量机和非线性支持向量机，通过软间隔和核技巧，非线性支持向量机可以学习线性不可分数据中的非线性关系［10］95。支持向量机具有较强的鲁棒性，能够抓住关键样本，但计算量大，且不能计算分类概率。Acebes研究和本文均使用”rbf”核的非线性支持向量机，本文使用scikit-learn的SVC分类器。

“一带一路”是我国“21世纪海上丝绸之路”与“丝绸之路经济带”全面建设的简称，是由习近平总书记在2013年9月所提出国际合作倡议。 “一带一路”的总体规划是加强我国与周边国家经济联系，与沿线国家共建利益同盟，形成双多边机制的全新形式。借以古代丝绸之路的历史符号，秉承经济融合、政治互信、文化包容的态度，与沿线国家创建合作关系，促进责任共同体、命运共同体、利益共同体的全新发展格局。

图2 支持向量机原理

2.6 梯度提升树(GBDT)

本文先是使用tx和cx作为完工预测的输入，复现SVM、QDA和随机森林的模型结果；然后输入特征增加每个工作的剩余工作时间、剩余工作费用和风险进行模型训练和预测，对比相同分类模型的提升效果；最后使用精度高且鲁棒性强的梯度提升树和人工神经网络模型进行训练和预测，探索这两种方法在该问题上的预测效果。

提升树是以决策树为基函数的提升方法，它使用加法模型和前向分布算法，当损失函数是平方损失或者指数损失函数时，模型性能较好；为解决提升树在一般损失函数上的性能问题，Freidman［15］提出了梯度提升树(GBDT)，其利用损失函数的负梯度在当前模型的值作为提升树算法中残差的近似值，从而拟合一个决策树［10］147。具体优化原理见式（3），其中rm是前（m-1）轮提升树拟合之后的残差，L(y,f(xi))为损失函数，f(xi)为观测值xi的预测值。本文使用scikitlearn的Gradient Boosting Classifier分类器。

水库上游没有水文站，难以获取水位、流量、泥沙、降水、蒸发、水化学等水文要素资料。水雨情观测只能依靠大坝站观测，洪水预报能力差。大坝观测站只能观测本站区域内水雨情，无法知道流域内水雨情。水库流域内75%的面积为石山区，产汇流速度快，水库防汛很被动，无法主动采取有效的防御措施。

由于每根铜管为单独的个体，我们截取两根铜管为例，分析空气间隔式辐射板的温度分布情况.图4为相同供水温度，相同供水速度，不同空气层厚度δ下的温度分布图和z=0.6 m时垂直厚度方向的温度梯度拟合曲线图.从图中可以看出，空气层厚度每增加2 mm，辐射板表面平均温度增加0.5 ℃.受空腔内自然对流的影响，空气层的温度分布出现明显的波动性，当空气层厚度达到14 mm时，随着高度的减小，温度梯度呈抛物线上升.由于空气的导热性小，空气层的温度梯度较大.当空气层厚度达到16 mm时，金属天花板表面温度与供水温的差值达到7 ℃.

2.7 人工神经网络(ANN)

人工神经网络是根据生物神经网络抽象而得到的，其基本组成单元是神经元。神经元之间通过赋权的连接进行信号传递，其他神经元的输出信号经过连接赋权之后传入当前神经元，当前神经元将传入的总输入值与神经元阈值相比较，然后通过激活函数产出输出传递给下一层神经元。每个神经元原理如式（4）所示，其中xi为前一层与当前节点相连的第i个节点的输出，wi为对应的传递权重，b为偏置，f为激活函数，aj为当前节点的输出。

作为一个使用功能相当复杂的民用建筑，其设计应该充分体现“以人为本”的原则，贯彻“以人为本”的设计理念辅以先进的信息技术手段，从交通组织，功能布局以及就医环境入手，整合各种有利的资源和要素，以创新的设计手法为社会大众提供更舒适、更温馨、更贴心的医疗空间。

通过蒙特卡洛模拟，可以获取项目执行过程中任意EV水平的Triad三元组，当EV=BAC时，对比t100%和计划工期，可以确定总工期是否延误；对比c100%和BAC可以确定总费用是否超支。Acebes研究提出使用Triad三元组中的tx和cx(x=50%为例)作为完工预测的输入，使用支持向量机(SVM)、二次判别分析(QDA)和随机森林(random forest)进行模型训练，预测项目是否在计划工期和计划总费用内完工，其中支持向量机的预测效果最好。

图3 双隐层前馈神经网络结构

3 案例分析

3.1 实验案例

决策树是一种呈树形结构非参数的监督学习方法，非叶子节点是根据特征进行选择和分类的过程，叶子节点是分类结果的归属。决策树的主要优点是分类速度快，具有较好的可读性和鲁棒性；主要缺点是容易过拟合［10］55。

创新是一个民族进步的灵魂，也是高职学生成才的基础。思想政治教育的每一门课程，都蕴含着激励学生创新思维的丰富内容。思政课理论的无穷魅力，只有在联系实践中才能充分发掘出来。

图4 案例单代号网络

该案例中，工作的持续时间符合正态分布，工作的完成费用与工作时间成正比，具体参数见表1所示。本文根据该案例，使用蒙特卡洛模拟构建100万次项目完工，取有效结果10万次，根据完工百分比50%进行建模。其中时间和费用的正样本和负样本之比均近似为1∶1。

表1 案例的具体参数

ID 工作时间/D 方差单位成本/欧元1 2 0.15 755 2 0.83 1 750 3 7 1.35 93 4 4 3 0.56 916

表1 （续）

ID 工作时间/D 方差单位成本/欧元5 6 1.72 34 6 0.28 1 250 7 8 2.82 875 4 8 2 0.14 250

3.2 实验结果

本文首先复现了Acebes研究中预测项目是否在计划工期和计划总费用内完工的结果，其中SVM的效果最好。在使用嵌套交叉验证的条件下，工期分类预测的准确率约为75.89%，费用分类预测的准确率约为78.3%。然后根据增加特征的思路，使用QDA、RF和SVM重新建模预测，并同样使用嵌套交叉验证进行模型选择和模型评估，取得了较大的预测准确率提升。从图5可以看出，工期分类预测中，RF预测准确率最高，约为89.74%，准确率提升14.18%；SVM准确率约为89.12%，提升13.23%；QDA准确率约为85.55%，提升9.88%。费用分类预测中，SVM预测准确率最高，约为90.65%，提升12.35%；RF约为90.44%，提升12.21%；QDA约为88.09%，提升10.17%。

图5 案例特征向量优化后的模型效果提升对比

最后本文采用GBDT和ANN对优化后的特征向量进行建模，同样使用嵌套交叉验证进行模型选择和模型评估，在前述结果基础上取得了一定程度的效果提升。从图6可以看出，工期分类预测中，ANN的效果最好，准确率约为90.05%，在RF的基础上提升0.31%；费用分类预测中，ANN同样效果最好，准确率约为90.94%，在SVM的基础上提升0.29%。

图6 案例GBDT和ANN的模型效果提升对比

4 结论

本文在项目控制的框架下，基于Acebes研究完工预测的方法提出两点优化思路，通过蒙特卡洛模拟，在实验中得到验证，优化后的方法显著提升该方法的准确率。其中，特征向量的优化提升准确率超过10%，ANN模型提升准确率约0.3%。

在项目执行过程中，项目管理者可以通过ANN(或其他)模型，使用实际工期、实际费用和项目工作的工期费用完成情况预测项目完工时工期是否拖延或者费用是否超支，识别项目现有的工作状态；同时，也可以计算项目工期拖延和超支的概率，用于项目风险管理决策；更进一步，该方法可以在早期识别项目方案变更所带来的最终效果差异。

在变化的上下文环境中，有效地预测是一件有挑战性的工作，没有任何分类方法或回归方法是永远最优的［12］。本文验证了ANN和GBDT在挣值管理完工预测问题上是有效的，可供项目管理人员在项目执行过程中借鉴参考。

参考文献：

［1］ACEBES F, PAJARES J, MANUELGALÁN J, et al.A new approach for project control under uncertainty. Going back to the basics［J］.International Journal of Project Management, 2014,32(3)：423-434.

［2］BLANCO V D. Earned value management： a predictive analysis tool［J］. Navy Supply Corps Newsletter, 2003,66(2)：24-27.

［3］ABBA W, NIEL F A.Integrating technical performance measurement with earned value management［J］. The Measurable News,2010,4：6-8.

［4］ANBARI F T.Earned value project management method and extensions［J］. Project Management Journal, 2003,34(4)：12-23.

［5］FLEMING Q W, KOPPELMAN J M.Earned value project management［M］.Newtown Square： Project Management Institute,2000：13-24.

［6］PROJECT MANAGEMENT INSTITUTE. Practice standard for earned value management［M］.Newtown Square： Project Management Institute, 2005：2-6.

［7］PAJARES J, LÓPEZ-PAREDES A.An extension of the EVM analysis for project monitoring： the cost control index and the schedule control index［J］.International Journal of Project Management,2011,29(5)：615-621.

［8］ACEBES F, PEREDA M, POZA D, et al.Stochastic earned value analysis using Monte Carlo simulation and statistical learning techniques［J］.International Journal of Project Management,2015,33(7)：1597-1609.

［9］项目管理协会.项目管理知识体系指南［M］.6版.Newtown Square：项目管理协会 ,2017：698-717.

［10］李航.统计学习方法［M］.北京：清华大学出版社,2012.

［11］HASTIE T, TIBSHIRANI R, FRIEDMA J.The elements of statistical learning： data mining, inference, and prediction［M］.Berlin：Springer, 2009：242.

［12］ANDERSSEN E, DYRSTAD K, WESTAD F, et al.Reducing overoptimism in variable selection by cross-model validation［J］.Chemometrics and Intelligent Laboratory Systems, 2006,84(1)：69-74.

［13］VARMA S, SIMON R.Bias in error estimation when using cross validation for model selection［J/OL］. BMC Bioinformatics,2006,7, NO.91[2018-07-26].https：//doi.org/10.1186/1471-2105-7-91.

［14］VALIANT L G. A theory of the learnable［J］.Communication of the ACM, 1984,27(11)：1134-1142.

［15］FRIEDMAN J H. Greedy function approximation： a gradient boosting machine［J］.Annals of tatistics, 2001,29(5)：1189-1232.

［16］周志华.机器学习［M］.北京：清华大学出版社,2016：97-98.

［17］邱锡鹏.神经网络与深度学习［EB/OL］.(2018-10-14)［2018-10-17］.https：//nndl.github.io/.

［18］LAMBRECHTS O, DEMEULEMEESTER E, HERROELEN W.Proactive and reactive strategies for resource-constrained project scheduling with uncertain resource availabilities［J］.Journal of Scheduling, 2008,11(2)：121-136.

Optimization of Forecast at Completion Based on Monte Carlo Simulation and Earned Value Analysis

Zhan Wei, Yang Chao
(School of Engineering Science, University of Chinese Academy of Sciences, Beijing 100049, China)

Abstract: Based on the analysis of the earned value and the risk management, the project data is acquired through the Monte Carlo simulation, and the model learning and the completion prediction by using the quadratic discriminant analysis, the random forest and the support vector machine are one of the effective methods of the project control.On the basis of existing research, this paper takes into account the residual working time, the remaining work cost and the risk in the execution of the project, and applies the existing research methods, the gradient lifting tree and the artificial neural network to study the model, and makes model selection and model evaluation by using the nested cross validation. The results show that the optimized method can improve the accuracy of project completion prediction.

Key words: project management; earned value analysis; project control; Monte Carlo simulation; project risk management

中图分类号：C935；F224；G301

文献标志码：A

文章编号：1000-7695（2019）17-0220-06

doi：10.3969/j.issn.1000-7695.2019.17.028

收稿日期：2018-10-26，

修回日期：2019-01-11

基金项目：军事科学院科研项目“项目管理相关概念及案例研究”（Y85301X1G4）

作者简介：詹伟(1973—)，通信作者，男，河南郑州人，副教授，博士，主要研究方向为工程与项目管理、价值管理和风险管理；杨超(1994—)，男，湖北荆门人，硕士研究生，主要研究方向为工程与项目管理。

标签：项目论文; 模型论文; 向量论文; 费用论文; 工期论文; 社会科学总论论文; 管理学论文; 管理计划和控制论文; 《科技管理研究》2019年第17期论文; 军事科学院科研项目“项目管理相关概念及案例研究”(Y85301X1G4)论文; 中国科学院大学工程科学学院论文;