本站首页 计算机论文 会计审计论文 工科论文 理科论文 法律论文 经济学论文 文化类论文 财务论文 文学论文
  管理论文 教育学论文 证券金融论文 医学论文 农业论文 哲学论文 艺术学论文 社会学论文 免费论文 论文翻译
  论文分类 | 写作指南 | 付款方式 | 交费确认 | 论文代写 | 服务指南 | 招贤纳士
论文搜索:
  滚动新闻:
当前位置: 博景源论文网 >> 工科论文 >> 化学工程学论文 >> 正文
  MDP表示及解决方法的分析    5星级
MDP表示及解决方法的分析
[ 作者:Admin     来源:博景源     点击数:     更新时间:2007-3-16   ]

MDP表示及解决方法的分析

目录
摘要 3
Abstract 4
1.引言 5
2.MDP的框架与基本表示 6
2.1状态和状态转移 6
2.2事件 7
2.3观察 8
2.4系统状态与观察的历史 9
2.5报酬和函数值 9
2.6范围与值函数定义标准 10
2.7解决标准 11
2.8策略 12
2.9小结 12
3.动态规划算法分析 15
4.因子化描述方法 18
4.1 2TBN 18
4.2 PSO 20
5.状态集合与MDP分解 23
5.1状态抽象与集合 23
5.2可达性分析和连续问题的分解 25
6.结论 27
参考文献: 29

摘要

在不确定条件下做规划是自主式连续决策的一大核心问题。在人工智能的规划、决策分析、OR、控制理论和经济等领域都对此有所研究。虽然这些领域中的假设都有很大不同,其中很多规划问题都可以用马尔可夫过程来建模,用决策论的方法来分析。
近些年来,贝叶斯网推理将计算(或近似计算)在不确定条件下规划的效用值变为可能;马尔可夫方法在诸如自然语言识别之类领域内的成功,以及强化学习技术的成功,推动了运用马尔可夫决策过程的规划工作。尽管决策论规划机制一般而言比与之相应的经典规划有复杂的多的搜索空间,但更快的计算机使建立它变为可能。
本文考察了马尔可夫过程框架的组成和基本表示,然后分析了它的解决算法动态规划和简洁表示方法――因子化表示和状态抽象与集合。

Abstract

Planning under uncertainty is a central problem in the study of automated sequential decision making, and has been addressed by researchers in many different fields, including AI planning, decision analysis, operations research, control theory and economics. While the assumptions and perspectives adopted in these fields often differ in substantial ways, many planning problems of interest to researchers in these fields can be modeled as Markov decision processes (MDPs) and analyzed using the techniques of decision theory.
The recent advances in Bayesian inference have made it feasible to compute (or approximate) the expected utility of a plan under conditions of uncertainty. The success of Markovian approaches in areas such as speech recognition and the closely-related reinforcement learning techniques have encouraged work in planning using Markov decision processes. Faster computers have made it feasible to build decision-theoretic planners, which in general have more complicated search spaces than their classical counterparts.
In this paper we first investigate the component and representation of the frame of the Markov processes. Then we analyze the solution algorithms – dynamic programming. At last we analyze the compact representations – factored representation and state abstraction and aggregation.

1.引言
人工智能的规划算法就是要找出一个行动序列使得agent能达到目标状态。经典的规划都是在确定的情况下进行的。而当行动结果不确定,或要依据行动的开销来判定一个规划的好坏时,决策论就显示出它的优越性了。它比经典规划更吸引人之处在于他允许对不确定问题建模。
从GPS和STRIPS以来,大多数的AI规划模型都由以下三个假设:
1)规划者的目标是一个用逻辑描述的世界状态;
2)仅有规划者的行为能改变世界的状态;
3)每个行为可以用它的前提条件和结果来描述,这些结果由行为执行后,世界状态事实的增加或删除来描述。
在不确定问题中,行动有不确定的效果,主体掌握着不完整的环境信息,而环境中的不确定因素又使得存在带有不同效用值的解决方法,以致可能不存在绝对的目标状态。
在DTP中,首先,如果我们将行为的结果描述成一个可能结果的集合,而不是一个单一的结果,那么我们就可以描述不确定的行为。
然后,我们放弃上述第一个假设,给每个世界状态加上效用值以描述它的地位或者说倾向性,这样不是所有的规划都是成功的,如果效用值代表了倾向程度的话,我们可以取效用值最大的那个规划。
因此,DTP可看做经典规划地扩展;粗略的说,它的目标与其说是要形式化一个保证能达到某个目标的规划,不如说是要形式化具有效用高期望值的规划。也就是说,决策论可以看做是概率论和效用论的结合,是要在不确定情况下找出最优解。

论文编号:000429  价格:200  是否有源码:有 【字体: 字体颜色
  • 上一篇文章: 没有了

  • 下一篇文章: 直流稳压系统仿真
  • 发表评论  打印此文  收藏此页  关闭窗口  返回顶部
     最新热点文章
    企业工资管理系统的开发
    计算机专业毕业论文
    论跨国公司的发展历程及其规律
    VB、VF论文题目列表
    PB、JSP论文题目列表
    单片机温度控制系统
     
     最新推荐文章
    学生信息档案管理系统
    从激光原理看六脉神剑的产生机制
    中国文化外交初探
    利用Internet重新构造科研管理系统
    基于Web的库存管理系统
    应用于视频编码的块匹配运动估计算法设
     
     相 关 文 章

      网友评论:(只显示最新5条。评论内容只代表网友观点,与本站立场无关!)
    版权声明 | 联系我们 | 刊登广告| 关于博景源 | 加入收藏 | 设为首页
    版权所有:博景源科技有限公司 © 24小时客服电话:0451-81986565 客服邮箱:service-86qb@163.com
    Copyright© 1998 - 2008 www.86qb.com All Rights Reserved

    地址:哈尔滨市道里区新阳路恒祥大厦F901

    黑ICP备 06008746号