ترجمه فارسی عنوان مقاله
طرحریزی سیاستهای بازرسی و نگهداری ساختاری از طریق برنامهریزی پویا و فرآیندهای مارکوف – بخش ۱: نظریه
عنوان انگلیسی
Planning structural inspection and maintenance policies via dynamic programming and Markov processes. Part I: Theory
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
26159 | 2014 | 12 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Reliability Engineering & System Safety, Volume 130, October 2014, Pages 202–213
فهرست مطالب ترجمه فارسی
چکیده
واژههای کلیدی
۱- مقدمه
شکل ۱- سیاست شماتیک POMDP برای مسئلهی بازرسی و نگهداری ساختاری.
۲- فرآیندهای تصمیمگیری مارکوف
۲.۱- برنامهریزی پویا
۳- افزایش حالت
۴- فرآیندهای تصمیمگیری نیم-مارکوف
۴.۱- بازهی تصمیمگیری
۵- محدودیتهای MDPها برای مدیریت زیرساخت
۶- فرآیندهای تصمیمگیری مارکوف نیمه مشاهدهپذیر
شکل ۲- سیمپلکس فضای باور برای |S|=3 و نمونهای از نقطهی باور، [b=[0.1,0.7,0.2.
شکل ۳- تابع مقدار باور نمونه برای |S|=2. هر بردار α ناحیهای را در سراسر سیمپلکس باور تعریف میکند.
شکل ۴- تابع مقدار نمونه برای |S|=3
۶.۱- پشتیبانهای بلمن
۷- برنامهریزی POMDP تقریبی
شکل ۵- نمونهی هرس. بردارهای خطی اضافی به رنگ خاکستری نشان داده شدهاند.
۷.۱- تقریب بر اساس MDP و تابعهای Q
شکل ۶- تقریب QMDP از تابع مقدار که کران بالای تابع دقیق است.
۷.۲- تقریبهای مبتنی بر گرید (شبکه)
۷.۳- حلکنندههای مبتنی بر نقطه
۸- جمعبندی
واژههای کلیدی
۱- مقدمه
شکل ۱- سیاست شماتیک POMDP برای مسئلهی بازرسی و نگهداری ساختاری.
۲- فرآیندهای تصمیمگیری مارکوف
۲.۱- برنامهریزی پویا
۳- افزایش حالت
۴- فرآیندهای تصمیمگیری نیم-مارکوف
۴.۱- بازهی تصمیمگیری
۵- محدودیتهای MDPها برای مدیریت زیرساخت
۶- فرآیندهای تصمیمگیری مارکوف نیمه مشاهدهپذیر
شکل ۲- سیمپلکس فضای باور برای |S|=3 و نمونهای از نقطهی باور، [b=[0.1,0.7,0.2.
شکل ۳- تابع مقدار باور نمونه برای |S|=2. هر بردار α ناحیهای را در سراسر سیمپلکس باور تعریف میکند.
شکل ۴- تابع مقدار نمونه برای |S|=3
۶.۱- پشتیبانهای بلمن
۷- برنامهریزی POMDP تقریبی
شکل ۵- نمونهی هرس. بردارهای خطی اضافی به رنگ خاکستری نشان داده شدهاند.
۷.۱- تقریب بر اساس MDP و تابعهای Q
شکل ۶- تقریب QMDP از تابع مقدار که کران بالای تابع دقیق است.
۷.۲- تقریبهای مبتنی بر گرید (شبکه)
۷.۳- حلکنندههای مبتنی بر نقطه
۸- جمعبندی
ترجمه کلمات کلیدی
کنترل تصادفی بهینه -
پردازش های تصمیم گیری مارکوف نیمه قابل مشاهده -
مشاهدات نامشخص -
فضای اعتقاد -
هزینه چرخه عمر سازه -
مدیریت زیرساخت ها -
کلمات کلیدی انگلیسی
Optimal stochastic control,
Partially Observable Markov Decision Processes,
Uncertain observations,
Belief space,
Structural life-cycle cost,
Infrastructure management,
ترجمه چکیده
به منظور پرداختن به نیاز ضروری اجتماعی برای ساختارها و سیستمهای زیرساختی ایمن تحت منابع محدود، مدیریت مبتنی بر دانش داراییها لازم است. هدف کلی این مطالعهی دو قسمتی تاکید بر شاخصهها و قابلیتهای پیشرفته، استفاده از تکنیکهای کنترل تصادفی و مخصوصا فرآیندهای تصمیمگیری مارکوف نیمه رویتپذیر (POMDP) است که به مسئلهی بغرنج طرحریزی سیاستهای بازرسی/نظارت و نگهداری بهینه بر اساس مدلهای تصادفی و دادههای ساختاری نامعلوم به صورت بلادرنگ میپردازد. فرآیندهای تصمیمگیری مارکوف عموما فرآیندهای تصادفی تحت کنترل هستند که مسیر خود را نسبت به روشهای بهینهسازی مرسوم تغییر میدهند تا به هزینههای حداقلی چرخهی عمر دست یابند و تصمیمگیرندگان (مدیران) را راهنمایی کنند بر اساس نتایج واقعی بازرسیها یا آزمایشهای غیر-مخرب تصمیمات متوالی بهینه بگیرند. در اولین قسمت مطالعه به صورت انحصاری، خارج از حوزهی وسیع و چند هدفهی کنترل تصادفی، روشهایی را شرح میدهیم که متناسب با مدیریت ساختاری هستند و از تکنیکهای ساده شروع میشوند و به تکنیکهای پیچیده و حلکنندههای (مسائل) مدرن ختم میگردند. روشهای MDP (فرآیندهای تصمیمگیری مارکوف)، شبه MDP و POMDP را در یک چارچوب کلی ارائه میکنیم و هر یک از این روشها را به یکدیگر ارتباط دادهایم و راهحلهای POMDP را به شکلهای مختلف توضیح دادهایم، شامل هم تقریبهای مبتنی بر گرید (شبکه) مشکلآفرین که به طور معمول در مشکلات نگهداری ساختاری به کار میروند و هم حلکنندههای پیشرفتهی مبتنی بر نقطه که قادر به حل مشکلات واقعبینانه و مقیاس بزرگ هستند. روشمان در این مقاله برای درک کاستیهای روشهای موجود، راهحلهای ممکن و تفاوت چشمگیر حلکنندهها مفید است. تفاوت حلکنندهها نه تنها در راه حل نهفته، بلکه در انتخابهای مدلسازی مشکل نیز وجود دارد. در دومین بخش مطالعه تقریبا تمامی موضوعات و ایدههای ارائه شده را در نمونهی مدیریتی ساختاری بسیار وسیع با گسترهای بی نهایت و حداقل هزینهی چرخهی عمر به کار میگیریم و بر روی پیادهسازی حلکنندههای مبتنی بر نقطه و مقایسهی آن با تکنیکهای سادهتر تمرکز میکنیم.
ترجمه مقدمه
در این مقاله با تمرکز بر تصمیمگیری در اعمال نگهداری و بازرسی بهینه و فواصل زمانی سازههای مهندسی عمران بر اساس شرایط ساختاری به صورت بلادرنگ،چارچوب طرحریزی و تصمیمگیری تحت شرایط عدم قطعیت تجزیه و تحلیل شدهاند. مشکل تصمیمگیریهای متوالی بهینه در گسترهی عظیمی از زمینههای علمی تاریخچهای وسیع دارد؛ زمینههایی نظیر تحقیق در عملیات، مدیریت، اقتصادسنجی، تعمیر و نگهداری ماشین، نظریهی کنترل و بازی، هوش مصنوعی، رباتیک و بسیاری دیگر. از این محدودهی وسیع مشکلات و روشها با دقت تجزیه و تحلیل تکنیکهایی را انتخاب کردیم که میتوانند به خصوص به مشکل مهندسی و ریاضیاتی مدیریت ساختاری بپردازند، همچنین این تکنیکها را به شیوهای ارائه میکنیم که به نظرمان برای خوانندههای بالقوهی علاقهمند که با این مشکل خاص و/یا ایمنی ساختاری دست و پنجه نرم میکنند مناسب است. برای پرداختن به مشکل نگهداری و مدیریت زیرساخت شهری در حال کهنگی میتوان گسترهی وسیعی از فرمولبندیهای مختلف را یافت. بدین منظور که شایعترین اسلوبشناسیها را به طور خیلی موجز ارائه کنیم، آنها را به پنجه دستهی کلی تقسیم میکنیم. دستهی اول شامل روشهایی است که به شبیهسازی سیاستهای از پیش تعیینشده و امور تحقیقاتی شاخص (میتوان در مقالات انگلاند و سورنسن [1] و علیپور همکارانش [2] یافت) اتکا دارد. بر اساس نتایج شبیهسازی، راهحلی که بهترین عملکرد را در میان این سناریوها دارد انتخاب شده است که میتواند راهحلی با حداقل هزینه یا نرخ هزینه/سود باشد. پر واضح است که مشکل این قضیه آن است که سیاست انتخابی (گرچه بهتر از دیگر سیاستهای ارائه شده است) به سختی در میان تمام سیاستهای قابل پیادهسازی بهینه خواهد بود. در دومین دسته روشهایی را قرار دادهایم که معمولا با اطمینانپذیری از پیش تعیینشده یا آستانهی ریسک و چند شیوهی مختلف دیگر مرتبط هستند که در تحقیقات گذشته پیشنهاد شدهاند. در نوشتجات دئوداتیس و همکارانش [3]و ایتو و همکارانش [4] هر وقت مدل شبیهسازی به آستانهی اطمینانپذیری میرسد ساختار حفظ شده است، در حالی که در مقالات ژو و فرانگوپول [5] منطقی مشابه پیروی شده با این استثنا که انجام اعمال نگهداری در زمانهای تعیینشده با شیوهای بهینه پیشنهاد شدهاند. تافت کریستنسن و سورنسن [6]و موری و الینگوود [7] تعداد معینی تعمیرات در طول عمر را فرض کردهاند تا از ماهیت گسستهی این متغیر در فرآیند بهینهسازی غیر-خطی مبتنی بر گرادیان جلوگیری کنند و این محققین بر اساس مدلسازی خود زمانهای نگهداری بهینه را شناسایی میکنند تا بدین ترتیب اطمینانپذیری در بالای آستانهی تعیینشده بماند. ژو و فرانگوپول نیز از این روش پیروی کردهاند، ولی از الگوریتم ژنتیک استفاده کردهاند که به هر حال به منظور رها کردن فرضیهی تعداد از پیش تعیینشدهی تعمیرات در طول عمر و توانایی مدلسازی اعمال نگهداری موجود به شیوهای واقعگرایانهتر، هزینهی محاسباتی قابل توجهی دارد. به طور کلی، روشهای موجود در این دسته سیاستهای خیلی ساده و استفادهی همزمان از الگوریتمهای بهینهسازی در حوزهی احتمالاتی ارائه میکند که در این زمینه معمولا استفاده از مدلهای ابتدایی را ملزم میدارد. متاسفانه این جملهی آخر هنگامی که مشکل در یک فرمولبندی بهینهسازی عمومی مطرح میشود نیز در خصوص حوزهی احتمالاتی صدق میکند که آن را به عنوان دستهی دیگری معین میکنیم، گرچه با کار تحقیقاتی منبع [5] تناسب دارد. فرمولبندیها در این دسته معمولا با مدلهای قطعی به خوبی عمل میکنند، تعداد موجود از اعمال مختلف ممکن عموما از قبل بیشتر است و چارچوب چند-هدفه فعال شده است. این مشکل اغلب اوقات توسط الگوریتمهای ژنتیک حل شده و مجموعهی پارتو (Pareto) جستجو شده است. انتخاب الگوریتمهای ژنتیک یا دیگر روشهای جستجوی اکتشافی برای حل مشکل (مسئله) تصادفی نیست، چون این روشها همچنین میتوانند بر بخش گسستهی مشکل (نظیر تعداد اعمال صورتگرفته در طول عمر و نوع عمل انتخابی در هر دورهی نگهداری) غلبه کنند. به هر حال به طور اجتنابناپذیری هزینهی محاسباتی قابل توجه است و قالبهای احتمالاتی در این تکنیکها مشکلآفرین هستند. امور تحقیقاتی نمونه را میتوان در منابع ۸ تا ۱۰ و موارد دیگر مشاهده کرد.
تمام روشهای ارائه شده تا کنون منحصرا به نتایج شبیهسازی وابسته هستند و اساسا به منظور تنظیم یا تعیین اعمال اجراشده، به استثنای امور تحقیقاتی [۳ و ۴]، در نظر گرفته نمیشود. در حالی که این امر ممکن است برای انواع اهداف کافی باشد، قطعا برای سیاست مدیریت ساختاری دنیای واقعی و اعمال شده نامتجانس است. به منظور پرداختن به این مسئله، روشی محتمل در تحقیقات گذشته پیشنهاد شده که عموما، نه مطلقا، با آستانههای مبتنی بر شرایط مرتبط است. این روشها را در چهار رده دستهبندی میکنیم و یک کار تحقیقاتی نمونه نیز در تحقیق کاستینر و همکارانش [۱۱] قابل مشاهده است. ایدهی اصلی پشت این روشها شبیهسازی زوال مبتنی بر مدل تصادفی وضعیت ممتد (که در آن فرآیندهای گاما نامزدهای منتخب هستند) و تنظیم آستانههای معین شرایط بر اساس بهینهسازی (که در این بین عمل معینی صورت میگیرد) است. با فرض بینقص بودن بازرسیها، از این رو به محضی که ساختار در طی طول عمر خود از شرایط معینی تجاوز کند عمل مربوطه صورت میگیرد. چنان که احتمالا تا کنون متوجه شده باشید، ضعف اصلی این فرمولبندی فرض معمولا غیر واقعگرایانه دربارهی مشاهدات بینقص است. به همین دلیل، گرچه تواناییهای فرمولبندی عموما وسیع و چندکاربردی است، شامل نتیجهی احتمالی و طول مدت اعمال، بخش بازرسی فاقد شاخصههای مهم و پختگی مشابه دیگر بخشهای این روش است. دومین نگرانی ممکن در این روش آن است که شاید یافتن بهینهی سراسری در فضاهای غیر محدب سخت باشد، گرچه این یک محدودیت کلی نیست و به خصوصیات مشکل و الگوریتم بهینهسازی به کار رفته بستگی دارد.
در پنجمین دسته مدلهایی را قرار دادهایم که به کنترل تصادفی و تصمیمگیریهای متوالی بهینه اتکا دارند و در این مقاله به این مدلها توجه بیشتری میشود. این روشها معمولا در یک فضای حالت گسسته کار میکنند و همانند روشهایی که در دستهی مذکور شرح داده شد، دادههای واقعی و بلادرنگ را مد نظر میگیرند تا بهترین اعمال ممکن انتخاب شود. این مدلها در پایهترین شکل فرآیندهای تصمیمگیری مارکوف (MDP) محدودیت مشاهدات بینقص را به اشتراک میگذارند، گرچه میتوانند عموما سیاستهای انعطافپذیرتر و نا ایستا ارائه کنند و با بهرهگیری از ساختار به خصوصشان جستجو برای بهینهی سراسری عموما مشکلی ایجاد نمیکند. گولابی و همکارانش و تامپسون و همکارانش با اشاره به پیادهسازی موفق MDPها در مشکلات عملی، استفاده از این فرآیندها را با دورههای بازرسی دوسالانهی تثبیتشده در PONTIS (سیستم مدیریت پل غالب مورد استفاده در ایالت متحده آمریکا) شرح میدهند. از همه مهمتر، همانطور که مفصل در این مقاله نشان داده شده، MDPها میتوانند به طور قابل ملاحظهای به انواع مدلهای بزرگ و مخصوصا مدل POMDP بسط یابند. POMDP میتواند هزینهی اطلاعات را مد نظر گیرد و حتی میتواند به مسئلهی سیاستهای بهینهی برنامهریزی بر اساس دادههای ساختاری غیر قطعی و مدلهای تصادفی بپردازد. باور داریم که مدلهای مبتنی بر POMDP، در مقایسه با تمام مدلهای دیگر، روشهایی ماهرانه با شاخصههای برتر برای مسئلهی نگهداری ساختاری هستند. این مدلها هیچ محدودیت غیر موجهی در فضای جستجوی سیاست، نظیر بازرسیهای دورهای، عملکردهای آستانهای، تعداد از قبل تعیینشدهی تعمیرات در طول عمر و غیره، تحمیل نمیکنند و در عوض میتوانند در چارچوبشان محدودهی متنوعی از فرمولبندیها منظور کنند، شامل مسائل مبتنی بر شرایط، اطمینانپذیری و/یا ریسک، بازههای بازرسی دورهای و غیردورهای، بازرسیهای بینقص و دارای نقص، انتخاب و/یا نتیجهی اعمال قطعی و احتمالی، تعمیر کامل و جزئی، محیطهای ایستا و غیر ایستا، گسترههای محدود و نامحدود و بسیاری دیگر. امور تحقیقاتی نمونه در زمینهی چارچوب POMDP را میتوان در تحقیقات مادانات و بنآکیوا، الیس و همکارانش و کوروتیس و همکارانش مشاهده کرد، در حالی که منابع بیشتری دربارهی مطالعات مبنی بر فرآیندهای تصمیمگیری مارکوف نیز در ادامهی این مقاله و در بخش دوم این تحقیق ارائه شده است.
شکل ۱ برای به تصویر کشیدن شماتیک سیاست POMDP با هدف حداقل هزینهی چرخهی عمر در یک مسئلهی کلی و معمول بازرسی و نگهداری ارائه شده است. در این شکل، مسیر واقعی فرآیند زوال (خط ممتد آبی) بر اساس تحقق فرآیند گامای غیر ایستا شبیهسازی شده و به طور کلی برای تصمیمگیرندگان مجهول است، مگر زمانی که تصمیمگیرنده تصمیم به انجام عملی مشاهداتی بگیرد. بخش خاکستری شکل ۱ متوسط ۲ -/+ ناحیهی عدم قطعیت انحرافهای معیار را تعریف میکند که توسط مدل تصادفی به کار رفته ارائه شده است. وقتی دادههای مشاهداتی واقعی را نمیتوان مد نظر قرار داد، این نتیجهی احتمالاتی از مدل شبیهسازی تنها پایهی برنامهریزی نگهداری برای تصمیمگیرندگان خواهد بود. حتی با یک مدل تصادفی دقیق، این حقیقت که فرآیند زوال حقیقی هیچ گاه مشاهده نشده معمولا برای ساختاری معین منجر به اعمال غیر بهینه خواهد شد، چون فرآیند تحققیافته برای مثال میتواند در صدکهایی بسیار دورتر از میانگین باشد. تصمیمگیرنده با مد نظر قرار دادن دادههای مشاهداتی میتواند بر اساس دانش قبلی خود و دقت مشاهدات باور خود را دربارهی سطح زوال ساختار به روز رسانی کند. در شکل ۱ به روز رسانی باور بر اساس نتیجه دو عمل مشاهداتی متفاوت اولبه وضوح نشان داده شده است (با + در شکل علامتگذاری شده). همان طور که میتوان ملاحظه کرد، در مقایسه با روش دوم، اولین روش مشاهداتی دقیقتر است (احتمالا با هزینهای بالاتر) و به طور موثرتری به سمت وضعیت صحیح سیستم هدایت میکند. اگر یک عمل مشاهداتی معین بتواند وضعیت ساختار را با قطعیت تعیین کند، باور با احتمال یک به این وضعیت به روزرسانی میشود؛ گرچه این موضوع به ندرت به روشهای بازرسی/نظارت ساختاری مربوط میشود. همانطور که در ادامهی این مقاله نشان داده شده، POMDPها سیاست خود را بر اساس وضعیت/فضای باور برنامهریزی میکنند و این قابلیت کلیدی آنها را قادر میسازد بر خلاف روشهای دیگر بدون هیچ محدودیتی برای بازرسی/نظارت و انواع اعمال مشاهداتی زمان پیشنهاد دهند. POMDPها در زمینهی اعمال نگهداری نیز دوباره میتوانند به صورت بهینه نوع و زمان اعمال را بدون محدودیتهای مدلسازی پیشنهاد دهند. دو عمل نگهداری مختلف به عنوان مثال در شکل ۱ نشان داده شده که با مستطیلهای قرمز علامتگذاری شده است. طول مستطیلها مدت زمان اعمال را نشان میدهد. پیش از اولین عمل نگهداری یک عمل مشاهداتی کاملا دقیق صورت گرفته که متعاقبا شرایط ساختار را بهبود میبخشد. از آن جایی که اعمال نگهداری نیز معمولا مشکلآفرین هستند، باور تصمیمگیرنده در سطح زوال ساختاری بعد از عمل بر اساس مشاهدات و نگهداری اجراشده به روزرسانی شده است. در چارچوب POMDP اعمال مشاهداتی لزوما با اعمال نگهداری در ارتباط نیستند و از این رو یک سیاست رایانشی ممکن است بدون این که ابتدا به مشاهده بپردازد در نمونههای معینی از فضای باور یک عمل نگهداری را پیشنهاد دهد. چنین موقعیتی در دومین عمل نگهداری در شکل ۱ نشان داده شده که در آن تصمیمگیرنده نمیخواهد برای به روزرسانی باور خود به ازاء اطلاعات هزینهای پرداخت کند و با این وجود تصمیم میگیرد ساختار را نگهداری کند. بر اساس باور قبلی تصمیمگیرنده و نتیجهی احتمالی عمل صورتگرفته (که نسبت به مورد قبلی دارای کیفیت نگهداری پایینتر است ولی زمان کمتری صرف میکند و کم هزینهتر است) باور تصمیمگیرنده بهروزرسانی شده است. در این مورد اساسا به خاطر عدم حضور دادههای بلادرنگ، سطح واقعی زوال دارای صدک تقریبا خیلی زیادی است و عدم قطعیت باقیمانده، بعد از انجام عمل، هنوز قابل ملاحظه است.
با وجود این حقیقت که مسئلهی نگهداری و بازرسی طی سالها توجه بسیاری را به خود جلب کرده و POMDPها چارچوب قدرتمندی برای راهحلهای این مسائل ارائه میکند، تا کنون این موضوع به طور گسترده تشخیص داده نشده است. باور داریم که یکی از دلایل ممکن برای این موضوع آن است که تا کنون محدودیت خیلی جدی از مدلهای POMDPآن بوده که رایانش سیاست بهینه به جزء مسائل کوچک برای هر چیزی غیر ممکن بود. بنابراین، امور تحقیقاتی قابل توجهی در این زمینه در درجهی اول، اگر نه انحصارا، بر روی بخش مدلسازی تمرکز داشتند و بخش مهم حلکنندهی مسائل مربوط به مدلهای POMDP در این امور تحقیقاتی تنزل پیدا کرده بود. این خبر ناراحتکننده در مورد حل مسائل مربوط به مدلهای POMDP محققین و مهندسین را ترغیب به ورود به این زمینه نکرد و متاسفانه با وجود پیشرفتهای اخیر و قابل توجه حلکنندههای مسائل POMDP (اساسا در زمینهی رباتیک) تا کنون نیز وضعیت به همین ترتیب بوده است.
با پرداختن به این موضوع در این مقاله، انحصارا به شرح زمینهی کنترل تصادفی گسترده و چندهدفه، روشهای متناسب با مدیریت ساختاری (از تکنیکهای ساده تا پیچیده) و حلکنندههای مسائل مدرن قادر به حل مسائل مقیاس بزرگ و واقعگرایانه میپردازیم. بدین ترتیب، در بخش ۲ به طور خلاصه MDPها را به عنوان شالودهی باقی مقاله شرح میدهیم و در بخش ۳ چگونگی عملکرد افزایش حالات (state augmentation) را شرح میدهیم که در میان دیگر تکنیکها تکنیکی ارزشمند برای تشکیل مسائل غیر ایستا به شمار میرود. در بخش ۴ فرآیندهای نیم-MDP را شرح میدهیم که میتواند مدت زمان اعمال را مدلسازی کند و این فرآیندها را برای مدیریت ساختاری به ایدهی مهم بازهی تصمیمگیری نسبت میدهیم، در حالی که در بخش ۵ توضیح میدهیم که چرا MDPها و نیم-MDPها محدودیتهای ذاتی برای مسئلهی مد نظرمان ارائه میکنند. سپس در بخش ۶ مفصل توضیح میدهیم چگونه POMDPها میتوانند به تمام این محدودیتها جواب دهند، همچنین بهروزرسانی باور و مفهوم فضای باور را توضیح میدهیم و به طور کلی این موضوع دشوار را به طرزی مختصر و مفید ارائه میکنیم. در بخش ۷ تکنیکهای حل مسئله را آزمایش میکنیم و با تامل برای POMDPها حلکنندههای تقریبی ساده ارائه میکنیم که مستقیما مبتنی بر MDPها هستند، چون اخیرا برنامههای مدیریت ساختاری نظیر PONTIS فقط به MDPها اتکا دارند و از این رو این برنامهها را میتوان از طریق این روشها به سادگی بهبود بخشید. همچنین حلکنندههای مبتنی بر گرید (شبکه) را نیز ارائه میکنیم که تقریبا به طور منحصر در نوشتجات امروز برای مسائل نگهداری ساختاری POMDPها به کار رفتهاند، سپس کاستیهای آنها را توضیح میدهیم. سرانجام حلکنندههای مبتنی بر نقطه را تجزیه و تحلیل میکنیم که قادر به حل مسائل با مقیاس بزرگتر هستند. باور داریم که روشمان در بخش اول این مقاله برای درک کاستیهای روشهای در حال حاضر به کار رفته، پیچیدگیهای مربوطه و راهحلهای ممکن مفید است و امیدواریم خوانندههای علاقمند را در درک تفاوت قابل توجه حلکنندههای POMDP (نه تنها در راه حل، بلکه در مدل سازی مسئله) کمک کند و آنها را متوجه سازد که چرا محققین مختلف اغلب مدلهای معینی را بر اساس دسترسپذیری حلکننده انتخاب میکنند. بر اساس بخش ۱ مقاله، در بخش ۲ مقاله (تکمیلی) تقریبا تمام موضوعات و ایدههای ارائه شده را در نمونهای بسیار گسترده، واقعگرایانه، با گسترهی نامحدود و حداقل هزینهی چرخهی عمر، با صدها حالت، امکان انتخاب هم اعمال بازرسی و هم اعمال نگهداری و همراه با مشاهدات غیر قطعی و غیر ایستا به کار میگیریم و بر روی پیادهسازی حلکنندههای مبتنی بر نقطه و مقایسهشان با تکنیکهای سادهتر و دیگر تکنیکها تمرکز میکنیم.
در پایان این مقدمه باید اشاره کرد که برخی دیگر از فرمولبندیها برای مسئلهی نگهداری ساختاری موجود هستند که میتوانند یا به عنوان تنوع در مدل در دستههای ارائه شده ادغام شوند یا دستههای جدید تشکیل دهند. نمونههای معرف را میتوان در مفاهیم نظریهی جدید [۱۸-۲۰]، فرآیندهای تصمیمگیری مارکوف با زمان پیوسته [۲۱] و در مقالات مروری دارای منابع ارزشمند [۲۲-۲۵] یافت. به هر حال با وجود کثرتگرایی اسلوبشناسیها، پختگی و مهارت فرمولبندیهای POMDP استثنائی هستند.