دانلود مقاله ISI انگلیسی شماره 26159
ترجمه فارسی عنوان مقاله

طرح‌ریزی سیاست‌های بازرسی و نگه‌داری ساختاری از طریق برنامه‌ریزی پویا و فرآیندهای مارکوف – بخش ۱: نظریه

عنوان انگلیسی
Planning structural inspection and maintenance policies via dynamic programming and Markov processes. Part I: Theory
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
26159 2014 12 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Reliability Engineering & System Safety, Volume 130, October 2014, Pages 202–213

فهرست مطالب ترجمه فارسی
چکیده

واژه‌های کلیدی

۱- مقدمه

شکل ۱- سیاست شماتیک POMDP برای مسئله‌ی بازرسی و نگه‌داری ساختاری. 

۲- فرآیندهای تصمیم‌گیری مارکوف

۲.۱- برنامه‌ریزی پویا

۳- افزایش حالت

۴- فرآیندهای تصمیم‌گیری نیم-مارکوف

۴.۱- بازه‌ی تصمیم‌گیری

۵- محدودیت‌های MDPها برای مدیریت زیرساخت

۶- فرآیندهای تصمیم‌گیری مارکوف نیمه مشاهده‌پذیر

شکل ۲- سیمپلکس فضای باور برای |S|=3 و نمونه‌ای از نقطه‌ی باور، [b=[0.1,0.7,0.2. 

شکل ۳- تابع مقدار باور نمونه برای |S|=2. هر بردار α ناحیه‌ای را در سراسر سیمپلکس باور تعریف می‌کند. 

شکل ۴- تابع مقدار نمونه برای |S|=3

۶.۱- پشتیبان‌های بلمن

۷- برنامه‌ریزی POMDP تقریبی

شکل ۵- نمونه‌ی هرس. بردارهای خطی اضافی به رنگ خاکستری نشان داده شده‌اند. 

۷.۱- تقریب بر اساس MDP و تابع‌های Q

شکل ۶- تقریب QMDP از تابع مقدار که کران بالای تابع دقیق است. 

۷.۲- تقریب‌های مبتنی بر گرید (شبکه)

۷.۳- حل‌کننده‌های مبتنی بر نقطه

۸- جمع‌بندی
ترجمه کلمات کلیدی
کنترل تصادفی بهینه - پردازش های تصمیم گیری مارکوف نیمه قابل مشاهده - مشاهدات نامشخص - فضای اعتقاد - هزینه چرخه عمر سازه - مدیریت زیرساخت ها -
کلمات کلیدی انگلیسی
Optimal stochastic control, Partially Observable Markov Decision Processes, Uncertain observations, Belief space, Structural life-cycle cost, Infrastructure management,
ترجمه چکیده
به منظور پرداختن به نیاز ضروری اجتماعی برای ساختارها و سیستم‌های زیرساختی ایمن تحت منابع محدود، مدیریت مبتنی بر دانش دارایی‌ها لازم است. هدف کلی این مطالعه‌ی دو قسمتی تاکید بر شاخصه‌ها و قابلیت‌های پیشرفته، استفاده از تکنیک‌های کنترل تصادفی و مخصوصا فرآیندهای تصمیم‌گیری مارکوف نیمه رویت‌پذیر (POMDP) است که به مسئله‌ی بغرنج طرح‌ریزی سیاست‌های بازرسی/نظارت و نگه‌داری بهینه بر اساس مدل‌های تصادفی و داده‌های ساختاری نامعلوم به صورت بلادرنگ می‌پردازد. فرآیندهای تصمیم‌گیری مارکوف عموما فرآیندهای تصادفی تحت کنترل هستند که مسیر خود را نسبت به روش‌های بهینه‌سازی مرسوم تغییر می‌دهند تا به هزینه‌های حداقلی چرخه‌ی عمر دست یابند و تصمیم‌گیرندگان (مدیران) را راهنمایی کنند بر اساس نتایج واقعی بازرسی‌ها یا آزمایش‌های غیر-مخرب تصمیمات متوالی بهینه بگیرند. در اولین قسمت مطالعه به صورت انحصاری، خارج از حوزه‌ی وسیع و چند هدفه‌ی کنترل تصادفی، روش‌هایی را شرح می‌دهیم که متناسب با مدیریت ساختاری هستند و از تکنیک‌های ساده شروع می‌شوند و به تکنیک‌های پیچیده و حل‌کننده‌های (مسائل) مدرن ختم می‌گردند. روش‌های MDP (فرآیندهای تصمیم‌گیری مارکوف)، شبه MDP و POMDP را در یک چارچوب کلی ارائه می‌کنیم و هر یک از این روش‌ها را به یکدیگر ارتباط داده‌ایم و راه‌حل‌های POMDP را به شکل‌های مختلف توضیح داده‌ایم، شامل هم تقریب‌های مبتنی بر گرید (شبکه) مشکل‌آفرین که به طور معمول در مشکلات نگه‌‌داری ساختاری به کار می‌روند و هم حل‌کننده‌های پیشرفته‌ی مبتنی بر نقطه که قادر به حل مشکلات واقع‌بینانه و مقیاس بزرگ هستند. روش‌مان در این مقاله برای درک کاستی‌های روش‌های موجود، راه‌حل‌های ممکن و تفاوت چشمگیر حل‌کننده‌ها مفید است. تفاوت حل‌کننده‌ها نه تنها در راه حل نهفته، بلکه در انتخاب‌های مدل‌سازی مشکل نیز وجود دارد. در دومین بخش مطالعه تقریبا تمامی موضوعات و ایده‌های ارائه شده را در نمونه‌ی مدیریتی ساختاری بسیار وسیع با گستره‌ای بی نهایت و حداقل هزینه‌ی چرخه‌ی عمر به کار می‌گیریم و بر روی پیاده‌سازی حل‌کننده‌های مبتنی بر نقطه و مقایسه‌ی آن با تکنیک‌های ساده‌تر تمرکز می‌کنیم.
ترجمه مقدمه
در این مقاله با تمرکز بر تصمیم‌گیری در اعمال نگه‌داری و بازرسی بهینه و فواصل زمانی سازه‌های مهندسی عمران بر اساس شرایط ساختاری به صورت بلادرنگ،چارچوب طرح‌ریزی و تصمیم‌گیری تحت شرایط عدم قطعیت تجزیه و تحلیل شده‌اند. مشکل تصمیم‌گیری‌های متوالی بهینه در گستره‌ی عظیمی از زمینه‌های علمی تاریخچه‌ای وسیع دارد؛ زمینه‌هایی نظیر تحقیق در عملیات، مدیریت، اقتصادسنجی، تعمیر و نگه‌داری ماشین، نظریه‌ی کنترل و بازی، هوش مصنوعی، رباتیک و بسیاری دیگر. از این محدوده‌ی وسیع مشکلات و روش‌ها با دقت تجزیه و تحلیل تکنیک‌هایی را انتخاب کردیم که می‌توانند به خصوص به مشکل مهندسی و ریاضیاتی مدیریت ساختاری بپردازند، همچنین این تکنیک‌ها را به شیوه‌ای ارائه می‌کنیم که به نظرمان برای خواننده‌های بالقوه‌ی علاقه‌مند که با این مشکل خاص و/یا ایمنی ساختاری دست و پنجه نرم می‌کنند مناسب است. برای پرداختن به مشکل نگه‌داری و مدیریت زیرساخت شهری در حال کهنگی می‌توان گستره‌ی وسیعی از فرمول‌بندی‌های مختلف را یافت. بدین منظور که شایع‌ترین اسلوب‌شناسی‌ها را به طور خیلی موجز ارائه کنیم، آن‌ها را به پنجه دسته‌ی کلی تقسیم می‌کنیم. دسته‌ی اول شامل روش‌هایی است که به شبیه‌سازی سیاست‌های از پیش تعیین‌شده و امور تحقیقاتی شاخص (می‌توان در مقالات انگلاند و سورنسن [1] و علی‌پور همکارانش [2] یافت) اتکا دارد. بر اساس نتایج شبیه‌سازی، راه‌حلی که بهترین عملکرد را در میان این سناریوها دارد انتخاب شده است که می‌تواند راه‌حلی با حداقل هزینه یا نرخ هزینه/سود باشد. پر واضح است که مشکل این قضیه آن است که سیاست انتخابی (گرچه بهتر از دیگر سیاست‌های ارائه شده است) به سختی در میان تمام سیاست‌های قابل پیاده‌سازی بهینه خواهد بود. در دومین دسته روش‌هایی را قرار داده‌ایم که معمولا با اطمینان‌پذیری از پیش تعیین‌شده یا آستانه‌ی ریسک و چند شیوه‌‌ی مختلف دیگر مرتبط هستند که در تحقیقات گذشته پیشنهاد شده‌اند. در نوشتجات دئوداتیس و همکارانش [3]و ایتو و همکارانش [4] هر وقت مدل شبیه‌سازی به آستانه‌ی اطمینان‌پذیری می‌رسد ساختار حفظ شده است، در حالی که در مقالات ژو و فرانگوپول [5] منطقی مشابه پیروی شده با این استثنا که انجام اعمال نگه‌داری در زمان‌های تعیین‌شده با شیوه‌ای بهینه پیشنهاد شده‌اند. تافت کریستنسن و سورنسن [6]و موری و الینگوود [7] تعداد معینی تعمیرات در طول عمر را فرض کرده‌اند تا از ماهیت گسسته‌ی این متغیر در فرآیند بهینه‌سازی غیر-خطی مبتنی بر گرادیان جلوگیری کنند و این محققین بر اساس مدل‌سازی خود زمان‌های نگه‌داری بهینه را شناسایی می‌کنند تا بدین ترتیب اطمینان‌پذیری در بالای آستانه‌ی تعیین‌شده بماند. ژو و فرانگوپول نیز از این روش پیروی کرده‌اند، ولی از الگوریتم ژنتیک استفاده کرده‌اند که به هر حال به منظور رها کردن فرضیه‌ی تعداد از پیش تعیین‌شده‌ی تعمیرات در طول عمر و توانایی مدل‌سازی اعمال نگه‌داری موجود به شیوه‌ای واقع‌گرایانه‌تر، هزینه‌ی محاسباتی قابل توجهی دارد. به طور کلی، روش‌های موجود در این دسته سیاست‌های خیلی ساده و استفاده‌ی هم‌زمان از الگوریتم‌های بهینه‌سازی در حوزه‌ی احتمالاتی ارائه می‌کند که در این زمینه معمولا استفاده از مدل‌های ابتدایی را ملزم می‌دارد. متاسفانه این جمله‌ی آخر هنگامی که مشکل در یک فرمول‌بندی بهینه‌سازی عمومی مطرح می‌شود نیز در خصوص حوزه‌ی احتمالاتی صدق می‌کند که آن را به عنوان دسته‌ی دیگری معین می‌کنیم، گرچه با کار تحقیقاتی منبع [5] تناسب دارد. فرمول‌بندی‌ها در این دسته معمولا با مدل‌های قطعی به خوبی عمل می‌کنند، تعداد موجود از اعمال مختلف ممکن عموما از قبل بیش‌تر است و چارچوب چند-هدفه فعال شده است. این مشکل اغلب اوقات توسط الگوریتم‌های ژنتیک حل شده و مجموعه‌ی پارتو (Pareto) جستجو شده است. انتخاب الگوریتم‌های ژنتیک یا دیگر روش‌های جستجوی اکتشافی برای حل مشکل (مسئله) تصادفی نیست، چون این روش‌ها همچنین می‌توانند بر بخش گسسته‌ی مشکل (نظیر تعداد اعمال صورت‌گرفته در طول عمر و نوع عمل انتخابی در هر دوره‌ی نگه‌داری) غلبه کنند. به هر حال به طور اجتناب‌ناپذیری هزینه‌ی محاسباتی قابل توجه است و قالب‌های احتمالاتی در این تکنیک‌ها مشکل‌آفرین هستند. امور تحقیقاتی نمونه را می‌توان در منابع ۸ تا ۱۰ و موارد دیگر مشاهده کرد. تمام روش‌های ارائه شده تا کنون منحصرا به نتایج شبیه‌سازی وابسته هستند و اساسا به منظور تنظیم یا تعیین اعمال اجراشده، به استثنای امور تحقیقاتی [۳ و ۴]، در نظر گرفته نمی‌شود. در حالی که این امر ممکن است برای انواع اهداف کافی باشد، قطعا برای سیاست مدیریت ساختاری دنیای واقعی و اعمال شده نامتجانس است. به منظور پرداختن به این مسئله، روشی محتمل در تحقیقات گذشته پیشنهاد شده که عموما، نه مطلقا، با آستانه‌های مبتنی بر شرایط مرتبط است. این روش‌ها را در چهار رده دسته‌بندی می‌کنیم و یک کار تحقیقاتی نمونه نیز در تحقیق کاستینر و همکارانش [۱۱] قابل مشاهده است. ایده‌ی اصلی پشت این روش‌ها شبیه‌سازی زوال مبتنی بر مدل تصادفی وضعیت ممتد (که در آن فرآیندهای گاما نامزدهای منتخب هستند) و تنظیم آستانه‌های معین شرایط بر اساس بهینه‌سازی (که در این بین عمل معینی صورت می‌گیرد) است. با فرض بی‌نقص بودن بازرسی‌ها، از این رو به محضی که ساختار در طی طول عمر خود از شرایط معینی تجاوز کند عمل مربوطه صورت می‌گیرد. چنان که احتمالا تا کنون متوجه شده باشید، ضعف اصلی این فرمول‌بندی فرض معمولا غیر واقع‌گرایانه‌ درباره‌ی مشاهدات بی‌نقص است. به همین دلیل، گرچه توانایی‌های فرمول‌بندی عموما وسیع و چندکاربردی است، شامل نتیجه‌ی احتمالی و طول مدت اعمال، بخش بازرسی فاقد شاخصه‌های مهم و پختگی مشابه دیگر بخش‌های این روش است. دومین نگرانی ممکن در این روش آن است که شاید یافتن بهینه‌ی سراسری در فضاهای غیر محدب سخت باشد، گرچه این یک محدودیت کلی نیست و به خصوصیات مشکل و الگوریتم بهینه‌سازی به کار رفته بستگی دارد. در پنجمین دسته مدل‌هایی را قرار داده‌ایم که به کنترل تصادفی و تصمیم‌گیری‌های متوالی بهینه اتکا دارند و در این مقاله به این مدل‌ها توجه بیش‌تری می‌شود. این روش‌ها معمولا در یک فضای حالت گسسته کار می‌کنند و همانند روش‌هایی که در دسته‌ی مذکور شرح داده شد، داده‌های واقعی و بلادرنگ را مد نظر می‌گیرند تا بهترین اعمال ممکن انتخاب شود. این مدل‌ها در پایه‌ترین شکل فرآیندهای تصمیم‌گیری مارکوف (MDP) محدودیت مشاهدات بی‌نقص را به اشتراک می‌گذارند، گرچه می‌توانند عموما سیاست‌های انعطاف‌پذیرتر و نا ایستا ارائه کنند و با بهره‌گیری از ساختار به خصوص‌شان جستجو برای بهینه‌ی سراسری عموما مشکلی ایجاد نمی‌کند. گولابی و همکارانش و تامپسون و همکارانش با اشاره به پیاده‌سازی موفق MDPها در مشکلات عملی، استفاده از این فرآیندها را با دوره‌های بازرسی دوسالانه‌ی تثبیت‌شده در PONTIS (سیستم مدیریت پل غالب مورد استفاده در ایالت متحده آمریکا) شرح می‌دهند. از همه مهم‌تر، همان‌طور که مفصل در این مقاله نشان داده شده، MDPها می‌توانند به طور قابل ملاحظه‌ای به انواع مدل‌های بزرگ و مخصوصا مدل POMDP بسط یابند. POMDP می‌تواند هزینه‌ی اطلاعات را مد نظر گیرد و حتی می‌تواند به مسئله‌ی سیاست‌های بهینه‌ی برنامه‌ریزی بر اساس داده‌های ساختاری غیر قطعی و مدل‌های تصادفی بپردازد. باور داریم که مدل‌های مبتنی بر POMDP، در مقایسه با تمام مدل‌های دیگر، روش‌هایی ماهرانه با شاخصه‌های برتر برای مسئله‌ی نگه‌داری ساختاری هستند. این مدل‌ها هیچ محدودیت غیر موجهی در فضای جستجوی سیاست، نظیر بازرسی‌های دوره‌ای، عملکردهای آستانه‌ای، تعداد از قبل تعیین‌شده‌ی تعمیرات در طول عمر و غیره، تحمیل نمی‌کنند و در عوض می‌توانند در چارچوب‌شان محدوده‌ی متنوعی از فرمول‌بندی‌ها منظور کنند، شامل مسائل مبتنی بر شرایط، اطمینان‌پذیری و/یا ریسک، بازه‌های بازرسی دوره‌ای و غیردوره‌ای، بازرسی‌های بی‌نقص و دارای نقص، انتخاب و/یا نتیجه‌ی اعمال قطعی و احتمالی، تعمیر کامل و جزئی، محیط‌های ایستا و غیر ایستا، گستره‌های محدود و نامحدود و بسیاری دیگر. امور تحقیقاتی نمونه در زمینه‌ی چارچوب POMDP را می‌توان در تحقیقات مادانات و بن‌آکیوا، الیس و همکارانش و کوروتیس و همکارانش مشاهده کرد، در حالی که منابع بیش‌تری درباره‌ی مطالعات مبنی بر فرآیندهای تصمیم‌گیری مارکوف نیز در ادامه‌ی این مقاله و در بخش دوم این تحقیق ارائه شده است. شکل ۱ برای به تصویر کشیدن شماتیک سیاست POMDP با هدف حداقل هزینه‌ی چرخه‌ی عمر در یک مسئله‌ی کلی و معمول بازرسی و نگه‌داری ارائه شده است. در این شکل، مسیر واقعی فرآیند زوال (خط ممتد آبی) بر اساس تحقق فرآیند گامای غیر ایستا شبیه‌سازی شده و به طور کلی برای تصمیم‌گیرندگان مجهول است، مگر زمانی که تصمیم‌گیرنده تصمیم به انجام عملی مشاهداتی بگیرد. بخش خاکستری شکل ۱ متوسط ۲ -/+ ناحیه‌ی عدم قطعیت انحراف‌های معیار را تعریف می‌کند که توسط مدل تصادفی به کار رفته ارائه شده است. وقتی داده‌های مشاهداتی واقعی را نمی‌توان مد نظر قرار داد، این نتیجه‌ی احتمالاتی از مدل شبیه‌سازی تنها پایه‌ی برنامه‌ریزی نگه‌داری برای تصمیم‌گیرندگان خواهد بود. حتی با یک مدل تصادفی دقیق، این حقیقت که فرآیند زوال حقیقی هیچ گاه مشاهده نشده معمولا برای ساختاری معین منجر به اعمال غیر بهینه خواهد شد، چون فرآیند تحقق‌یافته برای مثال می‌تواند در صدک‌هایی بسیار دورتر از میانگین باشد. تصمیم‌گیرنده با مد نظر قرار دادن داده‌های مشاهداتی می‌تواند بر اساس دانش قبلی خود و دقت مشاهدات باور خود را درباره‌ی سطح زوال ساختار به روز رسانی کند. در شکل ۱ به روز رسانی باور بر اساس نتیجه دو عمل مشاهداتی متفاوت اولبه وضوح نشان داده شده است (با + در شکل علامت‌گذاری شده). همان طور که می‌توان ملاحظه کرد، در مقایسه با روش دوم، اولین روش مشاهداتی دقیق‌تر است (احتمالا با هزینه‌ای بالاتر) و به طور موثرتری به سمت وضعیت صحیح سیستم هدایت می‌کند. اگر یک عمل مشاهداتی معین بتواند وضعیت ساختار را با قطعیت تعیین کند، باور با احتمال یک به این وضعیت به روزرسانی می‌شود؛ گرچه این موضوع به ندرت به روش‌های بازرسی/نظارت ساختاری مربوط می‌شود. همان‌طور که در ادامه‌ی این مقاله نشان داده شده، POMDPها سیاست خود را بر اساس وضعیت/فضای باور برنامه‌ریزی می‌کنند و این قابلیت کلیدی آن‌ها را قادر می‌سازد بر خلاف روش‌های دیگر بدون هیچ محدودیتی برای بازرسی/نظارت و انواع اعمال مشاهداتی زمان پیشنهاد دهند. POMDPها در زمینه‌ی اعمال نگه‌داری نیز دوباره می‌توانند به صورت بهینه نوع و زمان اعمال را بدون محدودیت‌های مدل‌سازی پیشنهاد دهند. دو عمل نگه‌داری مختلف به عنوان مثال در شکل ۱ نشان داده شده که با مستطیل‌های قرمز علامت‌گذاری شده است. طول مستطیل‌ها مدت زمان اعمال را نشان می‌دهد. پیش از اولین عمل نگه‌داری یک عمل مشاهداتی کاملا دقیق صورت گرفته که متعاقبا شرایط ساختار را بهبود می‌بخشد. از آن جایی که اعمال نگه‌داری نیز معمولا مشکل‌آفرین هستند، باور تصمیم‌گیرنده در سطح زوال ساختاری بعد از عمل بر اساس مشاهدات و نگه‌داری اجراشده به روزرسانی شده است. در چارچوب POMDP اعمال مشاهداتی لزوما با اعمال نگه‌داری در ارتباط نیستند و از این رو یک سیاست رایانشی ممکن است بدون این که ابتدا به مشاهده بپردازد در نمونه‌های معینی از فضای باور یک عمل نگه‌داری را پیشنهاد دهد. چنین موقعیتی در دومین عمل نگه‌داری در شکل ۱ نشان داده شده که در آن تصمیم‌گیرنده نمی‌خواهد برای به روزرسانی باور خود به ازاء اطلاعات هزینه‌ای پرداخت کند و با این وجود تصمیم می‌گیرد ساختار را نگه‌داری کند. بر اساس باور قبلی تصمیم‌گیرنده و نتیجه‌ی احتمالی عمل صورت‌گرفته (که نسبت به مورد قبلی دارای کیفیت نگه‌داری پایین‌تر است ولی زمان کم‌تری صرف می‌کند و کم‌ هزینه‌تر است) باور تصمیم‌گیرنده به‌روزرسانی شده است. در این مورد اساسا به خاطر عدم حضور داده‌های بلادرنگ، سطح واقعی زوال دارای صدک تقریبا خیلی زیادی است و عدم قطعیت باقیمانده، بعد از انجام عمل، هنوز قابل ملاحظه است. با وجود این حقیقت که مسئله‌ی نگه‌داری و بازرسی طی سال‌ها توجه‌ بسیاری را به خود جلب کرده و POMDPها چارچوب قدرتمندی برای راه‌حل‌های این مسائل ارائه می‌کند، تا کنون این موضوع به طور گسترده تشخیص داده نشده است. باور داریم که یکی از دلایل ممکن برای این موضوع آن است که تا کنون محدودیت خیلی جدی‌ از مدل‌های POMDPآن بوده که رایانش سیاست بهینه به جزء مسائل کوچک برای هر چیزی غیر ممکن بود. بنابراین، امور تحقیقاتی قابل توجهی در این زمینه در درجه‌ی اول، اگر نه انحصارا، بر روی بخش مدل‌سازی تمرکز داشتند و بخش مهم حل‌کننده‌ی مسائل مربوط به مدل‌های POMDP در این امور تحقیقاتی تنزل پیدا کرده بود. این خبر ناراحت‌کننده در مورد حل مسائل مربوط به مدل‌های POMDP محققین و مهندسین را ترغیب به ورود به این زمینه نکرد و متاسفانه با وجود پیشرفت‌های اخیر و قابل توجه‌ حل‌کننده‌های مسائل POMDP (اساسا در زمینه‌ی رباتیک) تا کنون نیز وضعیت به همین ترتیب بوده است. با پرداختن به این موضوع در این مقاله، انحصارا به شرح زمینه‌ی کنترل تصادفی گسترده و چندهدفه، روش‌های متناسب با مدیریت ساختاری (از تکنیک‌های ساده تا پیچیده) و حل‌کننده‌های مسائل مدرن قادر به حل مسائل مقیاس بزرگ و واقع‌گرایانه می‌پردازیم. بدین ترتیب، در بخش ۲ به طور خلاصه MDPها را به عنوان شالوده‌ی باقی مقاله شرح می‌دهیم و در بخش ۳ چگونگی عملکرد افزایش حالات (state augmentation) را شرح می‌دهیم که در میان دیگر تکنیک‌ها تکنیکی ارزشمند برای تشکیل مسائل غیر ایستا به شمار می‌رود. در بخش ۴ فرآیندهای نیم-MDP را شرح می‌دهیم که می‌تواند مدت زمان اعمال را مدل‌سازی کند و این فرآیندها را برای مدیریت ساختاری به ایده‌ی مهم بازه‌ی تصمیم‌گیری نسبت می‌دهیم، در حالی که در بخش ۵ توضیح می‌دهیم که چرا MDPها و نیم-MDPها محدودیت‌های ذاتی برای مسئله‌ی مد نظرمان ارائه می‌کنند. سپس در بخش ۶ مفصل توضیح می‌دهیم چگونه POMDPها می‌توانند به تمام این محدودیت‌ها جواب دهند، همچنین به‌روزرسانی باور و مفهوم فضای باور را توضیح می‌دهیم و به طور کلی این موضوع دشوار را به طرزی مختصر و مفید ارائه می‌کنیم. در بخش ۷ تکنیک‌های حل مسئله را آزمایش می‌کنیم و با تامل برای POMDPها حل‌کننده‌های تقریبی ساده ارائه می‌کنیم که مستقیما مبتنی بر MDPها هستند، چون اخیرا برنامه‌های مدیریت ساختاری نظیر PONTIS فقط به MDPها اتکا دارند و از این رو این برنامه‌ها را می‌توان از طریق این روش‌ها به سادگی بهبود بخشید. همچنین حل‌کننده‌های مبتنی بر گرید (شبکه) را نیز ارائه می‌کنیم که تقریبا به طور منحصر در نوشتجات امروز برای مسائل نگه‌داری ساختاری POMDPها به کار رفته‌اند، سپس کاستی‌های آن‌ها را توضیح می‌دهیم. سرانجام حل‌کننده‌های مبتنی بر نقطه را تجزیه و تحلیل می‌کنیم که قادر به حل مسائل با مقیاس‌ بزرگ‌تر هستند. باور داریم که روش‌مان در بخش اول این مقاله برای درک کاستی‌های روش‌های در حال حاضر به کار رفته، پیچیدگی‌های مربوطه و راه‌حل‌های ممکن مفید است و امیدواریم خواننده‌های علاقمند را در درک تفاوت قابل توجه حل‌کننده‌های POMDP (نه تنها در راه حل، بلکه در مدل سازی مسئله) کمک کند و آن‌ها را متوجه سازد که چرا محققین مختلف اغلب مدل‌های معینی را بر اساس دسترس‌پذیری حل‌کننده انتخاب می‌کنند. بر اساس بخش ۱ مقاله، در بخش ۲ مقاله (تکمیلی) تقریبا تمام موضوعات و ایده‌های ارائه شده را در نمونه‌ای بسیار گسترده، واقع‌گرایانه، با گستره‌ی نامحدود و حداقل هزینه‌ی چرخه‌ی عمر، با صدها حالت، امکان انتخاب هم اعمال بازرسی و هم اعمال نگه‌داری و همراه با مشاهدات غیر قطعی و غیر ایستا به کار می‌گیریم و بر روی پیاده‌سازی حل‌کننده‌های مبتنی بر نقطه و مقایسه‌شان با تکنیک‌های ساده‌تر و دیگر تکنیک‌ها تمرکز می‌کنیم. در پایان این مقدمه باید اشاره کرد که برخی دیگر از فرمول‌بندی‌ها برای مسئله‌ی نگه‌داری ساختاری موجود هستند که می‌توانند یا به عنوان تنوع در مدل در دسته‌های ارائه شده ادغام شوند یا دسته‌های جدید تشکیل دهند. نمونه‌های معرف را می‌توان در مفاهیم نظریه‌ی جدید [۱۸-۲۰]، فرآیندهای تصمیم‌گیری مارکوف با زمان پیوسته [۲۱] و در مقالات مروری دارای منابع ارزشمند [۲۲-۲۵] یافت. به هر حال با وجود کثرت‌گرایی اسلوب‌شناسی‌ها، پختگی و مهارت فرمول‌بندی‌های POMDP استثنائی هستند.
پیش نمایش مقاله
پیش نمایش مقاله  طرح‌ریزی سیاست‌های بازرسی و نگه‌داری ساختاری از طریق برنامه‌ریزی پویا و فرآیندهای مارکوف – بخش ۱: نظریه

چکیده انگلیسی

To address effectively the urgent societal need for safe structures and infrastructure systems under limited resources, science-based management of assets is needed. The overall objective of this two part study is to highlight the advanced attributes, capabilities and use of stochastic control techniques, and especially Partially Observable Markov Decision Processes (POMDPs) that can address the conundrum of planning optimum inspection/monitoring and maintenance policies based on stochastic models and uncertain structural data in real time. Markov Decision Processes are in general controlled stochastic processes that move away from conventional optimization approaches in order to achieve minimum life-cycle costs and advice the decision-makers to take optimum sequential decisions based on the actual results of inspections or the non-destructive testings they perform. In this first part of the study we exclusively describe, out of the vast and multipurpose stochastic control field, methods that are fitting for structural management, starting from simpler to sophisticated techniques and modern solvers. We present Markov Decision Processes (MDPs), semi-MDP and POMDP methods in an overview framework, we have related each of these to the others, and we have described POMDP solutions in many forms, including both the problematic grid-based approximations that are routinely used in structural maintenance problems, and the advanced point-based solvers capable of solving large scale, realistic problems. Our approach in this paper is helpful for understanding shortcomings of the currently used methods, related complications, possible solutions and the significance different solvers have not only on the solution but also on the modeling choices of the problem. In the second part of the study we utilize almost all presented topics and notions in a very broad, infinite horizon, minimum life-cycle cost structural management example and we focus on point-based solvers implementation and comparison with simpler techniques, among others.

مقدمه انگلیسی

In this paper the framework of planning and making decisions under uncertainty is analyzed, with a focus on deciding optimum maintenance and inspection actions and intervals for civil engineering structures based on the structural conditions in real time. The problem of making optimum sequential decisions has a huge history in a big variety of scientific fields, like operations research, management, econometrics, machine maintenance, control and game theory, artificial intelligence, robotics and many more. From this immense range of problems and methods we carefully chose to analyze techniques that can particularly address the engineering and mathematical problem of structural management, and we also present them in a manner that we think is most appropriate for the potential interested readers, who are dealing with this particular problem and/or structural safety. A large variety of different formulations can be found addressing the problem of maintenance and management of aging civil infrastructure. In an effort to very succinctly present the most prevalent methodologies we classify them in five different general categories. The first category includes methods that rely on simulation of different predefined policies and indicative works can be found by Engelund and Sorensen [1] and Alipour et al. [2]. Based on the simulation results, the solution that provides the best performance among these scenarios is chosen, which could be the one with the minimum cost or cost/benefit ratio, etc. It is evident that a problem with this approach is that the chosen policy, although better than the provided alternatives, will hardly be the optimal among all the possible ones that can actually be implemented. In the second category we include methods that are usually associated with a pre-specified reliability or risk threshold and several different procedures have been suggested in the literature. In Deodatis et al. [3] and Ito et al. [4] the structure is maintained whenever the simulation model is reaching the reliability threshold, while in Zhu and Frangopol [5] the same logic is followed with the exception that the maintenance actions to take at the designated times are suggested by an optimization procedure. Thoft-Christensen and Sorensen [6] and Mori and Ellingwood [7] pre-assume a given number of lifetime repairs, in order to avoid the discrete nature of this variable in their non-linear, gradient-based optimization process, and based on their modeling they identify optimum maintenance times so that the reliability remains above the specified threshold. Zhu and Frangopol [5] also followed this approach but used a genetic algorithm, which has significant computational cost however, in order to drop the assumption of pre-determined number of lifetime repairs and to be able to model the available maintenance actions in a more realistic manner. Overall, the available methods in this category provide very basic policies and the simultaneous use of optimization algorithms in a probabilistic domain, in this context, usually compels use of rudimentary models. Unfortunately, this last statement, concerning a probabilistic domain, is also valid when the problem is cast in a generic optimization formulation, which we characterize as another category although the work in [5] would also fit in. Formulations in this class usually work well with deterministic models, the available number of possible different actions is typically greater than before and a multi-objective framework is enabled. The problem is frequently solved by genetic algorithms and a Pareto front is sought. The choice of genetic algorithms, or other heuristic search methods, for solving the problem is not accidental since these methods can also tackle the discrete part of the problem, like the number of lifetime actions and the chosen action type in each maintenance period. Unavoidably, the computational cost is significant nonetheless and probabilistic formats are problematic with these techniques. Representative works can be seen in [8], [9] and [10], among others. All presented methods until now rely exclusively on simulation results and in essence do not take actual data into account in order to adjust or determine the performed actions, with the works in [3] and [4] being some sort of exception. While this may be sufficient for a variety of purposes, it is definitely incongruous for an applied, real world structural management policy. To address the issue a possible approach is suggested in the literature which is typically, but not utterly, associated with condition based thresholds. We classify these methods in a fourth category and a representative work can be seen in Castanier et al. [11]. The main idea behind these methods is to simulate deterioration based on a continuous state stochastic model, with Gamma processes being a favored candidate, and to set certain condition thresholds based on optimization, in between which a certain action takes place. Assuming perfect inspections, the related action is thus performed as soon as the structure exceeds a certain condition state during its lifetime. As probably understood already, the main weakness of this formulation is the usually unrealistic assumption about perfect observations. Due to this, although capabilities of the formulation are generally broad and versatile, including probabilistic outcome and duration of actions, the inspection part is lacking important attributes and analogous sophistication with other parts of the approach. A secondary concern with this approach can be also identified in the fact that the global optimum may be hard to find in non-convex spaces, although this is not a general limitation and is dependent on the specifics of the problem and the optimization algorithm used. In the fifth category we include models that rely on stochastic control and optimum sequential decisions and these are the models of further interest in this paper. These approaches usually work in a discrete state space, and like the ones in the previously described category also take actual, real-time data into account in order to choose the best possible actions. In their most basic form of Markov Decision Processes (MDPs) these models share the limitation of perfect observations, although they can generally provide more versatile, non-stationary policies, and taking advantage of their particular structure the search for the global optimum is typically unproblematic. Indicative of the successful implementation of MDPs in practical problems, Golabi et al. [12] and Thompson et al. [13] describe their use with fixed biannual inspection periods in PONTIS, the predominant bridge management system used in the United States. Most importantly however, as is also shown in detail in this paper, MDPs can be further extended considerably to a large variety of models and especially to Partially Observable Markov Decision Processes (POMDPs) that can take the notion of the cost of information into account and can even address the conundrum of planning optimum policies based on uncertain structural data and stochastic models. We believe that POMDP based models are adroit methods with superior attributes for the structural maintenance problem, in comparison to all other methods. They do not impose any unjustified constraints on the policy search space, such as periodic inspections, threshold performances, pre-determined number of lifetime repairs, etc., and can instead incorporate in their framework a diverse range of formulations, including condition-based, reliability and/or risk-based problems, periodic and aperiodic inspection intervals, perfect and imperfect inspections, deterministic and probabilistic choice and/or outcome of actions, perfect and partial repair, stationary and non-stationary environments, infinite and finite horizons, and many more. Representative works with a POMDP framework can be seen in Madanat and Ben-Akiva [14], Ellis et al. [15] and Corotis et al. [16], while further references about studies based on Markov Decision Processes are also given in the rest of this paper and in the second part of this work, [17]. To illustrate schematically a POMDP policy, with a minimum life-cycle cost objective, in a general, characteristic structural inspection and maintenance problem, Fig. 1 is provided. In this figure, the actual path of the deterioration process (continuous blue line) has been simulated based on one realization of a non-stationary Gamma process and is overall unknown to the decision-maker except when he decides to take an observation action. The gray area in Fig. 1 defines the mean +/− 2 standard deviations uncertainty area which is given by the used stochastic model. This probabilistic outcome of the simulation model is the only base for maintenance planning for the decision-maker when actual observation data cannot be taken into account. Even with an accurate stochastic model, the fact that the actual deterioration process is never observed will usually result in non-optimum actions, for a certain structure, since the realized process can be, for example, in percentiles far away from the mean. Taking observation data into account the decision-maker can update his belief about the deterioration level of the structure according to his prior knowledge and the accuracy of observations. In Fig. 1 the belief updating is shown clearly based on the outcome of the first two different observation actions (marked with+in the figure). As seen, the first observation method is more accurate (probably at a higher cost), in comparison to the second, and directs more effectively to the true state of the system. Although rarely the case with structural inspection/monitoring methods, if a certain observation action can identify the state of the structure with certainty, the belief is then updated to this state with probability one. As is shown in detail in the rest of this paper, POMDPs plan their policy upon the belief state-space and this key feature enables them also to suggest times for inspection/monitoring and types of observation actions, without any restrictions, unlike any other method. Concerning maintenance actions, POMDPs can again optimally suggest the type and time of actions without any modeling limitations. Two different maintenance actions are shown as an example in Fig. 1, marked by the red rectangles. The length of the rectangles indicates the duration time of actions. The first maintenance action is preceded by a quite precise observation action and substantially improves the condition of the structure. Since the outcome of maintenance actions is usually also probabilistic, the belief of the decision-maker over the structural deterioration level after the action is updated based on the observation and the performed maintenance. In the POMDP framework observation actions are not necessarily connected to maintenance actions and hence a computed policy may suggest a maintenance action at certain instances of the belief space without observing first. Such an occasion is depicted at the second maintenance action in Fig. 1, where the decision-maker does not want to pay the cost of information to update his belief and decides to maintain the structure regardless. Based on his prior belief and the probabilistic outcome of the performed action, which is of lower maintenance quality but less time demanding and costly than the previous one, the belief of the decision-maker is updated accordingly. Mainly due to the absence of real-time data in this case, the actual deterioration level is at a somewhat extreme percentile and the remaining uncertainty, after the action, is still considerable. Full-size image (36 K) Fig. 1. A schematic POMDP policy for a structural inspection and maintenance problem. Figure options Despite the fact that the maintenance and inspection problem has received considerable attention along the years and that POMDPs provide such a powerful framework for its solution, this is still not widely recognized today. We believe that one possible reason for this is that until recently a very serious limitation of POMDP models was that the optimal policy was impossible to be computed for anything but very small problems. Hence, significant available works in this area primarily, if not exclusively, focused on the modeling part and the important solving part of POMDP models was degraded in these works. This depressing news for solving the POMDP models did not motivate researchers and engineers to enter the field and unfortunately this is even currently so, despite recent, significant advances of POMDP solvers, mainly in the field of robotics. Addressing this issue in this paper, we exclusively describe out of the vast and multipurpose stochastic control field, methods that are fitting for structural management, starting from simpler to sophisticated techniques, and modern solvers capable of solving large-scale, realistic problems. More specifically, in Section 2 we briefly describe MDPs as a foundation for the rest of the paper and in Section 3 we explain how state augmentation works which is a valuable technique to form non-stationary problems, among others. In Section 4 we describe semi-MDPs, which can model the duration of actions, and we relate them to the important, for structural management, decision interval notion, while in Section 5 we explain why MDPs and semi-MDPs present intrinsic limitations for our considered problem. We then explain in Section 6 in detail how POMDPs can give answers to all these limitations, we explain the belief updating and the belief space concept and overall we present this demanding topic in a concise and clear way. In Section 7 we examine solving techniques and we deliberately present simple approximate solvers for POMDPs that are directly based on MDPs, because currently structural management programs like PONTIS only rely on MDPs and hence these programs could be straightforwardly enhanced by these methods. We also present grid-based solvers, which are almost exclusively used in the literature today for structural maintenance problems with POMDPs, and we explain their inadequacies and we finally analyze point-based solvers that have the capability to solve larger scale problems. We believe our approach in this Part I paper is helpful for understanding shortcomings of the currently used methods, related complications and possible solutions and we hope that will also help interested readers understand the significance different POMDP solvers have, not only on the solution of course but also on the modeling of the problem, and why different researchers often choose specific models based on solver availability. Based on this Part I paper, in our Part II companion paper, [17], we utilize almost all presented topics and notions in a very broad, realistic, infinite horizon, minimum life-cycle cost example, with hundreds of states, choice availability of both inspection and maintenance actions, uncertain observations and non-stationarity, and we focus on point-based solvers implementation and comparison with simpler techniques, among others. Closing this introductory part it is important to mention that several other formulations for the structural maintenance problem exist which could either be integrated in the provided categories as model variations or could perhaps form new categories. Representative examples can be found in renewal theory concepts [18], [19] and [20], continuous time Markov Decision Processes [21], and in review papers with valuable references, [22], [23], [24] and [25]. Notwithstanding the pluralism, however, of the methodologies, the sophistication and adeptness of POMDP formulations are exceptional.

نتیجه گیری انگلیسی

In this paper, stochastic control approaches that are appropriate for infrastructure management and minimum life-cycle costs are analyzed. We briefly describe Markov Decision Processes (MDPs) as a foundation for the rest of the paper and we gradually advance to more sophisticated techniques, and modern solvers capable of solving large-scale, realistic problems. Particularly, we present the state-augmentation procedure, semi-MDPs, and their broader association with important notions, as well as Partially Observable MDPs (POMDPs) that can efficiently address significant limitations of alternative methods. We also examine solving techniques, from simple approximate solvers for POMDPs that are directly based on MDPs and can be straightforwardly utilized by available structural management programs, to the inadequate grid-based solvers which are excessively used for maintenance problems with POMDPs, and finally to advanced, modern point-based solvers with enhanced attributes, capable of solving larger scale problems. Overall, it can be easily recognized in the paper that POMDPs extend studies based on alternative concepts, such as the classic reliability/risk-based maintenance, and they do not impose any unjustified constraints on the policy search space, like periodic inspection periods, threshold performances, perfect inspections and many more. A clear disadvantage of POMDPs, however, is that they are difficult to be solved, especially for large models with many states, and this paper helps explain the significance of different POMDP solvers both on the solution and the modeling of the problem. Based on this Part I paper, the companion Part II paper, [17], utilizes almost all presented topics and notions in a demanding minimum life-cycle cost application, where the optimum policy for a deteriorating structure consists of a complex combination of a variety of inspection/monitoring types and intervals, as well as maintenance actions and action times.