ترجمه فارسی عنوان مقاله
برنامه ریزی سیاست های بازرسی و تعمیر و نگهداری سازه ای از طریق برنامه ریزی پویا و فرایندهای مارکوف. بخش II: اجرای POMDP
عنوان انگلیسی
Planning structural inspection and maintenance policies via dynamic programming and Markov processes. Part II: POMDP implementation
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
26158 | 2014 | 11 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Reliability Engineering & System Safety, Volume 130, October 2014, Pages 214–224
فهرست مطالب ترجمه فارسی
چکیده
کلید واژه ها
1. مقدمه
2. مدل سازی POMDP
2.1 احتمالات تغییر وضعیت (حالت گذار) برای سازه های در حال زوال و فرسایش
2.1.1 انتقال زوال و فرسایش غیرثابت
شکل 1. احتمال قرار گرفتن در هر حالت وضعیت، که از وضعیت خوب شروع می شود و مقایسه مدل سازی تصادفی با مبنای فیزیکی با شبیه سازی های زنجیره مارکوف
2.2 پارامترهای باقیمانده POMDP (اقدامات، مشاهدات، و پاداش ها)
جدول 1. بخش پاداش های مدل سازی POMDP
3. الگوریتم Perseus
4. نتایج
شکل 2. مرحله پشتیبان گیری Perseus
شکل 3. تقریب تابع مقدار حد پایین تر تکرار شونده
شکل 4. اقدامات حمایت شده بوسیله 2319 ابرصفحه.
شکل 5. شبیه سازی مثال اول
شکل 7. مقایسه سیاست ها. شبیه سازی های آغاز شده در حالت بدون زوال و تخریب
شکل 8. مقایسه سیاست ها. شبیه سازی های آغاز شده در وضعیت تخریب وزوال
شکل 9. مقایسه سیاست ها و برتری POMDP
شکل 10. عملکرد Perseus. پاداش تنزیل یافته مورد انتظار شبیه سازی شده
شکل 11. عملکرد Perseus. پاداش تنزیل یافته مورد انتظار شبیه سازی شده
5. نتیجه گیری
شکل 12. عملکرد Perseus. تعداد ابرصفحات و حد و کران های پایین تر
کلید واژه ها
1. مقدمه
2. مدل سازی POMDP
2.1 احتمالات تغییر وضعیت (حالت گذار) برای سازه های در حال زوال و فرسایش
2.1.1 انتقال زوال و فرسایش غیرثابت
شکل 1. احتمال قرار گرفتن در هر حالت وضعیت، که از وضعیت خوب شروع می شود و مقایسه مدل سازی تصادفی با مبنای فیزیکی با شبیه سازی های زنجیره مارکوف
2.2 پارامترهای باقیمانده POMDP (اقدامات، مشاهدات، و پاداش ها)
جدول 1. بخش پاداش های مدل سازی POMDP
3. الگوریتم Perseus
4. نتایج
شکل 2. مرحله پشتیبان گیری Perseus
شکل 3. تقریب تابع مقدار حد پایین تر تکرار شونده
شکل 4. اقدامات حمایت شده بوسیله 2319 ابرصفحه.
شکل 5. شبیه سازی مثال اول
شکل 7. مقایسه سیاست ها. شبیه سازی های آغاز شده در حالت بدون زوال و تخریب
شکل 8. مقایسه سیاست ها. شبیه سازی های آغاز شده در وضعیت تخریب وزوال
شکل 9. مقایسه سیاست ها و برتری POMDP
شکل 10. عملکرد Perseus. پاداش تنزیل یافته مورد انتظار شبیه سازی شده
شکل 11. عملکرد Perseus. پاداش تنزیل یافته مورد انتظار شبیه سازی شده
5. نتیجه گیری
شکل 12. عملکرد Perseus. تعداد ابرصفحات و حد و کران های پایین تر
ترجمه کلمات کلیدی
پردازش های تصمیم گیری مارکوف نیمه قابل مشاهده -
کنترل تصادفی بهینه -
فضای اعتقاد -
مشاهدات نامشخص -
هزینه چرخه عمر سازه -
مدیریت زیرساخت ها -
کلمات کلیدی انگلیسی
Partially Observable Markov Decision Processes,
Optimal stochastic control,
Belief space,
Uncertain observations,
Structural life-cycle cost,
Infrastructure management,
ترجمه چکیده
هدف کلی این مطالعه دوبخشی تاکید بر ویژگی های پیشرفته، قابلیت ها و استفاده از تکنیک های کنترل تصادفی و به خصوص فرایندهای تصمیم مارکوف با ویژگی قابل مشاهدهجزئی(POMDPs) است که می تواند به مسئله برنامه ریزی سیاست های تعمیر و نگهداری و بازرسی/نظارت مطلوب براساس مدل های تصادفی و داده های سازه ای نامطمئن در لحظه (زمان واقعی) بپردازد. در بخش دوم مطالعه، یک فرمول سازیPOMDP افق نامتناهی، مجزا و پیشرفته با 332 حالت، در رابطه با یک سازه بتن مسلح در حال خوردگی و حداقل هزینه طول عمر آن مطرح و حل می شود.ساختار و راه حل این مسئله، رویکردهای مرتبط را مدرنیزه و گسترش می دهد و استفاده از روش های POMDP را در به چالش کشیدن کاربردهای عملی ترغیب می کند.جدای از مشاهدات نامعلوم، چارچوب ارائه شده می تواند از نتایج نامشخص اقدامات، بازرسی های غیر دوره ای و دردسترس بودن انواع بازرسی/نظارت و فواصل و همچنین اقدامات تعمیر و نگهداری و زمان های عملیات حمایت کند. بنابراین جای تعجب نیست که سیاست بهینه برآورد شده شامل ترکیب پیچیده ای از یک سری اقداماتی می شود که بواسطه هیچ روش دیگری نمی توان آنها را اجرا کرد. برای حل مسئله، به یک راه حل تکرار مقدار نقطه محور متوسل می شویم و عملکرد آن و کیفیت راه حل را برای این نوع کاربردها ارزیابی می کنیم. راه حل های تقریبی ساده تر براساس MDPs استفاده و مقایسه می شوند و مفاهیم مهم اقدامات جمع آوری مشاهدات و ارزش اطلاعات بطور مختصر بحث می شوند.
ترجمه مقدمه
این مقاله مکمل یک مقاله همدم (مقاله با موضوع مشابه)[1] است که پیش زمینه نظری جامعی در خصوص استفاده از فرایندهای تصمیم مارکوف (MDPs) برای مدیریت زیرساخت فراهم کرد. همانطور که در بخش اول مقاله نشان داده شده است، بخش به طور جزیی قابل مشاهده فرایندهای تصمیم مارکوف (POMDPs) یک گزینه عالی برای تصمیم گیری و مدیریت دارایی در شرایط عدم اطمینان، با مبنای ریاضیاتیقوی و ویژگی های برتر، است. POMDPs قادر است تعداد زیادی از موقعیت های واقع گرایانه را توصیف کند و می تواند از طیف متنوعی از فرمول ها و توابع هدف، از جمله مسائل مبتنی بر خطر و یا پایایی، و مبتنی بر شرایط پشتیبانی کند [1].سیاست های بهینه چرخه عمر براساس کنترل تصادفی، مدل های احتمالاتی، داده های سازه ای نامشخص و اصول بایزی ارائه می شوند. بخش دو این مقاله بیشتر بر جزئیات مدل ها و راه حل هایPOMDP برای سیاست های تعمیر و نگهداری و بازرسی سازه بهینه تاکید دارد. یک مثال از کاربرد دقیق سازه بتنی مسلح در حال خوردگی ارائه می شود و در این میان اطلاعات هزینه-منفعت بطور طبیعی در فرمول گنجانده می شود. بیشتر مقادیر و مفاهیم قبلاً تعریف شده در بخش 1 [1] مجدداً با جزئیات در این مقاله تعریف نمی شوند و هرگونه فرضیه مطرح شده در مقاله مشابه در این مقاله هم معتبر است. به عنوان مثال، در این مقاله تنها به کمک های مالی صورت گرفته اشاره خواهد شد، از آنجا که هزینه را صرفاً می توان به عنوان پاداش منفی در نظر گرفت.
فرایندهای تصمیم مارکوف دارای پیشینه طولانی و موفق اجرا در مدیریت خطر و هزینه یابی حداقل چرخه عمر سازه های مهندسی عمران هستند [2]. احتمالا قوی ترین نشانه موفقیت و قابلیت های آنها، استفاده از آنها در آژانس های دولتی مختلف در سراسر جهان برای مدیریت دارایی طیفی از زیرساخت ها نظیر پل ها، شبکه های حمل و نقل، پیاده روها و غیره است [3-5]. در آمریکا، PONTIS، سیستم مدیریت غالب برای پل ها و سایر زیرساخت ها، از MDPs به عنوان ابزار اصلی بهینه سازی اش استفاده می کند [6-8]. PONTIS در حال حاضر یک علامت تجاری ثبت شده AASHTO است و توسط اکثریت دپارتمان های حمل و نقل ایالتی آمریکا و سایر سازمان ها در آمریکا و سایر کشورها دارای مجوز است و مورد استفاده قرار می گیرد
گرچه MDPs یک چارچوب ریاضی بسیار قوی و همه کاره برای مدیریت دارایی ارائه می کنند، اما یک سری محدودیت ها هم دارند که بعضی مواقع برای کیفیت راه حل هایی که ارائه می کنند حائز اهمیت هستند. POMDPs یک ابزار بسیار عمومی تر است که تمام ویژگی های ارزشمند MDPs را به ارث برده و خودش هم یک سری ویژگی های اضافی دارد.با این حال، POMPs شامل یک رشته علمی جدیدتر می شود که در حال حاضرمی تواند مورد تحقیق و بررسی علمی گسترده قرار گیرد و به اندازه MDPبالغ نیست.این دلایل، علاوه بر این واقعیت که حل کردن شان برای مسائل بزرگ، پیچیده و واقعی بسیار دشوار است، باعث شده تعداد کمی از پژوهش ها در چارچوب تعمیر و نگهداری و بازرسی بهینه به آنها بپردازند، در قیاس با سایر رویکردها در این حیطه، [1]. در مقاله Madanat و Ben-Akiva[9]، یک مسئله POMDP با 8 حالت و یک افق متناهی 10 ساله حل می شود و در مقاله Smilowitz و Madanat[10] یک مسئله تنها با سه حالت، در رابطه با شبکه ای از پیاده رو بزرگراه ها، ارائه می شود. هر دوی این مقالات از یک شبکه ثابت و منظم و قاعده درون یابی- برون یابی نزدیک ترین همسایه استفاده می کنند (تمام معایب این روش را که دربخش اول مقالهبحث شدند تحمل می کنند) و مسائل را به MDPs کاملا قابل مشاهده تبدیل می سازند که به ترتیب بوسیله برنامه ریزی پویا و خطی حل می شوند. در مقاله Ellis et al [11] و Jiang et al[12]، برخی مسائل POMDP افق متناهی در رابطه با پوسیدگی و زوال سازه ای تیرآهن های پل به دلیل خوردگی و فرسودگی، تجزیه و تحلیل می شوند. ماکزیمم سایز فضاهای حالت در این دو تحقیق 13 است و محققان مسائل را با یک الگوریتم دقیق حل می کنند، از مزیت تعداد کم حالات و فرمول سازی افق متناهی بهره می برند، که در این وضعیت در مقایسه با یک افق نامتناهی به لحاظ محاسباتی مفید است. Faddoul et al. [13] یک مسئله بازرسی و تعمیر و نگهداری را در رابطه با سطح پل بزرگراه بتنی مسلح مطالعه کردند و سیاست های مطلوب را براساس روش نزدیک ترین همسایه و یک POMDP 5 حالته با یک طول افق 20 ساله جستجو کردند.استفاده از POMDPs در تحقیقات مربوط به موضوع حاضر در [14-17] یافت می شود. حداکثر اندازه فضای حالت به کار رفته در این موارد، 9 است، [14]. روشن است که در تمام این مقالات، فرمول سازی مسائل بوسیله POMDP باعث شده محققان نتوانند سیستم را بصورت دقیق تر با فضاهای حالت بزرگ تر توصیف کنند. در فرمول سازی های MDP، که در آنها راه حل ها را بسیار راحت تر می توان پیدا کرد، اندازه های فضای حالت در ترتیب صدها یا هزار معمولا مشاهده می شوند و حتی می توان آن ها را کوچک در نظر گرفت. مثلا، یک نمونه تحقیق انجام شده توسط Robelin و Madanat[18] است که در آن مسئله مدیریت سطح پل، که به صورت یک MDP با 840 حالت ایجاد شده، حل شده است. فضای حالت در این مورد شامل شاخص پایایی سطح و پارامترهای وابسته به تاریخ می شود.
در این مقاله، به این تحقیقات قبلا ارائه شده و رویکردهای موثر، مانند [11] و [12] تکیه می کنیم و بطور قابل توجهی آنها را به سمت مدل سازی مقیاس بزرگ و حل مسائل واقعی بسط می دهیم. با استفاده از موضوعات ارائه شده در بخش اول مقاله مشابه، یک فرمول سازی افق نامتناهی مجزا، پیشرفته و دشوار در این تحقیق با پدیده های تصادفی غیرثابت، در ارتباط با مدل های تصادفی با مبنای فیزیکی و یک فضای حالت بسیار بزرگ تر 332 حالت ارائه و حل می شوند. دردسترس بودن اقدامات مختلف تعمیر و نگهداری و نظارت، مشاهدات نامشخص و نتایج عملیات و بازدیدهای غیر دوره ای از سازه ها در این تحقیق در برگرفته شدند. با یک چنین ساختار و تشکیلات بی سابقه و طیفی از گزینه های نامحدود، سیاست بهینه برآورد شده ترکیب بسیار پیچیده ای از فواصل و انواع نظارت / بازرسی، و اقدامات تعمیر و نگهداری و زمان های عملیات است که با هیچ روش دیگری نمی توان به آنها دست یافت. برای اینکه امکان حل این مسئله چالش برانگیز و دشوار وجود داشته باشد (به این خاطر که با هیچ تکنیک دیگر در منابع فوق الذکر نمی توان آن را حل کرد)، همانطور که در مقاله مشابه توضیح داده شد به راه حل های نقطه محور متوسل می شویم [1]. روش های نقطه محور عمدتا در رشته هوش مصنوعی برای هدایت ربات های مستقل تدوین و توسعه یافته اند. هدایت ربات های مستقل یک مسئله با ویژگی های ذاتاً متفاوت از مسئله مدیریت ساختاری (سازه ای) است. در این بین، عدم قطعیت در مسائل هدایت ربات ها با گذشت زمان کاهش می یابد، به این خاطر که زمینه به تدریج مورد بررسی قرار می گیرد، (نه خلاف آن در تعمیر و نگهداری سازه ای) و اقدامات مشاهده ای مختلف معمولا در طول برنامه ریزی انجام نمی شوند. به رغم تفاوت ها، در این تحقیق نشان می دهیم که الگوریتم تکرار مقدار نقطه محور Perseus[20] می تواند با موفقیت در این نوع اپلیکیشن ها (برنامه های کاربردی) اجرا شود، حتی برای مسائل دشوار با فضاهای حالت بزرگ تر از مسائلی که در حال حاضر در ادبیات تعمیر و نگهداری توصیف شده اند. علاوه بر این، تلاش های اخیر محققین با مدل های بزرگ تر، با هزاران حالت، در یک فرمول افق محدود، در [21] قابل مشاهده است که در آن ترسیم و نگاشت POMDP برای مدل تصادفی با مبنای فیزیکی با جزئیات بیشتر شرح داده می شود. جدای از Perseus، این مسئله را با راه حل های تقریبی ساده (MLS، QMDP، [1]) حل می کنیم که بطور مستقیم براساس MDPs هستند. سیستم های فعلی مدیریت سازه ای (مانند PONTIS) تنها به MDPs متکی هستند و در نتیجه می توانند راحت از این روش ها استفاده کنند. ما تفاوت ها را در عملکرد و کیفیت راه حل بین این روش ها و Perseusنشان می دهیم و براساس این مقایسه، مفاهیم مهم اقدامات جمع آوری مشاهدات و ارزش اطلاعات را شفاف تر می سازیم که البته حاکی از این هستند که روش های دقیق تر نظارت/بازرسی بوضوح پرهزینه تر از روش های نظارت/بازرسی ناپخته تر هستند. بصورت مختصر و مفید، مقاله حاضر یک چارچوب کلی با جزئیات ارائه می کند که نحوه حل مسائل مرتبط را مدرنیزه می سازد، در مدل سازی مقیاس بزرگ گامی به جلو برمی دارد (پیشروی می کند)، گسترش روش های POMDP نقطه محور را نشان می دهد و استفاده از آنها را در طیف گسترده ای از مسائل و کاربردهای عملی ترغیب می سازد.
اپلیکیشن خاص استفاده شده در این تحقیق به منظور نشان دادن چارچوب پیشنهادی POMDP، ویژگی ها، راه حل و اجرای دقیق آن به یک سازه بتنی مسلح در حال خوردگی مربوط می شود. متاسفانه، روش های فعلی ارزیابی خوردگی غیر مخرب مستعد خطاهای اندازه گیری هستند و یک سری نواقص ذاتی دارند که بدست آوردن نتایج مهندسی مشخص و قابل اطمینان را براساس بازده و خروجی شان دشوار می سازند [22-24]. به همین دلیل، فرمول سازی POMDP این مسئله بسیار مناسب است. یک مدل فضایی، تصادفی و با مبنای فیزیکی خوردگی فولاد در یک ورقه بتنی مسلح عرشه اسکله در مقاله Papakonstantinou و Shinozuka[25] ارائه شد. براساس این مدل سازی، یک مدل POMDP غیرثابت افق نامتناهی با گام های زمانی سالانه و 332 حالت فیزیکی مجزا در این تحقیق ارائه و بوسیله برنامه ریزی دینامیک غیرهمزمان و Perseus[20] حل شد. هدف این اپلیکیشن شناسایی یک سیاست هزینه چرخه عمر بهینه است که بتواند بدون هرگونه محدودیت مدل سازی نشان دهد چه موقع و چه نوع اقدام تعمیر و نگهداری و نظارت/بازرسی باید براساس شرایط سازه در حال تخریب در زمان واقعی اجرا شود [1]. در کل، 4 اقدام تعمیر و نگهداری مختلف در نظر گرفته می شوند (از جمله عدم انجام هرگونه اقدام خاص وتعویض کامل سازه) و 3 اقدام نظارت/بازرسی مختلف (از جمله عدم بازرسی) منجر به 10 نوع اقدام ترکیبی و متفاوت (تعمیر و نگهداری-بازرسی) برای تصمیم گیرنده شد. نتایج نامشخص مشاهدات در 4 وضعیت مختلف طبقه بندی شدند و در مورد وضعیت سازه طبق دقت و صحت روش ارزیابی منتخب به تصمیم گیرنده اطلاع رسانی کردند. بطور کلی، مهم ترین ویژگی تمام اقدامات برای سیاست بهینه هزینه چرخه عمر ارتباط شان با اثربخشی و هزینه یکدیگر است که با جزئیات در این مقاله توضیح داده می شوند. در ادامه این تحقیق، بطور جامع مدل سازی مسئله POMDP را ارائه می کنیم که تاکیدشان عمدتا بر عدم انجام هر گونه اقدام است و البته به فرایند زوال و تخریب مربوط می شود. بخش پاداش مدل سازی و ترکیب اقدامات تعمیر و نگهداری-بازرسی هم توصیف می شوند. در بخش 3، الگوریتم تکرار مقدار نقطه محور، Perseus، تحلیل می شود، درحالیکه در بخش 4 جزئیات اجرا و نتایج جامع ارائه و بحث می گردند.