ترجمه فارسی عنوان مقاله
یک مطالعه در مورد اثرات داده های نامتعادل در هنگام سازگاری مدل های رگرسیون لجستیک در محیط زیست
عنوان انگلیسی
A study on the effects of unbalanced data when fitting logistic regression models in ecology
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
110637 | 2018 | 7 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Ecological Indicators, Volume 85, February 2018, Pages 502-508
ترجمه چکیده
متغیرهای دودویی دارای دو نتیجه ممکن است: وقوع یا عدم وقوع رویداد (معمولا با مقادیر 1 و 0). داده های باینری در محیط زیست رایج هستند، از جمله مطالعات حضور / عدم حضور، زنده / مرده و تغییر / عدم تغییر. تجزیه و تحلیل رگرسیون لجستیک به طور گسترده ای برای مدل سازی متغیر پاسخ باینری استفاده شده است. داده های نامتقارن (به عنوان مثال، نسبت بسیار بزرگتر از صفر نسبت به آن ها) اغلب در مجموعه های مختلف داده های زیست محیطی یافت می شوند. گاهی اوقات اطلاعات قبل از نصب مدل، متعادل (یعنی همان مقدار از صفر و یکم) متعادل هستند (با این حال، معیارهای آماری تعادل (یا نه) داده ها هنوز مشخص نیست. ما در مقایسه با مدل رگرسیون لجستیک با بررسی خواص آماری پارامترهای برآورد شده و توانایی پیش بینی آن، اثرات آماری داده های متعادل سازی را ارزیابی کردیم. ما از یک مدل پایه جنگل-مرگ و میر به عنوان مرجع استفاده کردیم و با استفاده از شبیه سازی های تصادفی که نشان دهنده پیکربندی های مختلف داده های 0/1 در یک نمونه (سناریوهای داده های نامتقارن) بود، ما مدل رگرسیون لجستیک را با حداکثر احتمال مقایسه کردیم. برای هر سناریو، تعصب و واریانس پارامترهای برآورد شده و چندین شاخص پیش بینی را محاسبه کردیم. ما دریافتیم که تغییرات پارامترهای برآورد شده تحت تاثیر قرار گرفته است، با سناریو داده های متوازن با داشتن کمترین تغییر، بنابراین بر نتیجه استنتاج تاثیر می گذارد. علاوه بر این، قابلیت پیش بینی مدل با تعادل داده ها تغییر می کند، با سناریو داده های متوازن دارای نسبت حساسیت / خاصیت بهتر است. تعادل یا نه، داده هایی که برای نصب مدل های رگرسیون لجستیک مورد استفاده قرار می گیرند ممکن است بر نتیجه گیری هایی که می توانند از مدل نصب شده و برنامه های پس از آن بوجود آیند، تاثیر بگذارند.