ترجمه فارسی عنوان مقاله

روش های نوین برای ارزیابی کیفیت داده های باروری ذخیره شده در نرم افزار مدیریت گله های شیری

عنوان انگلیسی

Novel approaches to assess the quality of fertility data stored in dairy herd management software

کد مقاله	سال انتشار	تعداد صفحات مقاله انگلیسی
88488	2017	12 صفحه PDF

منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Journal of Dairy Science, Volume 100, Issue 5, May 2017, Pages 4078-4089

ترجمه کلمات کلیدی

تولید مثل لبنیات، کیفیت داده، نرم افزار مدیریت گله لبنیات، جنگل های تصادفی

کلمات کلیدی انگلیسی

dairy reproduction; data quality; dairy herd management software; random forests;

ترجمه چکیده

مجلات علمی و مجلات مطبوعاتی محبوب با مقالاتی که نویسندگان آنها از داده ها از نرم افزار مدیریت گله لبنی استفاده می کنند، پنهان می شوند. تقریبا هیچ کدام از این مقالات شامل تمیز کردن داده ها و ارزیابی کیفیت داده ها در طراحی مطالعه نیستند، گرچه این مرحله بسیار مهمی در طول معدن داده است. این مقاله 2 روش جدید برای تمیز کردن داده ها ارائه می دهد که می تواند شناسایی حیوانات با کیفیت خوب و بدی را نشان دهد. روش اول، یک روش تمیز کردن داده ها بر اساس قواعد است. تولید مثل و جهش یا رویدادهای زندگی مانند تولد و مرگ به شکل نمادین (نماد حروف الفبا) تبدیل شده و به سه گانه تقسیم می شوند (کد 3 حرف). سه گانه به صورت دستی به صورت فیزیولوژیکی صحیح، مشکوک یا غیرممکن است. روش سنجش داده ها برای سنجش کیفیت داده های ذخیره شده در مدیریت گله های لبنی از 26 مزارع ثبت نام شده در برنامه مدیریت سلامت گله از دانشکده دامپزشکی دانشگاه گنت بلژیک استفاده شد. در مجموع 150،443 سه گانه ایجاد شد، 4/65٪ به عنوان صحیح، 4/17٪ به عنوان مشکوک و 2/17٪ غیرممکن بود. روش دوم، یک روش احتمالاتی، از یک الگوریتم یادگیری ماشین (جنگل های تصادفی) برای پیش بینی صحیح باروری و وقایع جهش در مرحله اولیه تمیز کردن داده استفاده می کند. دقت پیش بینی الگوریتم های جنگل های تصادفی با یک روش آماری خطی کلاسیک (رگرسیون لجستیک مجاز)، با غلبه بر دومی با یک منحنی مشخصه عملیاتی گیرنده و دقت بالاتر (89 در مقابل 72٪) مقایسه شد. از این نتایج می توان نتیجه گرفت که روش سه گانه می تواند برای ارزیابی کیفیت داده های تولید مثل ذخیره شده در نرم افزار مدیریت گله لبنیات استفاده شود و یک روش یادگیری ماشین مانند جنگل های تصادفی قادر به پیش بینی صحیح داده های باروری است.

دانلود رایگان 2 صفحه اول مقاله لاتین (PDF)

پیش نمایش مقاله

چکیده انگلیسی

Scientific journals and popular press magazines are littered with articles in which the authors use data from dairy herd management software. Almost none of such papers include data cleaning and data quality assessment in their study design despite this being a very critical step during data mining. This paper presents 2 novel data cleaning methods that permit identification of animals with good and bad data quality. The first method is a deterministic or rule-based data cleaning method. Reproduction and mutation or life-changing events such as birth and death were converted to a symbolic (alphabetical letter) representation and split into triplets (3-letter code). The triplets were manually labeled as physiologically correct, suspicious, or impossible. The deterministic data cleaning method was applied to assess the quality of data stored in dairy herd management from 26 farms enrolled in the herd health management program from the Faculty of Veterinary Medicine Ghent University, Belgium. In total, 150,443 triplets were created, 65.4% were labeled as correct, 17.4% as suspicious, and 17.2% as impossible. The second method, a probabilistic method, uses a machine learning algorithm (random forests) to predict the correctness of fertility and mutation events in an early stage of data cleaning. The prediction accuracy of the random forests algorithm was compared with a classical linear statistical method (penalized logistic regression), outperforming the latter substantially, with a superior receiver operating characteristic curve and a higher accuracy (89 vs. 72%). From those results, we conclude that the triplet method can be used to assess the quality of reproduction data stored in dairy herd management software and that a machine learning technique such as random forests is capable of predicting the correctness of fertility data.