دانلود مقاله ISI انگلیسی شماره 138574
ترجمه فارسی عنوان مقاله

محدوده ای از شبکه های عصبی مصنوعی

عنوان انگلیسی
Piecewise convexity of artificial neural networks
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
138574 2017 30 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Neural Networks, Volume 94, October 2017, Pages 34-45

ترجمه کلمات کلیدی
تجزیه و تحلیل محدب، تبار گرادیان، بهینه سازی، فراگیری ماشین، شبکه های عصبی، همگرایی،
کلمات کلیدی انگلیسی
Convex analysis; Gradient descent; Optimization; Machine learning; Neural networks; Convergence;
ترجمه چکیده
با وجودی که شبکه های عصبی مصنوعی در برنامه های کاربردی از قبیل دید و دید رایانه و تشخیص گفتار، وظایف بسیار خوبی را نشان داده اند، در بهینه سازی پارامترهای آنها دشواری عملی و نظری زیادی وجود دارد. موفقیت به ظاهر بی حد و حصر از روش های کاهش بارندگی در به حداقل رساندن این توابع غیر محدب هنوز درک نشده است. در این کار ما تضمین های نظری را برای شبکه هایی با توابع فعال سازی بسته بندی شده ارائه می دهیم که در سال های اخیر هنجار هستند. ما سه نتیجه اصلی را ثابت می کنیم. ابتدا شبکه به عنوان تابع داده ورودی محصور شده است. دوم اینکه شبکه، به عنوان یک تابع از پارامترها در یک لایه به عنوان یک پارامتر در نظر گرفته می شود، همه دیگران ثابت هستند، دوباره محدب گسسته است. سوم اینکه شبکه به عنوان یک تابع از تمام پارامترهای آن، به صورت قطعه ای چند محدب، یک تعمیم دوقطب است. از اینجا ما مینیمم های محلی و نقاط ثابت از هدف آموزش را مشخص می کنیم و نشان می دهیم که آنها هدف را در برخی موارد زیر از فضای پارامتر به حداقل می رسانند. سپس عملکرد دو الگوریتم بهینه سازی را در مسائل چند محوری بررسی می کنیم: اصطکاک گرادیان و یک روش که به طور مرتب چندین مشکل زیر محاسبه می کند. ما ثابت می کنیم شرایط همگرا برای اولین الگوریتم و شرایط لازم و کافی برای دوم پس از معرفی مقررات به هدف. در نهایت، ما در مورد مشکل باقیمانده مشکل جهانی بهینه سازی اشاره می کنیم. در زیر مسئله خطای مربع، ما نشان می دهیم که با تغییر داده های آموزش، یک نورون یک رگولاتور یکنواخت محلی را که به صورت خودسرانه از هم فاصله دارند، هم در مقدار عینی و هم در فضای پارامتر تجدید می کند.
پیش نمایش مقاله
پیش نمایش مقاله  محدوده ای از شبکه های عصبی مصنوعی

چکیده انگلیسی

Although artificial neural networks have shown great promise in applications including computer vision and speech recognition, there remains considerable practical and theoretical difficulty in optimizing their parameters. The seemingly unreasonable success of gradient descent methods in minimizing these non-convex functions remains poorly understood. In this work we offer some theoretical guarantees for networks with piecewise affine activation functions, which have in recent years become the norm. We prove three main results. First, that the network is piecewise convex as a function of the input data. Second, that the network, considered as a function of the parameters in a single layer, all others held constant, is again piecewise convex. Third, that the network as a function of all its parameters is piecewise multi-convex, a generalization of biconvexity. From here we characterize the local minima and stationary points of the training objective, showing that they minimize the objective on certain subsets of the parameter space. We then analyze the performance of two optimization algorithms on multi-convex problems: gradient descent, and a method which repeatedly solves a number of convex sub-problems. We prove necessary convergence conditions for the first algorithm and both necessary and sufficient conditions for the second, after introducing regularization to the objective. Finally, we remark on the remaining difficulty of the global optimization problem. Under the squared error objective, we show that by varying the training data, a single rectifier neuron admits local minima arbitrarily far apart, both in objective value and parameter space.