Вспомним математический анализ
Непрерывность функции и производная
Пусть , — предельная точка множества (т.е. ), .
Определение 1 (предел функции по Коши):
Функция стремится к при , стремящемся к , если
Обозначение: .
Определение 2:
- Интервалом называется множество ;
- Интервал, содержащий точку , называется окрестностью этой точки.
- Проколотой окрестностью точки называется окрестность точки, из которой исключена сама эта точка.
Обозначение:
- или — окрестность точки ;
- — проколотая окрестность точки ;
Определение 3 (предел функции через окрестности):
Определения 1 и 3 равносильны.
Определение 4 (непрерывность функции в точке):
- непрерывна в
- непрерывна в
Из определений 3 и 4 видно, что
( непрерывна в , где — предельная точка )
Определение 5:
Функция называется непрерывной на множестве , если она непрерывна в каждой точке множества .
Определение 6:
- Функция , определённая на множестве , называется дифференцируемой в точке , предельной для множества , если существует такая линейная относительно приращения аргумента функция [дифференциал функции в точке ], что приращение функции представляется в виде
- Величина
называется производной функции в точке .
Также
Определение 7:
- Точка называется точкой локального максимума (минимума), а значение функции в ней — локальным максимумом (минимумом) функции , если :
- Точки локального максимума и минимума называются точками локального экстремума, а значения функции в них — локальными экстремумами функции.
- Точка экстремума функции называется точкой внутреннего экстремума, если является предельной точкой как для множества , так и для множества .
Лемма 1 (Ферма):
Если функция дифференцируема в точке внутреннего экстремума , то её производная в этой точке равна нулю: .
Утверждение 1 (теорема Ролля):
Если функция непрерывна на отрезке , дифференцируема в интервале и , то найдётся точка такая, что .
Теорема 1 (теорема Лагранжа о конечном приращении):
Если функция непрерывна на отрезке и дифференцируема в интервале , то найдётся точка такая, что
Следствие 1 (признак монотонности функции):
Если в любой точке некоторого интервала производная функции неотрицательная (положительная), то функция не убывает (возрастает) на этом интервале.
Следствие 2 (критерий постоянства функции):
Непрерывная на отрезке функция постоянна не нём тогда и только тогда, когда её производная равна нулю в любой точке отрезка (или хотя бы интервала ).
Частная производная функции многих переменных
Через обозначают множество:
Определение 8:
Функция , определённая на множестве , называется дифференцируемой в точке , предельной для множества , если где — линейная относительно функция [дифференциал функции в точке (обозн. или )], а при .
Соотношение (1) можно переписать в следующем виде: или
Если перейти к координатной записи точки , вектора и линейной функции , то равенство (1) выглядит так где — связанные с точкой вещественные числа. Необходимо найти эти числа.
Обозначим где — базис в .
При из (2) получаем
Из (3) получаем
Определение 9:
Предел (4) называется частной производной функции в точке по переменной . Обозначается:
Пример 1:
Градиентный спуск
Пусть , где .
Определение 10:
Градиентом функции называется вектор, -й элемент которого равен :
Градиент — это то направление, в котором функция быстрее всего возрастает. А значит, направление, в котором она быстрее всего убывает, — это и есть направление, обратное градиенту, то есть .
Целью метода градиентного спуска является поиск точки экстремума (минимума) функции.
Обозначим через вектор параметров функции на шаге . Вектор обновления параметров на шаге :
В формуле выше параметр — это скорость обучения, которая регулирует размер шага, который мы делаем в направлении склона-градиента. В частности, могут возникать две противоположные друг другу проблемы:
- если шаги будут слишком маленькими, то обучение будет слишком долгим, и повышается вероятность застрять в небольшом неудачном локальном минимуме по дороге (первое изображение на картинке ниже);
- если слишком большие, можно бесконечно прыгать через искомый минимум взад-вперёд, но так и не прийти в самую нижнюю точку (третье изображение на картинке ниже).
Пример:
Рассмотрим пример работы метода градиентного спуска в простейшем случае (). То есть .
Пусть . Тогда:
В случае, когда , получается ситуация, как на третьем изображении картинки выше. Мы постоянно перепрыгиваем точку экстремума.
Пусть . Тогда:
Видно, что итеративно мы приближаемся к точке экстремума.
Пусть . Тогда:
Точка экстремума найдена за 1 шаг.
Список используемой литературы:
- «Математический анализ. Часть 1», В.А. Зорич, Москва, 1997;
- «Глубокое обучение. Погружение в мир нейронных сетей», С. Никуленко, А. Кадурин, Е. Архангельская, ПИТЕР, 2018.