Функция активизации вычисляет выходное значение каждого элемента с учетом результирующей суммы. Находят свое применение функции активизации многих типов. Но следует помнить, что линейные функции активизации вообще не могут использоваться в промежуточных слоях! Дело в том, что многослойный персептрон с подобными элементами будет обладать не большими вычислительными возможностями, по сравнению с простым персептроном, поскольку комбинирование двух линейных функций приводит просто к получению другой линейной функции. Скрытые слои смогут оказать какое-либо влияние на вычислительные возможности многослойного персептрона только в том случае, если в элементах этих слоев будет применяться нелинейная функция активизации.
Свойства функции активизации
При выборе функции активизации необходимо учитывать некоторые соображения., Ниже перечислены свойства, которыми должна обладать функция активизации.
> Дифференцируемость. Функция активизации должна иметь известную легко вычислимую производную. Это позволяет применять для обработки ошибок метод градиентного спуска.
> Непрерывность. Если функция активизации непрерывна (т.е. ее кривая не имеет разрывов), то проще найти производную и значение производной является определенным во всех точках.
> Сложность. Функция должна быть нелинейной, поскольку в противном случае с помощью многослойного персептрона невозможно будет решать задачи более высокого порядка.
> Моилтонность. Если функция монотонно возрастает, это позволяет гарантировать, что ее производная не будет принимать нулевые или отрицательные значения, к тому же, становится применимым метод градиентного спуска (а последовательное уменьшение шага выполняется в нужном направлении).
Может также потребоваться, чтобы в какой-то конкретной реализации функция активизации обладала описанными ниже необязательными свойствами.
> Ограниченность. Такое свойство гарантирует то, что результаты применения функции активизации и вычисления ее производной будут конечными. Это позволяет значительно упростить интерпретацию данных, полученных с помощью многослойного персептрона.
> Полярность. Под полярностью подразумевается знак функции. На некоторых участках полярная функция является только положительной, а на Дфугих симметричных участках функция, безусловно, становится отрицательной (т.е. функция является биполярной).
Необходимость в использовании последних двух свойств обычно обусловлена практическими потребностями разработки. Некоторые из таких требований рассматриваются более подробно в последующем обсуждении, а также при описании конкретного приложения.