Арифметические, геометрические и гармонические средства для машинного обучения

Арифметические, геометрические и гармонические средства для машинного обучения

Вычисление среднего значения переменной или списка чисел - обычная операция в машинном обучении.

Это операция, которую вы можете использовать каждый день либо напрямую, например, при суммировании данных, либо косвенно, например, меньший шаг в более крупной процедуре при подборе модели.

Среднее значение является синонимом среднего значения, числа, которое представляет наиболее вероятное значение из распределения вероятностей. Таким образом, существует несколько различных способов вычисления среднего значения в зависимости от типа данных, с которыми вы работаете.

Это может сбить вас с толку, если вы используете неправильное среднее значение для своих данных. Вы также можете ввести некоторые из этих более экзотических расчетов средних значений при использовании показателей производительности для оценки вашей модели, таких как G-среднее или F.

В этом руководстве вы обнаружите разницу между средним арифметическим, средним геометрическим и средним гармоническим.

После прохождения этого руководства вы будете знать:

  • Центральная тенденция суммирует наиболее вероятное значение переменной, а среднее - это общее название для вычисления среднего.
  • Среднее арифметическое подходит, если значения имеют одинаковые единицы измерения, тогда как среднее геометрическое подходит, если значения имеют разные единицы.
  • Гармоническое среднее подходит, если значения данных представляют собой отношения двух переменных с разными показателями, называемыми скоростями.

Начните свой проект с моей новой книгой "Статистика машинного обучения", включая пошаговые инструкции и Исходный код Python файлы для всех примеров.

Давайте начнем.

Арифметические, геометрические и гармонические средства для машинного обучения

Арифметические, геометрические и гармонические средства для машинного обучения
Фото Рэя из Манилы, некоторые права защищены.

Обзор учебного пособия

Это руководство разделено на пять частей; они есть:

  1. Что такое среднее?
  2. Среднее арифметическое
  3. Среднее геометрическое
  4. Гармоническое Среднее
  5. Как выбрать правильное среднее значение?

Что такое среднее?

Центральная тенденция - это одно число, которое представляет собой наиболее распространенное значение для списка чисел.

С технической точки зрения, это значение с наибольшей вероятностью из распределения вероятностей, которое описывает все возможные значения, которые может иметь переменная.

Есть много способов вычислить центральную тенденцию для выборки данных, например иметь в виду который рассчитывается из значений, Режим, которое является наиболее частым значением в распределении данных, или медиана, которое является средним значением, если все значения в выборке данных были упорядочены.

Среднее - это общий термин для среднего. Их можно использовать как взаимозаменяемые.

Среднее значение отличается от медианы и моды тем, что оно является мерой центральной тенденции, рассчитываемой на основе данных. Таким образом, существуют разные способы вычисления среднего значения в зависимости от типа данных.

Вы можете встретить три распространенных типа вычисления среднего: среднее арифметическое, то среднее геометрическое, а гармоническое среднее. Существуют и другие средства и гораздо больше мер центральной тенденции, но эти три средства, возможно, являются наиболее распространенными (например, так называемые средства Пифагора).

Давайте по очереди рассмотрим каждый расчет среднего.

Среднее арифметическое

Среднее арифметическое рассчитывается как сумма значений, деленная на общее количество значений, обозначаемое как N.

  • Среднее арифметическое = (x1 + x2 +… + xN) / N

Более удобный способ вычисления среднего арифметического - это вычислить сумму значений и умножить ее на обратную величину числа значений (1 вместо N); Например:

  • Среднее арифметическое = (1 / N) * (x1 + x2 +… + xN)

Среднее арифметическое подходит, когда все значения в выборке данных имеют одинаковые единицы измерения, например, все числа - это высота, или доллары, или мили и т. Д.

При вычислении среднего арифметического значения могут быть положительными, отрицательными или нулевыми.

Среднее арифметическое может быть легко искажено, если выборка наблюдений содержит выбросы (несколько значений далеко в пространстве признаков от всех других значений) или для данных, которые имеют негауссовское распределение (например, несколько пиков, так называемое мульти- модальное распределение вероятностей).

Среднее арифметическое полезно в машинном обучении при подведении итогов переменной, например, при сообщении наиболее вероятного значения. Это более значимо, когда переменная имеет гауссовское или гауссовское распределение данных.

Среднее арифметическое можно вычислить с помощью функции mean () NumPy.

В приведенном ниже примере показано, как вычислить среднее арифметическое для списка из 10 чисел.

При выполнении примера вычисляется среднее арифметическое и сообщается результат.

Среднее геометрическое

Среднее геометрическое вычисляется как корень N-й степени от произведения всех значений, где N - количество значений.

  • Среднее геометрическое = N-корень (x1 * x2 *… * xN)

Например, если данные содержат только два значения, квадратный корень из произведения двух значений является средним геометрическим. Для трех значений используется кубический корень и так далее.

Среднее геометрическое подходит, когда данные содержат значения с разными единицами измерения, например, некоторые меры - высота, некоторые - доллары, некоторые - мили и т. Д.

Среднее геометрическое не допускает отрицательных или нулевых значений, например, все значения должны быть положительными.

Одним из распространенных примеров среднего геометрического в машинном обучении является вычисление так называемого показателя G-Mean (среднего геометрического), который представляет собой показатель оценки модели, который рассчитывается как среднее геометрическое для показателей чувствительности и специфичности.

Среднее геометрическое можно вычислить с помощью функции gmean () SciPy.

В приведенном ниже примере показано, как вычислить среднее геометрическое для списка из 10 чисел.

При выполнении примера вычисляется среднее геометрическое и отображается результат.

Гармоническое Среднее

Среднее гармоническое значение рассчитывается как количество значений N делится на сумму обратных значений (1 на каждое значение).

  • Среднее гармоническое = N / (1 / x1 + 1 / x2 +… + 1 / xN)

Если есть только два значения (x1 и x2), упрощенный расчет гармонического среднего может быть рассчитан как:

  • Среднее гармоническое = (2 * x1 * x2) / (x1 + x2)

Гармоническое среднее является подходящим средним, если данные состоят из скоростей.

Напомним, что коэффициент - это соотношение между двумя величинами с разными показателями, например, скорость, ускорение, частота и т. Д.

В машинном обучении у нас есть коэффициенты при оценке моделей, такие как частота истинных положительных или ложных положительных результатов в прогнозах.

Среднее гармоническое значение не принимает коэффициенты с отрицательным или нулевым значением, например, все значения должны быть положительными.

Одним из распространенных примеров использования среднего гармонического в машинном обучении является вычисление F-меры (также F1-Measure или Fbeta-Measure); это показатель оценки модели, который рассчитывается как среднее гармоническое значение показателей точности и отзыва.

Среднее гармоническое значение можно рассчитать с помощью функции SciPy hmean ().

В приведенном ниже примере показано, как вычислить среднее гармоническое значение для списка из девяти чисел.

При выполнении примера вычисляется среднее гармоническое и сообщается результат.

Как выбрать правильное среднее значение?

Мы рассмотрели три различных способа вычисления среднего или среднего значения переменной или набора данных.

Среднее арифметическое является наиболее часто используемым средним значением, хотя в некоторых случаях оно может не подходить.

Каждое среднее значение подходит для разных типов данных; Например:

  • Если значения имеют одинаковые единицы измерения: Используйте среднее арифметическое.
  • Если значения имеют разные единицы измерения: Используйте среднее геометрическое.
  • Если значения являются ставками: Используйте гармоническое среднее.

Исключение составляют случаи, когда данные содержат отрицательные или нулевые значения, тогда геометрические и гармонические средние не могут использоваться напрямую.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

API

Статьи

Резюме

В этом руководстве вы обнаружили разницу между средним арифметическим, средним геометрическим и средним гармоническим.

В частности, вы узнали:

  • Центральная тенденция суммирует наиболее вероятное значение переменной, а среднее - это общее название для вычисления среднего.
  • Среднее арифметическое подходит, если значения имеют одинаковые единицы измерения, тогда как среднее геометрическое подходит, если значения имеют разные единицы.
  • Гармоническое среднее подходит, если значения данных представляют собой отношения двух переменных с разными показателями, называемыми скоростями.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.

Получите доступ к статистике для машинного обучения!

Статистические методы машинного обучения

Развивайте рабочее понимание статистики

... написав строки кода на Python

Узнайте, как в моей новой электронной книге:
Статистические методы машинного обучения

Это обеспечивает самообучения на такие темы, как:
Проверка гипотез, корреляция, непараметрическая статистика, повторная выборка, и многое другое...

Узнайте, как преобразовать данные в знания

Пропустить академики. Только результаты.

Посмотрите, что внутри

Вас также может заинтересовать