Меню

Функция накопленных относительных частот как найти



Кумулятивный частотный анализ — Cumulative frequency analysis

Кумулятивный частотный анализ — это анализ частоты появления значений явления меньше эталонного значения. Явление может зависеть от времени или пространства. Накопленная частота также называется частотой непревышения .

Кумулятивный частотный анализ выполняется, чтобы получить представление о том, как часто определенное явление (характеристика) оказывается ниже определенного значения. Это может помочь в описании или объяснении ситуации, в которой присутствует данное явление, или в планировании вмешательств, например, в защите от наводнений.

Этот статистический метод можно использовать для определения вероятности повторения такого события, как наводнение, в будущем, исходя из того, как часто это происходило в прошлом. Его можно адаптировать к таким вещам, как изменение климата, вызывающее более влажную зиму и более сухое лето.

Содержание

Принципы

Определения

Частотный анализ — это анализ того, как часто или как часто наблюдаемое явление происходит в определенном диапазоне.

Частотный анализ применяется к записи длиной N наблюдаемых данных X 1 , X 2 , X 3 . . . Х Н на переменном явление X . Запись может зависеть от времени (например, количество осадков, измеренных в одном месте) или от площади (например, урожайность в области) или иным образом.

Накопленная частота М ХГ опорного значения Xr является частота , с которой наблюдаемые значения Х меньше или равна Xr .

Относительная накопленная частота Fc , может быть рассчитана следующим образом :

Кратко это выражение можно обозначить так:

Когда Xr = Xmin , где Xmin — единственное наблюдаемое минимальное значение, оказывается, что Fc = 1 / N , потому что M = 1. С другой стороны, когда Xr = Xmax , где Xmax — единственное наблюдаемое максимальное значение, оно равно обнаружено , что Fc = 1, потому что M = N . Следовательно, когда Fc = 1, это означает, что Xr является значением, при котором все данные меньше или равны Xr .

В процентах уравнение гласит:

Оценка вероятности

От совокупной частоты

Кумулятивная вероятность Рс из X , чтобы быть меньше или равна Xr может быть оценена несколькими способами на основе накопленной частоты M .

Один из способов — использовать относительную совокупную частоту Fc в качестве оценки.

Другой способ — принять во внимание возможность того, что в редких случаях X может принимать значения, превышающие наблюдаемый максимум Xmax . Это может быть сделано делением накапливаемых частот M на N + 1 вместо N . Тогда оценка станет:

Существуют также другие предложения по знаменателю (см. Позиции построения ).

По методике ранжирования

Оценка вероятности упрощается за счет ранжирования данных.

Когда наблюдаемые данные X расположены в порядке возрастания ( X 1X 2X 3 ≤ . ≤ X N , минимальное первое и максимальное последнее), а Ri — номер ранга наблюдения Xi , где adfix i указывает порядковый номер в диапазоне восходящих данных, тогда кумулятивная вероятность может быть оценена следующим образом:

Когда, с другой стороны, наблюдаемые данные из X расположены в порядке убывания , максимальное первое и минимальное последнее, а Rj — номер ранга наблюдения Xj , совокупная вероятность может быть оценена следующим образом:

Подбор вероятностных распределений

Непрерывные распределения

Чтобы представить совокупное частотное распределение в виде непрерывного математического уравнения вместо дискретного набора данных, можно попытаться подогнать совокупное частотное распределение к известному совокупному распределению вероятностей.
В случае успеха известного уравнения будет достаточно, чтобы сообщить о распределении частот, и таблица данных не потребуется. Кроме того, уравнение помогает интерполяции и экстраполяции. Однако следует проявлять осторожность при экстраполяции совокупного частотного распределения, поскольку это может быть источником ошибок. Одна из возможных ошибок состоит в том, что распределение частот больше не следует выбранному распределению вероятностей за пределами диапазона наблюдаемых данных.

Любое уравнение, которое дает значение 1 при интегрировании от нижнего предела до верхнего предела, хорошо согласующегося с диапазоном данных, может использоваться как распределение вероятностей для подгонки. Образец распределений вероятностей, которые можно использовать, можно найти в распределениях вероятностей .

Распределения вероятностей можно аппроксимировать несколькими способами, например:

  • параметрический метод, определяющий такие параметры, как среднее значение и стандартное отклонение от данных X, используя метод моментов , метод максимального правдоподобия и метод моментов, взвешенных по вероятности .
  • метод регрессии, линеаризующий распределение вероятностей посредством преобразования и определение параметров на основе линейной регрессии преобразованного Pc (полученного в результате ранжирования) на преобразованных X- данных.

Применение обоих типов методов с использованием, например,

часто показывает, что ряд распределений хорошо соответствует данным и не дает существенно разных результатов, в то время как различия между ними могут быть небольшими по сравнению с шириной доверительного интервала. Это показывает, что бывает сложно определить, какое распределение дает лучшие результаты.

Прерывистые распределения

Иногда можно подогнать один тип распределения вероятностей к нижней части диапазона данных, а другой тип — к верхней части, разделенных точкой останова, в результате чего общее соответствие улучшается.

На рисунке приведен пример полезного введения такого прерывистого распределения для данных об осадках в северной части Перу, где климат зависит от поведения течения Эль-Ниньо в Тихом океане . Когда Ниньо простирается на юг Эквадора и впадает в океан вдоль побережья Перу, климат в северном Перу становится тропическим и влажным. Когда Ниньо не достигает Перу, климат здесь полузасушливый. По этой причине более частые осадки имеют другое распределение, чем более низкие осадки.

Предсказание

Неопределенность

Когда кумулятивное частотное распределение выводится из записи данных, возникает вопрос, можно ли его использовать для прогнозов. Например, учитывая распределение речного стока за 1950–2000 годы, можно ли это распределение использовать для прогнозирования того, как часто определенный речной сток будет превышаться в 2000–50 годах? Ответ — да, при условии, что условия окружающей среды не изменятся. Если условия окружающей среды действительно изменяются, например, изменения инфраструктуры водосбора реки или режима выпадения дождя из-за климатических изменений, прогноз на основе исторических данных может быть систематически ошибочным . Даже когда нет систематической ошибки, может быть случайная ошибка , потому что случайно наблюдаемые разряды в течение 1950-2000 гг. Могли быть выше или ниже нормальных, в то время как, с другой стороны, разряды с 2000 по 2050 гг. Могут случайно быть ниже. или выше, чем обычно. Проблемы, связанные с этим, были исследованы в книге «Черный лебедь» .

Доверительные интервалы

Теория вероятностей может помочь оценить диапазон, в котором может находиться случайная ошибка. В случае кумулятивной частоты есть только две возможности: определенное опорное значение Х превышается или не превышается. Сумма частоты превышения и совокупной частоты составляет 1 или 100%. Следовательно, биномиальное распределение можно использовать для оценки диапазона случайной ошибки.

Согласно нормальной теории, биномиальное распределение можно аппроксимировать, а для больших N стандартное отклонение Sd можно рассчитать следующим образом:

где Pc — кумулятивная вероятность, а N — количество данных. Видно , что стандартное отклонение Сд уменьшает при увеличении числа наблюдений N .

Определение доверительного интервала от ПК позволяет использовать Т-критерий Стьюдента ( т ). Значение t зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхний ( U ) пределы достоверности Pc в симметричном распределении находятся по формуле:

Это известно как интервал Вальда . Однако биномиальное распределение симметрично относительно среднего только при Pc = 0,5, но оно становится асимметричным и становится все более и более асимметричным, когда Pc приближается к 0 или 1. Следовательно, путем аппроксимации Pc и 1− Pc могут использоваться в качестве весовых коэффициентов в уступка t.Sd к L и U :

где видно, что эти выражения для Pc = 0,5 совпадают с предыдущими.

пример

N = 25, Pc = 0,8, Sd = 0,08, уровень достоверности 90%, t = 1,71, L = 0,58, U = 0,85
Таким образом, с достоверностью 90% установлено, что 0,58 0,85
  • Известно, что интервал Вальда работает плохо.
  • Wilson оценка интервал обеспечивает доверительный интервал для биномиальных распределений на основе количественных показателей тестов и имеет лучшие образцы покрытия см и бином доля доверительного интервала для более детального обзора.
  • Вместо «интервала оценки Вильсона» можно также использовать «интервал Вальда», если включены вышеуказанные весовые коэффициенты.

Срок возврата

Кумулятивная вероятность Pc также может быть названа вероятностью непревышения . Вероятность превышения Пе (также называется функцией выживания ) определяется из:

Период повторяемости T определяется как:

и указывает на ожидаемое число наблюдений, которые предстоит сделать еще раз , чтобы найти значение переменной в исследовании больше , чем значение , используемое для T .
Верхний ( T U ) и нижний ( T L ) пределы достоверности периодов повторяемости можно найти соответственно как:

Для экстремальных значений переменной в исследовании, U близка к 1 и небольшие изменения в U происходят большие изменения в T U . Следовательно, предполагаемый период повторяемости экстремальных значений подвержен большой случайной ошибке. Более того, найденные доверительные интервалы сохраняются для долгосрочного прогноза. Для прогнозов с более коротким периодом доверительные интервалы UL и T UT L могут быть шире. Вместе с ограниченной достоверностью (менее 100%), использованной в t-тесте , это объясняет, почему, например, 100-летние осадки могут выпадать дважды за 10 лет.

Строгое понятие периода повторяемости имеет смысл только тогда, когда оно касается явления, зависящего от времени, например точечных осадков. Период возврата тогда соответствует ожидаемому времени ожидания, пока превышение не произойдет снова. Период повторяемости имеет то же измерение, что и время, для которого репрезентативно каждое наблюдение. Например, когда наблюдения касаются ежедневных осадков, период повторяемости выражается в днях, а для годовых осадков — в годах.

Потребность в поясах уверенности

На рисунке показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные предоставлены Бенсоном.

Полоса уверенности вокруг экспериментальной кривой накопленной частоты или периода повторяемости дает представление о регионе, в котором может быть найдено истинное распределение.

Кроме того, он поясняет, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.

Гистограмма

Наблюдаемые данные могут быть организованы в классы или группы с порядковым номером k . Каждая группа имеет нижний предел ( L k ) и верхний предел ( U k ). Когда класс ( k ) содержит m k данных, а общее количество данных равно N , тогда относительная частота класса или группы находится из:

Источник статьи: http://ru.qaz.wiki/wiki/Cumulative_frequency_analysis


Adblock
detector