Как построить распределение в excel
Перейти к содержимому

Как построить распределение в excel

  • автор:

Диаграмма распределения осадков в Excel

Построим диаграмму распределения в Excel. А также рассмотрим подробнее функции круговых диаграмм, их создание.

Как построить диаграмму распределения в Excel

График нормального распределения имеет форму колокола и симметричен относительно среднего значения. Получить такое графическое изображение можно только при огромном количестве измерений. В Excel для конечного числа измерений принято строить гистограмму.

Внешне столбчатая диаграмма похожа на график нормального распределения. Построим столбчатую диаграмму распределения осадков в Excel и рассмотрим 2 способа ее построения.

Имеются следующие данные о количестве выпавших осадков:

Осадки.

Первый способ. Открываем меню инструмента «Анализ данных» на вкладке «Данные» (если у Вас не подключен данный аналитический инструмент, тогда читайте как его подключить в настройках Excel):

Анализ данных.

Гистограмма.

Задаем входной интервал (столбец с числовыми значениями). Поле «Интервалы карманов» оставляем пустым: Excel сгенерирует автоматически. Ставим птичку около записи «Вывод графика»:

Входные данные.

После нажатия ОК получаем такой график с таблицей:

Пример.

В интервалах не очень много значений, поэтому столбики гистограммы получились низкими.

Теперь необходимо сделать так, чтобы по вертикальной оси отображались относительные частоты.

Найдем сумму всех абсолютных частот (с помощью функции СУММ). Сделаем дополнительный столбец «Относительная частота». В первую ячейку введем формулу:

Частота.

Способ второй. Вернемся к таблице с исходными данными. Вычислим интервалы карманов. Сначала найдем максимальное значение в диапазоне температур и минимальное.

Минимальное значение.

Чтобы найти интервал карманов, нужно разность максимального и минимального значений массива разделить на количество интервалов. Получим «ширину кармана».

Ширина кармана.

Представим интервалы карманов в виде столбца значений. Сначала ширину кармана прибавляем к минимальному значению массива данных. В следующей ячейке – к полученной сумме. И так далее, пока не дойдем до максимального значения.

Максимальное значение.

Для определения частоты делаем столбец рядом с интервалами карманов. Вводим функцию массива:

Функция в массиве.

Вычислим относительные частоты (как в предыдущем способе).

Относительные частоты.

Построим столбчатую диаграмму распределения осадков в Excel с помощью стандартного инструмента «Диаграммы».

Пример1.

Частота распределения заданных значений:

Частота распределения.

Круговые диаграммы для иллюстрации распределения

С помощью круговой диаграммы можно иллюстрировать данные, которые находятся в одном столбце или одной строке. Сегмент круга – это доля каждого элемента массива в сумме всех элементов.

С помощью любой круговой диаграммы можно показать распределение в том случае, если

  • имеется только один ряд данных;
  • все значения положительные;
  • практически все значения выше нуля;
  • не более семи категорий;
  • каждая категория соответствует сегменту круга.

На основании имеющихся данных о количестве осадков построим круговую диаграмму.

Количество осадков.

Доля «каждого месяца» в общем количестве осадков за год:

Доли.

Круговая диаграмма распределения осадков по сезонам года лучше смотрится, если данных меньше. Найдем среднее количество осадков в каждом сезоне, используя функцию СРЗНАЧ. На основании полученных данных построим диаграмму:

Пример3.

Получили количество выпавших осадков в процентном выражении по сезонам.

  • Excel Formula Examples
  • Создать таблицу
  • Форматирование
  • Функции Excel
  • Формулы и диапазоны
  • Фильтр и сортировка
  • Диаграммы и графики
  • Сводные таблицы
  • Печать документов
  • Базы данных и XML
  • Возможности Excel
  • Настройки параметры
  • Уроки Excel
  • Макросы VBA
  • Скачать примеры

Как создать частотное распределение в Excel

Как создать частотное распределение в Excel

Распределение частоты описывает, как часто разные значения встречаются в наборе данных. Это полезный способ понять, как значения данных распределяются в наборе данных.

К счастью, легко создать и визуализировать частотное распределение в Excel, используя следующую функцию:

=ЧАСТОТА(массив_данных,массив_бинов)

  • data_array : массив необработанных значений данных
  • bins_array: массив верхних пределов для бинов

В следующем примере показано, как использовать эту функцию на практике.

Пример: частотное распределение в Excel

Предположим, у нас есть следующий набор данных из 20 значений в Excel:

Во-первых, мы укажем Excel, какие верхние пределы мы хотели бы использовать для интервалов нашего частотного распределения. Для этого примера мы выберем 10, 20 и 30. То есть мы найдем частоты для следующих интервалов:

  • от 0 до 10
  • с 11 до 20
  • от 21 до 30
  • 30+

Далее мы будем использовать следующую функцию =FREQUENCY() для вычисления частот для каждого бина:

=ЧАСТОТА( A2:A21 , C2:C4 )

Частотное распределение в Excel

Результаты показывают, что:

  • 6 значений в наборе данных находятся в диапазоне от 0 до 10.
  • 7 значений в наборе данных находятся в диапазоне 11-20.
  • 5 значений в наборе данных находятся в диапазоне 21-30.
  • 2 значения в наборе данных больше 30.

Затем мы можем использовать следующие шаги для визуализации этого частотного распределения:

  • Выделите частоты в диапазоне D2:D5 .
  • Нажмите на вкладку « Вставка », затем нажмите на диаграмму под названием « Двухмерный столбец » в группе « Диаграммы ».

Появится следующая диаграмма, отображающая частоты для каждого бина:

Визуализация частотного распределения в Excel

Не стесняйтесь изменять метки осей и ширину полос, чтобы сделать диаграмму более эстетичной:

Частотное распределение в Excel

Вы можете найти больше учебников по Excel здесь .

Как сделать кривую нормального распределения в Excel: пример + шаблон

Как сделать кривую нормального распределения в Excel: пример + шаблон

«Колокольная кривая» — это прозвище, данное форме нормального распределения , которая имеет отчетливую форму «колокола»:

Пример кривой колокола

В этом руководстве объясняется, как построить кривую нормального распределения в Excel для заданного среднего значения и стандартного отклонения, и даже предоставляется бесплатный загружаемый шаблон, который можно использовать для создания собственной кривой нормального распределения в Excel.

Пример: кривая нормального распределения в Excel

Используйте следующие шаги, чтобы сделать кривую колокола в Excel.

Шаг 1: Создайте ячейки для среднего значения и стандартного отклонения.

Шаблон кривой колокола в Excel

Шаг 2: Создайте ячейки для процентилей от -4 до 4 с шагом 0,1.

Процентили для кривой колокола в Excel

Процентили для кривой колокола в Excel

Шаг 3: Создайте столбец значений данных, которые будут использоваться на графике.

значения данных кривой колокола в Excel

Шаг 4: Найдите значения для нормального распределения PDF.

Значения кривой Белла в формате PDF в Excel

Шаг 5: Создайте метки графика по оси X только для целочисленных процентилей.

метки оси кривой колокола в Excel

Шаг 6: Сделайте кривую колокола.

Сначала выделите все значения в столбце pdf :

Значения кривой Белла в формате PDF в Excel

Затем в группе « Диаграммы » на вкладке « Вставка » щелкните первый параметр графика в категории « Вставить линию или диаграмму с областями»:

График кривой Белла в Excel

Автоматически появится кривая нормального распределения:

Кривая колокола в Excel

Шаг 7: Измените метки оси X.

Щелкните правой кнопкой мыши в любом месте диаграммы и выберите Выбрать данные.Появится новое окно. Нажмите кнопку « Редактировать » в разделе «Метки горизонтальной оси»:

Изменить метки оси x на кривой колокола в Excel

Выберите диапазон ячеек, в которых расположены метки оси X. В нашем случае это диапазон ячеек D5:D85.Затем нажмите ОК .

кривая колокола с метками оси X в Excel

Метки оси X будут обновляться автоматически:

Кривая колокола с метками в Excel

Вы заметите, что если вы измените среднее значение и стандартное отклонение, кривая нормального распределения обновится автоматически. Например, вот во что превращается кривая нормального распределения, если мы используем среднее значение = 10 и стандартное отклонение = 2:

кривая колокола в Excel

Вы можете изменить заголовок диаграммы, добавить метки осей и изменить цвет, если хотите сделать диаграмму более эстетичной.

Бесплатный шаблон

Не стесняйтесь загружать этот бесплатный шаблон , который использовался для создания точной колоколообразной кривой в этом уроке.

Гистограмма распределения в EXCEL

Гистограмма распределения — это инструмент, позволяющий визуально оценить величину и характер разброса данных. Создадим гистограмму для непрерывной случайной величины с помощью встроенных средств MS EXCEL из надстройки Пакет анализа и в ручную с помощью функции ЧАСТОТА() и диаграммы.

Гистограмма (frequency histogram) – это столбиковая диаграмма MS EXCEL , в каждый столбик представляет собой интервал значений (корзину, карман, class interval, bin, cell), а его высота пропорциональна количеству значений в ней (частоте наблюдений).

Гистограмма поможет визуально оценить распределение набора данных, если:

  • в наборе данных как минимум 50 значений;
  • ширина интервалов одинакова.

Построим гистограмму для набора данных, в котором содержатся значения непрерывной случайной величины . Набор данных (50 значений), а также рассмотренные примеры, можно взять на листе Гистограмма AT в файле примера. Данные содержатся в диапазоне А8:А57 .

Примечание : Для удобства написания формул для диапазона А8:А57 создан Именованный диапазон Исходные_данные.

Построение гистограммы с помощью надстройки Пакет анализа

Вызвав диалоговое окно надстройки Пакет анализа , выберите пункт Гистограмма и нажмите ОК.

В появившемся окне необходимо как минимум указать: входной интервал и левую верхнюю ячейку выходного интервала . После нажатия кнопки ОК будут:

  • автоматически рассчитаны интервалы значений (карманы);
  • подсчитано количество значений из указанного массива данных, попадающих в каждый интервал (построена таблица частот);
  • если поставлена галочка напротив пункта Вывод графика , то вместе с таблицей частот будет выведена гистограмма.

Перед тем как анализировать полученный результат — отсортируйте исходный массив данных .

Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).

Второй интервал (отмечен на картинке серым) включает значения больше 113 и меньше или равные 216,428571428571. Можно проверить, что таких значений 11. Предпоследний интервал, от 630,142857142857 (не включая) до 733,571428571429 (включая) содержит 0 значений, т.к. в этом диапазоне значений нет. Последний интервал (со странным названием Еще ) содержит значения больше 733,571428571429 (не включая). Таких значений всего одно — максимальное значение в массиве (837).

Размеры карманов одинаковы и равны 103,428571428571. Это значение можно получить так: =(МАКС( Исходные_данные )-МИН( Исходные_данные ))/7 где Исходные_данные – именованный диапазон , содержащий наши данные.

Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).

Примечание : Похоже, что инструмент Гистограмма для подсчета общего количества интервалов (с учетом первого) использует формулу =ЦЕЛОЕ(КОРЕНЬ(СЧЕТ( Исходные_данные )))+1

Попробуйте, например, сравнить количество интервалов для диапазонов длиной 35 и 36 значений – оно будет отличаться на 1, а у 36 и 48 – будет одинаковым, т.к. функция ЦЕЛОЕ() округляет до ближайшего меньшего целого (ЦЕЛОЕ(КОРЕНЬ(35))=5 , а ЦЕЛОЕ(КОРЕНЬ(36))=6) .

Если установить галочку напротив поля Парето (отсортированная гистограмма) , то к таблице с частотами будет добавлена таблица с отсортированными по убыванию частотами.

Если установить галочку напротив поля Интегральный процент , то к таблице с частотами будет добавлен столбец с нарастающим итогом в % от общего количества значений в массиве.

Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля Метка ).

Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150.

В результате получим практически такую же по форме гистограмму , что и раньше, но с более красивыми границами интервалов.

Как видно из рисунков выше, надстройка Пакет анализа не осуществляет никакого дополнительного форматирования диаграммы . Соответственно, вид такой гистограммы оставляет желать лучшего (столбцы диаграммы обычно располагают вплотную для непрерывных величин, кроме того подписи интервалов не информативны). О том, как придать диаграмме более презентабельный вид, покажем в следующем разделе при построении гистограммы с помощью функции ЧАСТОТА() без использовании надстройки Пакет анализа .

Построение гистограммы распределения без использования надстройки Пакет анализа

Порядок действий при построении гистограммы в этом случае следующий:

  • определить количество интервалов у гистограммы;
  • определить ширину интервала (с учетом округления);
  • определить границу первого интервала;
  • сформировать таблицу интервалов и рассчитать количество значений, попадающих в каждый интервал (частоту);
  • построить гистограмму.

СОВЕТ : Часто рекомендуют, чтобы границы интервала были на один порядок точнее самих данных и оканчивались на 5. Например, если данные в массиве определены с точностью до десятых: 1,2; 2,3; 5,0; 6,1; 2,1, …, то границы интервалов должны быть округлены до сотых: 1,25-1,35; 1,35-1,45; … Для небольших наборов данных вид гистограммы сильно зависит количества интервалов и их ширины. Это приводит к тому, что сам метод гистограмм, как инструмент описательной статистики , может быть применен только для наборов данных состоящих, как минимум, из 50, а лучше из 100 значений.

В наших расчетах для определения количества интервалов мы будем пользоваться формулой =ЦЕЛОЕ(КОРЕНЬ(n))+1 .

Примечание : Кроме использованного выше правила (число карманов = √n), используется ряд других эмпирических правил, например, правило Стёрджеса (Sturges): число карманов =1+log2(n). Это обусловлено тем, что например, для n=5000, количество интервалов по формуле √n будет равно 70, а правило Стёрджеса рекомендует более приемлемое количество — 13.

Расчет ширины интервала и таблица интервалов приведены в файле примера на листе Гистограмма . Для вычисления количества значений, попадающих в каждый интервал, использована формула массива на основе функции ЧАСТОТА() . О вводе этой функции см. статью Функция ЧАСТОТА() — Подсчет ЧИСЛОвых значений в MS EXCEL .

В MS EXCEL имеется диаграмма типа Гистограмма с группировкой , которая обычно используется для построения Гистограмм распределения .

В итоге можно добиться вот такого результата.

Примечание : О построении и настройке макета диаграмм см. статью Основы построения диаграмм в MS EXCEL .

Одной из разновидностей гистограмм является график накопленной частоты (cumulative frequency plot).

На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.

СОВЕТ : О построении двумерной гистограммы см. статью Двумерная гистограмма в MS EXCEL .

Примечание : Альтернативой графику накопленной частоты может служить Кривая процентилей , которая рассмотрена в статье про Процентили .

Примечание : Когда количество значений в выборке недостаточно для построения полноценной гистограммы может быть полезна Блочная диаграмма (иногда она называется Диаграмма размаха или Ящик с усами ).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *