Вопрос по статистике

Есть большой список чисел, распределенных неравномерно в диапазоне от 0 до 100. Нужно найти некий диапазон этих чисел, куда входит большинство значений из списка. Подходит ли для этой задачи использование квантилей, и если да, то возможно ли как-то рассчитать погрешность Q1 и Q3?
7 года назад от 11111 22222

2 Ответы

0 голосов
1) "Большинство" можно определять по-разному. Вариант через квантили - один из самых разумных. Только если ты возьмешь за границы 1й и 3й квартили, то между ними будет ровно 50% чисел, что явно не тянет на "большинство". Я бы предложил взять диапазон от 2, 5%-ой квантили до 97, 5%-ой квантили (между ними тогда будет 95% чисел) . 2) Доверительные интервалы для значений квантилей в простом случае (когда выборка достаточно велика и случайные величины - непрерывные) можно посчитать в нормальном приближении - см. формулу в самом конце этой страницы: Если же случайные величины дискретные (т. е. там, например, только целые числа от 0 до 100) , то, по-хорошему, надо использовать формулы с корекцией на дискретность (что есть большой геморой) . Так что можно для грубых оценок ограничиться и непрерывным приближением. 3) Кстати, имет смысл просто построить гистограмму имеющихся "чисел от 0 до 100" - если будет видно, что там что-то похоже на какое-то стандартное распределение (не обязательно именно нормальное) и если физика задачи не отрицает возможность существования такого стабильного распределения, то можно ввести (и статистически подкрепить) предположение о распределении исходных чисел - и тогда уже получать аналитические выводы, а не выборочные квантили.
7 года назад от Наттико Филипова
0 голосов
Некоректная формулировка:
Что означает "большинство"?

ведь можно просто взять интервал, в который не входит одно число.

Сформулируй точно- что именно надо?

Например: найти наибольший интервал, в котором плотность чисел больше чем.
или: найти интервал, содержащий . чисел с наибольшей плотностью.
7 года назад от Ирина Мерзликина

Связанные вопросы