Как можно математически (мат. стат. ) подтвердить, что гипотезы в среднем были успешными?

Понимаю, вопрос звучит довольно обобщенно. Поэтому постараюсь расписать здесь. У меня есть результат (некий текст) 5 моделей машинного обучения по одному примеру. Я склеил результат этих моделей с помощью некоторого алгоритма, пытаясь получить наиболе правильный результат. Но при этом, я хочу учесть, что некоторые модели могли дать совершенно неправильный результат и это могло повлиять на склейку. Я решил попробовать рассчитать оценку CER (char-error-rate) для сравнения склейки и каждого результата модели. Получил 5 оценок. Например, результат 5 моделей

тише мыши к

ти мыши

т

тишшь

тиш ыши ко

Склейка (конечный результат) дала результат: мыши Оценка CER, при том, что эталонной записью будет склейка:

1. 75

0. 75

1. 0

1. 0

1. 75

Средня оценка CER: 0. 875 Мы знаем, что самый правильный вариант: тише мыши к (первый) , но результат склейки был неправильный потому, что многие модели ошиблись. А идеальный вариант: тише мыши кот или тише мыши. И так, вопрос. Подскажите, не помните ли какие-нибудь методы из матстата, чтобы адекватно обозначить порог для склейки, при котором можно будет с уверенностью считать, что склейка не удалась и надо проверить результат вручную? Я понимаю, что сейчас я скоре всего могу по простому сделать, если средня ошибка CER меньше 50%, то считать, что все ок. Но я опасаюсь, что это слишком субъективно, и что в итоге я буду слишком часто объявлять те результаты хорошими, где модели в принципе никакого нормального не давали (по одной букве выдали) . Что думаете? Может есть какой-то другой (боле правильный) способ подобрать порог? Я попробовал ввести оценку дисперсии, но не знаю. Адекватно ли будет, если я буду считать дисперсию и если средний cer дисперсии, то отклонять конечный результат?
1 год назад от HollyGair596

1 ответ



0 голосов
Для решения этой задачи можно использовать статистические методы, которые позволяют оценивать значимость различий между выборками.
 
Один из таких методов - t-критерий Стьюдента. Он используется для проверки гипотезы о равенстве средних значений двух выборок. В вашем случае можно применить t-критерий для сравнения оценки CER для каждой модели с оценкой CER для склейки.
 
Также можно использовать анализ дисперсии (ANOVA) , который позволяет оценивать различия между группами выборок. В вашем случае можно применить однофакторный дисперсионный анализ для сравнения оценок CER для каждой модели и для склейки.
 
Если средня оценка CER больше дисперсии, это может указывать на значимые различия между оценками CER для каждой модели и для склейки, что может говорить о том, что склейка неудачна. Однако, дисперсия может не давать точной информации о различиях между выборками, поэтому рекомендуется использовать также другие статистические методы для подтверждения или опровержения гипотезы.
 
Также можно рассмотреть использование других метрик оценки качества, например, precision, recall, F1-score, которые позволяют учитывать и ошибки моделей, и ошибки склейки. В этом случае можно применять те же статистические методы для сравнения метрик для каждой модели и для склейки.
 
В целом, для выбора оптимального порога для склейки можно использовать различные статистические методы и метрики оценки качества, а также экспертную оценку. Рекомендуется проводить анализ на нескольких наборах данных, чтобы определить оптимальный порог для конкретной задачи.
1 год назад от ReubenMoline

Связанные вопросы

1 ответ
5 месяцев назад от Aleksandr Snec