Умные вопросы
Войти
Регистрация
Как можно математически (мат. стат. ) подтвердить, что гипотезы в среднем были успешными?
Понимаю, вопрос звучит довольно обобщенно. Поэтому постараюсь расписать здесь. У меня есть результат (некий текст) 5 моделей машинного обучения по одному примеру. Я склеил результат этих моделей с помощью некоторого алгоритма, пытаясь получить наиболе правильный результат. Но при этом, я хочу учесть, что некоторые модели могли дать совершенно неправильный результат и это могло повлиять на склейку. Я решил попробовать рассчитать оценку CER (char-error-rate) для сравнения склейки и каждого результата модели. Получил 5 оценок. Например, результат 5 моделей
тише мыши к
ти мыши
т
тишшь
тиш ыши ко
Склейка (конечный результат) дала результат: мыши Оценка CER, при том, что эталонной записью будет склейка:
1. 75
0. 75
1. 0
1. 0
1. 75
Средня оценка CER: 0. 875 Мы знаем, что самый правильный вариант: тише мыши к (первый) , но результат склейки был неправильный потому, что многие модели ошиблись. А идеальный вариант: тише мыши кот или тише мыши. И так, вопрос. Подскажите, не помните ли какие-нибудь методы из матстата, чтобы адекватно обозначить порог для склейки, при котором можно будет с уверенностью считать, что склейка не удалась и надо проверить результат вручную? Я понимаю, что сейчас я скоре всего могу по простому сделать, если средня ошибка CER меньше 50%, то считать, что все ок. Но я опасаюсь, что это слишком субъективно, и что в итоге я буду слишком часто объявлять те результаты хорошими, где модели в принципе никакого нормального не давали (по одной букве выдали) . Что думаете? Может есть какой-то другой (боле правильный) способ подобрать порог? Я попробовал ввести оценку дисперсии, но не знаю. Адекватно ли будет, если я буду считать дисперсию и если средний cer дисперсии, то отклонять конечный результат?
1 год
назад
от
HollyGair596
1 ответ
▲
▼
0
голосов
Для решения этой задачи можно использовать статистические методы, которые позволяют оценивать значимость различий между выборками.
Один из таких методов - t-критерий Стьюдента. Он используется для проверки гипотезы о равенстве средних значений двух выборок. В вашем случае можно применить t-критерий для сравнения оценки CER для каждой модели с оценкой CER для склейки.
Также можно использовать анализ дисперсии (ANOVA) , который позволяет оценивать различия между группами выборок. В вашем случае можно применить однофакторный дисперсионный анализ для сравнения оценок CER для каждой модели и для склейки.
Если средня оценка CER больше дисперсии, это может указывать на значимые различия между оценками CER для каждой модели и для склейки, что может говорить о том, что склейка неудачна. Однако, дисперсия может не давать точной информации о различиях между выборками, поэтому рекомендуется использовать также другие статистические методы для подтверждения или опровержения гипотезы.
Также можно рассмотреть использование других метрик оценки качества, например, precision, recall, F1-score, которые позволяют учитывать и ошибки моделей, и ошибки склейки. В этом случае можно применять те же статистические методы для сравнения метрик для каждой модели и для склейки.
В целом, для выбора оптимального порога для склейки можно использовать различные статистические методы и метрики оценки качества, а также экспертную оценку. Рекомендуется проводить анализ на нескольких наборах данных, чтобы определить оптимальный порог для конкретной задачи.
1 год
назад
от
ReubenMoline
Связанные вопросы
3
ответов
Может структурная схема радиопередатчика с амплитудной модуляцией быть без преобразователя частоты?
6 года
назад
от
ЮЛЯШКА
3
ответов
Прошу совет, как можно на старом электросчетчике экономить электричество в квартире, не вскрывая счетчик (он в подъезде)
11 года
назад
от
Vanessa
1
ответ
Вентилятор от увлажнителя воздуха
5 месяцев
назад
от
Aleksandr Snec