Умные вопросы
Войти
Регистрация
Как можно математически (мат. стат. ) подтвердить, что гипотезы в среднем были успешными?
Понимаю, вопрос звучит довольно обобщенно. Поэтому постараюсь расписать здесь. У меня есть результат (некий текст) 5 моделей машинного обучения по одному примеру. Я склеил результат этих моделей с помощью некоторого алгоритма, пытаясь получить наиболе правильный результат. Но при этом, я хочу учесть, что некоторые модели могли дать совершенно неправильный результат и это могло повлиять на склейку. Я решил попробовать рассчитать оценку CER (char-error-rate) для сравнения склейки и каждого результата модели. Получил 5 оценок. Например, результат 5 моделей
тише мыши к
ти мыши
т
тишшь
тиш ыши ко
Склейка (конечный результат) дала результат: мыши Оценка CER, при том, что эталонной записью будет склейка:
1. 75
0. 75
1. 0
1. 0
1. 75
Средня оценка CER: 0. 875 Мы знаем, что самый правильный вариант: тише мыши к (первый) , но результат склейки был неправильный потому, что многие модели ошиблись. А идеальный вариант: тише мыши кот или тише мыши. И так, вопрос. Подскажите, не помните ли какие-нибудь методы из матстата, чтобы адекватно обозначить порог для склейки, при котором можно будет с уверенностью считать, что склейка не удалась и надо проверить результат вручную? Я понимаю, что сейчас я скоре всего могу по простому сделать, если средня ошибка CER меньше 50%, то считать, что все ок. Но я опасаюсь, что это слишком субъективно, и что в итоге я буду слишком часто объявлять те результаты хорошими, где модели в принципе никакого нормального не давали (по одной букве выдали) . Что думаете? Может есть какой-то другой (боле правильный) способ подобрать порог? Я попробовал ввести оценку дисперсии, но не знаю. Адекватно ли будет, если я буду считать дисперсию и если средний cer дисперсии, то отклонять конечный результат?
2 года
назад
от
HollyGair596
1 ответ
▲
▼
0
голосов
Для решения этой задачи можно использовать статистические методы, которые позволяют оценивать значимость различий между выборками.
Один из таких методов - t-критерий Стьюдента. Он используется для проверки гипотезы о равенстве средних значений двух выборок. В вашем случае можно применить t-критерий для сравнения оценки CER для каждой модели с оценкой CER для склейки.
Также можно использовать анализ дисперсии (ANOVA) , который позволяет оценивать различия между группами выборок. В вашем случае можно применить однофакторный дисперсионный анализ для сравнения оценок CER для каждой модели и для склейки.
Если средня оценка CER больше дисперсии, это может указывать на значимые различия между оценками CER для каждой модели и для склейки, что может говорить о том, что склейка неудачна. Однако, дисперсия может не давать точной информации о различиях между выборками, поэтому рекомендуется использовать также другие статистические методы для подтверждения или опровержения гипотезы.
Также можно рассмотреть использование других метрик оценки качества, например, precision, recall, F1-score, которые позволяют учитывать и ошибки моделей, и ошибки склейки. В этом случае можно применять те же статистические методы для сравнения метрик для каждой модели и для склейки.
В целом, для выбора оптимального порога для склейки можно использовать различные статистические методы и метрики оценки качества, а также экспертную оценку. Рекомендуется проводить анализ на нескольких наборах данных, чтобы определить оптимальный порог для конкретной задачи.
2 года
назад
от
ReubenMoline
Связанные вопросы
2
ответов
Скильки коштуе запаять дырочку в радиаторе? там трубки медные нужно найти дырочку и запаять сколько будет стоить
5 года
назад
от
Татьяна Матвеева
1
ответ
Какая тут лексическая ошибка: "В своей автобиографии Есенин своим учителем называет Пушкина", как исправить?
10 года
назад
от
Егор Колпаков
1
ответ
Если в усилителе звука пиз*нулся SMD резистор, то высока вероятность, что еще что-то после него было повреждено?
3 года
назад
от
GregAep97790