08.00.13 Математические и инструментальные методы экономики (экономические науки)
-
Основные требования к методам анализа данных (на примере задач классификации)
08.00.13 Математические и инструментальные методы экономики (экономические науки)
Краткое описаниеНазрела необходимость навести порядок в методах классификации. Это повысит их роль в решении прикладных задач, в частности, при диагностике материалов. Для этого прежде всего следует выработать требования, которым должны удовлетворять методы классификации. Первоначальная формулировка таких требований - основное содержание настоящей работы. Математические методы классификации рассматриваются как часть методов прикладной статистики. Обсуждаются естественные требования к рассматриваемым методам анализа данных и представлению результатов расчетов, вытекающие из накопленных отечественной вероятностно-статистической научной школой достижений и идей. Даются конкретные рекомендации по ряду вопросов, а также критика отдельных ошибок. В частности, методы анализа данных должны быть инвариантны относительно допустимых преобразований шкал, в которых измерены данные, т.е. методы должны быть адекватны в смысле теории измерений. Основой конкретного статистического метода анализа данных всегда является та или иная вероятностная модель. Она должна быть явно описана, ее предпосылки обоснованы - либо из теоретических соображений, либо экспериментально. Методы обработки данных, предназначенные для использования в реальных задачах, должны быть исследованы на устойчивость относительно допустимых отклонений исходных данных и предпосылок модели. Должна указываться точность решений, даваемых с помощью используемого метода. При публикации результатов статистического анализа реальных данных необходимо указывать их точность (доверительные интервалы). В качестве оценки прогностической силы алгоритма классификации вместо доли правильных прогнозов рекомендуется использовать прогностическую силу. Математические методы исследования делятся на "разведочный анализ" и "доказательную статистику". Специфические требования к методам обработки данных возникают в связи с их "стыковкой" при последовательном выполнении. Обсуждаются границы применимости вероятностно-статистических методов. Рассматриваются также конкретные постановки задач классификации и типовые ошибки при применении различных методов их решения