Распознавание на основе скрытых марковских моделей (часть 2)

На второй части семинара «Образный компьютер» я рассказал о том, о чем не успел в первой части — об алгоритмических композициях, в которых составляющие являются скрытыми марковскими моделями определенного порядка. На мой взгляд, алгоритмические композиции — самая интересная часть моей диссертации.

Презентация доклада: Распознавание на основе скрытых марковских моделей (часть 2).

Как показывает вычислительный эксперимент, качество распознавания отдельных скрытых марковских моделей высоких порядков для задачи распознавания фрагментов генов сильно зависит от генома, на котором работает алгоритм. Для «простых» геномов (например, растения, насекомые) качество сравнимо с алгоритмами на основе обобщенных скрытых марковских моделей. В то же время, на «сложных» геномах алгоритм показывает низкое качество.

Чтобы повысить качество распознавания, можно предположить, что различные гены генерируются различными вероятностными моделями; при этом выбор модели зависит от характеристик гена, которые известны на момент начала распознавания. Такие предположения часто используются в существующих алгоритмах анализа генов, зачастую без достаточного теоретического обоснования. С другой стороны, сочетание алгоритмов, имеющих различные области компетентности — хорошо известная задача, решенная Юрием Ивановичем Журавлевым в рамках алгебраического подхода к распознаванию.

Я рассмотрел два в некотором смысле простейших вида алгоритмических композиций:

  • линейные (байесовские) смеси алгоритмов, в которых вероятность произвольной строки состояний равна взвешенной сумме вероятностей для компонент модели;
  • иерархические смеси алгоритмов, в которых каждая строка распознается строго одним из входящих в композицию алгоритмов; разбиение на зоны компетентности происходит с помощью предикатов на основе концентраций нуклеотидов в гене.

Оба метода показывают приблизительно одинаковые результаты на «сложных» геномах. Несмотря на простоту композиций, они позволяют повысить качество распознавания до на 10–15 % (до приемлемого уровня).

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *