| ||||||
|
Нейросети
Генетические алгоритмы
Алгоритмы извлечения знаний
Обзор классических методологий Детерминированные методы Детерминированные методы используются человеком уже много веков. За это время было создано огромное количество формул, теорем и алгоритмов для решения классических задач - определения объемов, решения систем линейных уравнений, поиска корней многочленов, разработаны эффективные методы для решения задач оптимального управления, дифференциальных уравнений и т.д. Суть всех этих методов заключается в том, что на первом этапе строится точное описание задачи (модель), после чего на основании этого описания строится алгоритм решения. Проблема заключается в том, что задачи, встречающиеся на практике, часто обладают очень большим (потенциально бесконечным) числом параметров и не могут быть адекватно описаны в модели. Например, рассмотрим задачу, в которой требуется определить длительность прыжка парашютиста. На этапе построения модели мы выделим набор параметров влияющих на решение, таких как высота, с которой производится прыжок, вес парашютиста, площадь парашюта. При этом за рамками построенной модели останется множество параметров, оказывающих воздействие на результат решения задачи. Среди них могут оказаться параметры воздушной среды, потому что их точное определение невозможно, а также другие параметры, о влиянии которых на решение просто неизвестно. Таким образом, точность и применимость построенной модели будет крайне ограничена. Вероятностные методы Для решения задач, в которых детерминированные методы не применимы (например, задачи связанные с анализом данных при наличии случайных и непредсказуемых воздействий), математиками и другими исследователями за последние двести лет был выработан мощный и гибкий арсенал методов, называемых в совокупности математической статистикой. За это время был накоплен большой опыт их успешного применения в разных сферах человеческой деятельности, от экономики до космических исследований. В отличие от детерминированных методов в этих подходах вместо точного описания задачи сроится её вероятностная модель, параметрами которой являются функции распределение случайных величин, их среднее значение, дисперсия и т.д. Как правило, эти параметры изначально неизвестны, а для их оценки используются статистические методы, применяемые к выборкам наблюдаемых значений (историческим данным). При применении на практике этих методов обнаруживается масса проблем, связанных с выбором адекватной вероятностной модели. Во-первых, при работе со статистическими методами существует потребность в некотором предположении о структуре зависимостей между признаками, которое на практике часто либо неизвестно, либо основывается на опыте аналитика и потому является не точным. Во-вторых, статистические методы заточены для работы с одномерными случайными величинами. Если же мы хотим учитывать несколько взаимосвязанных факторов, то придется обратиться к построению многомерной статистической модели. Однако, такие модели либо предполагают гауссовское распределение наблюдений (что не выполняется на практике), либо не обоснованы теоретически. Новые подходы Из-за описанных выше недостатков традиционных методик в последние 15 лет идет активное развитие аналитических систем нового типа. В их основе - технологии искусственного интеллекта, имитирующие природные процессы, такие как деятельность нейронов головного мозга, процессы познания и усвоения информации в нём или процесс естественного отбора в природе. Наиболее популярными и проверенными из этих технологий являются нейронные сети, генетические алгоритмы и методы извлечения знаний. Нейронные сети имитируют деятельность нейронов головного мозга. Их отличительной чертой по сравнению с традиционными методами является то, что в основе последних лежат формализованные человеком знания о предметной области, а нейросети обобщают и запоминают эмпирические зависимости между входными данными и результирующими значениями. Другими словами нейронная сеть строит модель какого-либо процесса и в дальнейшем воспроизводит его поведение. Данные методы наиболее подходят для решения задач распознавания графических и звуковых образов, классификации, прогнозирования. Генетические алгоритмы используют механизмы аналогичные процессам эволюции и естественного отбора. Их идея в общем виде может быть сформулирована следующим образом: чем выше приспособленность особи, тем выше вероятность того, что в её потомстве эта приспособленность будет выражена еще сильнее. Они хорошо себя зарекомендовали при решении оптимизационных задач, таких как распределение инвестиций или коммивояжёра. Новые технологии действительно избавляют человека от ряда сложностей снимая с него необходимость строить какие-либо предположения для решения задачи. Однако, что если целью задачи как раз и являются эти предположения или решение алгоритма должно быть не просто вынуто из некоторого «чёрного ящика», а обосновано? Методы извлечения знаний (Knowledge Discovery) созданы для выявления внутренних зависимостей в данных в удобном для человека виде. На основе этих зависимостей аналитик может не только осуществлять предсказания или принимать решения, но и аргументировать свои действия. Это особенно актуально, когда речь идёт о задачах, где цена ошибки очень велика. Например, разве вы вложите много миллионный капитал просто потому, что некоторый алгоритм предсказывает вам прибыль, никак не аргументируя это предсказание? Заключение На сегодняшний день существует огромное количество методик анализа информации, однако ни одна из них не лишена недостатков. Каждый метод хорошо обнаруживает тот или иной аспект данных, оставляя в тени большое количество потенциально полезной информации. Наша группа ведёт работы по разработке и внедрению инновационных методик, объединяющих лучшие качества новых подходов и лишённых их недостатков. | |||||