Ссылка: http://www.nigma.ru/
Многие современные поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет не изменилась -- необходимо найти релевантные запросу документы, т.е. документы, соответствующие информационной потребности пользователя.
Однако природа Интернет влечет изменение постановки задачи поиска и обуславливает необходимость разработки новых методов обработки полученных данных с целью сужения области поиска. Одним из методов, позволяющих пользователю найти нужную информацию в Интернете является кластеризация полученных документов. Системы, обеспечивающие кластеризацию полученных документов реализованы для английского языка.
На основе введенного пользовательского запроса сформировать список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Нами рассматриваются несколько методов формирования кластеров из документов, как online, когда кластеры формируются динамически на основе полученных документов, так и offline - этот подход предполагает предварительное обучение системы. Для улучшения качества кластеризации документов предполагается использовать различные web сервисы: корпус русского языка - набор обучающих текстов, системы лескико-семантического анализа текста.
25 отличий между приобретением автомобиля и женитьбой | Абсолютно реальные фразы одного авто-инструктора