Главная

Полезное

Классификация в векторном пространстве

4 апреля 2012 | Раздел: Рекламные статьи | Комментарии отключены

Гипотеза компактности. Документы, принадлежащие одному и тому же классу, образуют компактную область, причем области, соответствующие разным классам, не пересекаются.

Существует много задач классификации, в частности задачи, рассмотренные в главе 13, в которых классы отличаются употреблением слов. Например, документы в классе China, скорее всего, имеют большие значения на осях, соответствующих терминам Chinese, Bei j ing и Мао, в то время как документы из класса UK — большие значения на осях, соответствующих терминам London, British и Queen. Следовательно, документы из двух классов образуют разные непрерывные области. Между этими областями можно провести границы и классифицировать новые документы. Именно это является темой данной главы.

Заполняет ли множество документов непрерывную область, зависит от конкретного выбора представления документа: типа взвешивания, списка стоп-слов и т.д. Для того чтобы убедиться, что представление документа играет очень важную роль, рассмотрим два класса (документов): написанные группой авторов и написанные отдельным челове­ком. Высокая частота местоимения первого лица 1 (я), очевидно, является признаком второго класса. Однако эта информация, скорее всего, будет удалена из представления документа, если используется список стоп-слов. Если представление документа выбрано неудачно, то гипотеза компактности не будет выполняться и классификация в векторном пространстве станет невозможной.

В данном случае можно повторить те же рассуждения, которые привели нас к взве­шенным представлениям, в частности — к нормализованным по длине представлениям tf-idf . Например, термин, пять раз встречающийся в документе, должен иметь больший вес, чем термин, который встречается только один раз, но приписывать такому термину в пять раз больший вес означает придавать ему слишком большое значение.

Рассматриваются две модели векторной классификации: Роккио (Rocchio) и kNN (k nearest neighours — к ближайших соседей). Классификация Роккио  разделяет векторное пространство на области, окружающие центроиды, или прототипы, по одному для каждого класса. Эти центроиды представляют собой центры масс всех документов в классе. Классификация Роккио проста в реализации и эффективна по скорости работы, но неточна, если классы далеки от сфер с примерно одинаковыми радиусами.

В векторной модели классификации не следует применять невзвешенные и ненормализованные частоты.

Контекстная реклама имеет более высокий индекс эффективности, по сравнению с другими видами рекламы и способствует продвижению сайта. Спонсор статьи компания по продвижению сайтов.

Опубликовать в twitter.com Опубликовать в своем блоге livejournal.com