Артем Попов Все материалы сайта нарисованы, разработаны, написаны, выдолблены автором...
главная > программирование > анализ текстов :

Артем Попов
a-artem-m@mail.ru

Директор компании «Высший Сорт»

Москва,
Электросталь


Рекомендую:
Художник Вадим Чистяков

Русские художники. Вадим Чистяков


Реклама:

 

Анализ текстов

Инструмент для формирования запросов к поисковым системам

Анализатор текстов

Что такое анализ текстов?
    Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности. (см. статью "Поиск в Интернете -- внутри и снаружи")

Как это работает?
Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система?  Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:

  1. Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
  2. Помещаем текст-источник в  окно анализатора текстов и нажимаем кнопку "Выполнить". Программа вычислит частоту вхождения каждого слова и выведет результат в таблице. Цифра указывает сколько раз слово встретилось в тексте. Из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. К тексту также применяются правила морфологии - словоформы превращаются в одно словарное слово.
  3. В окне формы появятся 10 наиболее часто встречающихся слов текста. Вы можете сразу скопировать их и задать любой поисковой системе в качестве запроса.
  4. Можно сформировать более сложный запрос, взяв не первые верхние слова, а слова из середины таблицы. Какой диапазон выбрать, зависит от объема текста. Например:
6 - слова
4 - текст
3 - текстов

2 - частоту
2 - слов
2 - ключевые
2 - источник
2 - закономерности
2 - если
2 - выбираем
2 - вхождения
2 - весьма
2 - анализатор

1 - языке
1 - эффективен
1 - эти
1 - хотите
1 - формируем
1 - формирования
  Выделенные цветом слова и должны войти в запрос. В запросе к поисковой системе слова должны быть связаны логикой ИЛИ (Чаще всего достаточно их просто ввести через пробел).

Запрос готов. Теперь его можно направить поисковой машине.

 

Анализатор текстов

 

Артем Попов Все материалы сайта нарисованы, разработаны, написаны, выдолблены автором...


Rambler's Top100 Яндекс цитирования