Артем Попов Все материалы сайта нарисованы, разработаны, написаны, выдолблены автором...
главная > программирование > анализ текстов > Формирование запроса :

Артем Попов
a-artem-m@mail.ru

Директор компании «Высший Сорт»

Москва,
Электросталь


Рекомендую:
Художник Вадим Чистяков

Русские художники. Вадим Чистяков


Реклама:

 

Анализатор текстов

Анализ текста. Формирование запроса к поисковым системам

  Введите текст:

Список стоп-слов

Пример словаря лексем

 

Вопросы:

a-artem-m@mail.ru

Введите код с картинки слева. (Извините, это защита против автоматов)
Обработка запроса может занять некоторое время!


Что такое анализ текстов?
    Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности. (см. статью "Поиск в Интернете -- внутри и снаружи")

Как это работает?
Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система?  Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:

  1. Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
  2. Помещаем текст-источник в  окно анализатора текстов и нажимаем кнопку "Выполнить". Программа вычислит частоту вхождения каждого слова и выведет результат в таблице. Цифра указывает сколько раз слово встретилось в тексте. Из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. К тексту также применяются правила морфологии - словоформы превращаются в одно словарное слово.
  3. В окне формы появятся 10 наиболее часто встречающихся слов текста. Вы можете сразу скопировать их и задать любой поисковой системе в качестве запроса.
  4. Можно сформировать более сложный запрос, взяв не первые верхние слова, а слова из середины таблицы. Какой диапазон выбрать, зависит от объема текста. Например:
6 - слова
4 - текст
3 - текстов

2 - частоту
2 - слов
2 - ключевые
2 - источник
2 - закономерности
2 - если
2 - выбираем
2 - вхождения
2 - весьма
2 - анализатор

1 - языке
1 - эффективен
1 - эти
1 - хотите
1 - формируем
1 - формирования
  Выделенные цветом слова и должны войти в запрос. В запросе к поисковой системе слова должны быть связаны логикой ИЛИ (Чаще всего достаточно их просто ввести через пробел).

Запрос готов. Теперь его можно направить поисковой машине.

 


 

Артем Попов Все материалы сайта нарисованы, разработаны, написаны, выдолблены автором...


Rambler's Top100