|
 |
|
 |
 |
Анализ текстов
Инструмент для формирования запросов к поисковым системам
Что такое анализ текстов?
Не
все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность
впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря
ему, компьютеры научились "понимать" смысл текста и самостоятельно
выделять ключевые слова. Сегодня все поисковые системы используют в своей работе
присущие текстам закономерности. (см. статью "Поиск
в Интернете -- внутри и снаружи")
Как это работает?
Что, если взять некий текст и проанализировать его так,
как это сделала бы поисковая система? Извлеченные таким образом ключевые
слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны
вернуть документы с весьма высоким уровнем релевантности. Это действительно
так. Поиск по данной методике весьма эффективен. Последовательность действий
такова:
- Выбираем текст - источник. Это любой текст, который
посвящен исследуемой теме.
- Помещаем текст-источник в окно анализатора
текстов и нажимаем кнопку "Выполнить". Программа вычислит частоту
вхождения каждого слова и выведет результат в таблице. Цифра указывает сколько
раз слово встретилось в тексте. Из рассмотрения исключаются стоп-слова.
Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и,
не и т.д. К тексту также применяются правила морфологии - словоформы превращаются
в одно словарное слово.
- В окне формы появятся 10 наиболее часто встречающихся слов текста. Вы можете
сразу скопировать их и задать любой поисковой системе в качестве запроса.
- Можно сформировать более сложный запрос, взяв не первые
верхние слова, а слова из середины таблицы. Какой диапазон выбрать, зависит
от объема текста. Например:
6 - слова
4 - текст
3 - текстов
2 - частоту
2 - слов
2 - ключевые
2 - источник
2 - закономерности
2 - если
2 - выбираем
2 - вхождения
2 - весьма
2 - анализатор
1 - языке
1 - эффективен
1 - эти
1 - хотите
1 - формируем
1 - формирования |
Выделенные цветом слова и должны войти в запрос.
В запросе к поисковой системе слова должны быть связаны логикой ИЛИ (Чаще всего
достаточно их просто ввести через пробел).
Запрос готов. Теперь его можно направить поисковой машине.
|
|
 |
 |
 |
 |
|
 |
|