Инструмент для формирования запросов к поисковым системам
Что такое анализ текстов?
Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности. (см. статью "Поиск в Интернете -- внутри и снаружи" )
Как это работает?
Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система? Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:
- Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
- Помещаем текст-источник в окно анализатора текстов и нажимаем кнопку "Выполнить". Программа вычислит частоту вхождения каждого слова и выведет результат в таблице. Цифра указывает сколько раз слово встретилось в тексте. Из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. К тексту также применяются правила морфологии - словоформы превращаются в одно словарное слово.
- В окне формы появятся 10 наиболее часто встречающихся слов текста. Вы можете сразу скопировать их и задать любой поисковой системе в качестве запроса.
- Можно сформировать более сложный запрос, взяв не первые верхние слова, а слова из середины таблицы. Какой диапазон выбрать, зависит от объема текста. Например:
6 - слова
4 - текст 3 - текстов 2 - частоту 2 - слов 2 - ключевые 2 - источник 2 - закономерности 2 - если 2 - выбираем 2 - вхождения 2 - весьма 2 - анализатор 1 - языке 1 - эффективен 1 - эти 1 - хотите 1 - формируем 1 - формирования |
Выделенные цветом слова и должны войти в запрос. В запросе к поисковой системе слова должны быть связаны логикой ИЛИ (Чаще всего достаточно их просто ввести через пробел).
Запрос готов. Теперь его можно направить поисковой машине.