Корабли в бутылках

Инструмент для формирования запросов к поисковым системам

Что такое анализ текстов?

Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности. (см. статью "Поиск в Интернете -- внутри и снаружи" )

Как это работает?

Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система?  Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:

  1. Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
  2. Помещаем текст-источник в  окно анализатора текстов и нажимаем кнопку "Выполнить". Программа вычислит частоту вхождения каждого слова и выведет результат в таблице. Цифра указывает сколько раз слово встретилось в тексте. Из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. К тексту также применяются правила морфологии - словоформы превращаются в одно словарное слово.
  3. В окне формы появятся 10 наиболее часто встречающихся слов текста. Вы можете сразу скопировать их и задать любой поисковой системе в качестве запроса.
  4. Можно сформировать более сложный запрос, взяв не первые верхние слова, а слова из середины таблицы. Какой диапазон выбрать, зависит от объема текста. Например:
6 - слова
4 - текст
3 - текстов

2 - частоту
2 - слов
2 - ключевые
2 - источник
2 - закономерности
2 - если
2 - выбираем
2 - вхождения
2 - весьма
2 - анализатор

1 - языке
1 - эффективен
1 - эти
1 - хотите
1 - формируем
1 - формирования

Выделенные цветом слова и должны войти в запрос. В запросе к поисковой системе слова должны быть связаны логикой ИЛИ (Чаще всего достаточно их просто ввести через пробел).

Запрос готов. Теперь его можно направить поисковой машине.