Корабли в бутылках

Анализ текста. Формирование запроса к поисковым системам

  Введите текст:

Список стоп-слов

Пример словаря лексем

 

Вопросы:

a-artem-m@mail.ru

Введите код с картинки слева. (Извините, это защита против автоматов)
Обработка запроса может занять некоторое время!


Что такое анализ текстов?
    Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности. (см. статью "Поиск в Интернете -- внутри и снаружи")

Как это работает?
Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система?  Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:

  1. Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
  2. Помещаем текст-источник в  окно анализатора текстов и нажимаем кнопку "Выполнить". Программа вычислит частоту вхождения каждого слова и выведет результат в таблице. Цифра указывает сколько раз слово встретилось в тексте. Из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. К тексту также применяются правила морфологии - словоформы превращаются в одно словарное слово.
  3. В окне формы появятся 10 наиболее часто встречающихся слов текста. Вы можете сразу скопировать их и задать любой поисковой системе в качестве запроса.
  4. Можно сформировать более сложный запрос, взяв не первые верхние слова, а слова из середины таблицы. Какой диапазон выбрать, зависит от объема текста. Например:
6 - слова
4 - текст
3 - текстов

2 - частоту
2 - слов
2 - ключевые
2 - источник
2 - закономерности
2 - если
2 - выбираем
2 - вхождения
2 - весьма
2 - анализатор

1 - языке
1 - эффективен
1 - эти
1 - хотите
1 - формируем
1 - формирования
  Выделенные цветом слова и должны войти в запрос. В запросе к поисковой системе слова должны быть связаны логикой ИЛИ (Чаще всего достаточно их просто ввести через пробел).

Запрос готов. Теперь его можно направить поисковой машине.