Поиск ПО САЙТУ

Скрипт поиска по  ВАШЕМУ САЙТУ
find@technospider.ru
Описание СКРИПТА:



Настройки:
поиска для вашего сайта

указанный при получении скрипта
ТОП 10:
запросов на сайтах установивших скрипт поиска
Адреса сайтов
TOP 20
Запросов
в день
http://www.batata.ru/view_page_1/o_nashey_ferme.html
5
 


Реализованный функционал и исправленные ошибки




Поиск по сайту установили 1500 веб мастеров!!!

 

Мы рады, что нашим сервисом воспользовались более 1500 веб мастеров. Спасибо за доверие, критику и добрые слова.

 




Реализована задача определения четких и нечетких копий страниц сайта и извлечение их из индекса

 

Реализация данной задачи позволила сократить количество проиндексированных страниц в базе и тем самым увеличить скорость поиска информации!

Для реализации данной задачи использовался алгоритм "Шингла" (определение нечетких копий) и "Супершингла" (определение четких копий).

Кратко о реализации алгоритма "Шингла":

  1. Проиндексированная страница (далее "Страница") очищается от всех знаков препинания и союзов.
  2. Страница разбивается на последовательности каждая из которых содержит 10 слов текста (называемый "шингл").
    Последовательности выбираются с шагом в 1 слово и записываются в массив.
  3. Из полученного массива последовательностей выбираются в случайном порядке 20 элементов.
  4. В цикле перебираем все ранее проиндексированные страницы сайта, очищаем их от знаков препинания, союзов и
    разбиваем на шинглы (количество шинглов не ограничиваем! иначе будет ошибка логики)
  5. Сравниваем каждый шингл из проиндексированной страницы (20 шт.) с шинглами из ранее проиндексированных страниц - считаем количество совпавших шинглов из 20.
  6. Если количество совпавших шинглов более или ровно 17 то такая страница считается нечеткой копией и в индекс сайта не заноситься!


Реализация "Супершингла" намного проще - создаем из текста проиндексированной страницы "хэш" и сравниваем его с "хэш-ами" ранее проиндексированных страниц.
Если "хеш" совпадает, то страница является четкой копией и в индекс сайта не заноситься.

Для оптимизации ресурсов сначала идет проверка на четкую копию ("Супершингл") а уже потом на нечеткую ("Шингл") т.к. проверка на четкую копию намного менее ресурсоемка.

ДЛЯ СВЕДЕНИЯ!?:

Количество операций необходимых для определения нечеткой копии по методу "Шинглов".

Представим что у нас в индексе 10 000 страниц каждая из которых содержит до 10 000 слов.
Теперь представим что мы проиндексировали 10 001 страницу и нам надо ее сравнить с уже имеющимися страницами.

Если мы используем 10-словный шингл то из каждой такой страницы необходимо создать 10000-10+1=9991 шингл
(для подсчета необходимо из количества страниц вычесть количество слов в шингле и прибавить единицу).

Умножаем количество страниц в индексе 10 000 на количество шинглов в одной странице 9991 получаем 99 910 000 шинглов в индексе.





Для определения степени схожести страниц умножаем количество шинглов в индексе 99 910 000 на количество шинглов из
вновь проиндексированной страницы и получаем 99 910 000*9991=998 200 810 000 операций т.е. около 990 триллионов!

Такое количество операци необходимо для того чтобы проверить одну страницу на уникальность!
Общая формула определения количества операций необходимых для определения уникальности

($page_len-$shingl_len+1)*$pageindex_count*($newpage_len-$shingl_len+1)<br> где:<br> $page_len - средняя длинна страницы в индексе<br> $shingl_len - длинна шингла<br> $pageindex_count - количество страниц в индексе<br> $newpage_len - длинна вновь проиндексированной страницы


Естественно что такое количество операций быстро произвести невозможно, поэтому мы оптимизировали поиск шинглов:

  1. Во вновь проиндексированной странице сравниваем не все шинглы а только 20 (выбранных в случайном порядке)
  2. Сравниваем шинглы вновь проиндексированной страницы не со всеми шинглами индекса а только с шинглами 50-ти последних проиндексированных страниц
  3. используем метод супер шингла для предварительной проверки на четкую копию

За счет исключения нечетких копий страниц в индексе мы добились значительного прироста в скорости поиска информации!

Будут вопросы пишите!

 




Новые возможности сервиса - Сбор статистики запросов!

 

Для большинства интернет ресурсов основной трафик (поток) посетителей генерируют поисковые системы такие как Яндекс, Google, MSN, Rambler.

Определение качества этого трафика является наиважнейшей составляющей любого интернет проекта.

Качество трафика - это характеристика показывающая на сколько интересы аудитории сайта переходящей с поисковых систем совпадают с предоставляемыми на сайте услугами.

Основной недостаток всех сервисов статистики посещений в том, что они не могут отслеживать реальный интерес аудитории сайта.

Так как статистика посещений фиксирует лишь переходы пользователя по страницам сайта, то она может лишь указать на каких страницах был пользователь но не может указать на каких он хотел быть!

Статистика запросов в отличие от статистики посещений собирает информацию о реальном интересе аудитории сайта.

Вводя запрос в форму поиска пользователь не задумывается о том, что на самом деле кроме команды «найти» он передает информацию о интересующей его продукции или услуги!



Собирая и анализирую статистику запросов можно определить что:

  • интересующая аудиторию сайта продукция (услуга) не представлена на Вашем сайте

  • наиболее актуальная (востребованная) услуга (товар) неявно размещена в навигации сайта.
    Симптом: «количественное преобладание какого либо запроса над остальными»

  • Вы имеете не целевую аудиторию либо интересы рынка отличаются от предлагаемых Вами услуг
    Симптом: «тематика многих запросов отличается от тематики сайта»

Не целевая аудитория, это посетители которые случайно попали на Ваш сайт и их не интересует предлагаемая Вами продукция или услуга.

Новый сервис - «Статистика запросов» уже реализован!

 




Независимое тестирование сервиса - Поиск по сайту

 

В октябре 2020 года поиск по сайту «TechnoSpider» был протестирован одной из Московских Веб студий. Интернет магазин "Шины диски" - был выбран в качестве экспериментальной площадки .

Цель тестирования — определить возможности для перенаправления целевого трафика с главной страницы сайта на второстепенные используя поиск по сайту и знания поисковой оптимизации.

Перенаправление целевого трафика на страницы с максимально выгодными для продажи товарами или услугами является неотъемлемой частью любого успешного проекта.

В качестве основ научного тестирования легли такие характеристики как:

  • релевантность вывода результатов поиска поисковому запросу;
  • качество "сниппета" (вид сниппета должен быть приближен к ответу на вводимый пользователем вопрос);
  • возможность использования META тегов для улучшения поиска по страницам;
  • возможность определения тематики запроса т.е. на автомобильном сайте запрос "Jaguar" должен расцениваться как марка автомобиля а не как вид животного;
  • возможность составления списка синонимов для наиболее востребованных запросов.

Для оптимизации использовались такие параметры как:

  • плотность ключевых слов (контрастность фразы) в тексте страницы, заголовках метатегов;
  • количество символов на странице;
  • выделение текста используя HTML теги;
  • использование ключевых слов в ссылках;

Тестирование производилось тремя независимыми экспертами. Оценивались результаты выдачи односложных и двусложных запросах.

Письмо с заключением студии было направлено в центр поддержки find@technospider.ru

Результаты тестирования оправдали ожидание разработчиков хотя и выяснилось, что некоторые из критериев поисковой оптимизации еще не учитываются.

В результате были значительно переработаны алгоритмы выдачи результатов поиска.

В начале января прошло повторное успешное тестирование. Проводившая тестирование Веб студия согласилась использовать сервис поиска по сайту TechnoSpider в своих проектах.

 

Логотип

find@technospider.ru

Внимание! Все материалы данного сайта являются объектами авторского права. Копирование и распространение любых материалов сайта (в том числе путем копирования на другие сайты и ресурсы в Интернете) без предварительного согласия владельца сайта (правообладателя) и активной ссылки на сайт запрещено.
Сайт носит исключительно информационный характер, и ни при каких условиях не является публичной офертой, определяемой положениями статьи 437(2) Гражданского кодекса Российской Федерации.