Проход по ссылкам и индексация

September 20, 2018

Please reload

Недавние посты

Как писать объявления для контекстной рекламы - основы основ

June 4, 2018

1/1
Please reload

Избранные посты

Проход по ссылкам и индексация

 

Чтобы страничка вашего сайта появилась в выдаче поиска, должно как минимум произойти две вещи: поисковик должен её найти и разобрать что же на этой страничке есть.
 

Нахождение страницы

 

Процесс нахождения страниц называется краулингом (crawling). Слово crawl в английском языке означает “ползать”. Это странное название происходит от того, что программы прохода сайта по ссылкам называются пауками (spiders). Сам процесс очень простой: паук скачивает страницу, ищет на ней ссылки, скачивает доступные по ним странички и так до бесконечности.

 

Разбор страницы

 

 

Разбор и сохранение поисковой информации называется индексацией.
Робот разбирает информацию на найденной странице, проверяет насколько эта информация нужна и как-то её сохраняет или не сохраняет.

 

 

Как этим можно управлять?

 

Иногда нам может быть нужно, чтобы поиск нашел страничку, которую сложно найти по ссылкам. Для решения этой проблемы используются различные карты сайтов: как html (доступный на сайте список всех страниц со ссылками на них), так и файлы sitemap.xml 

А иногда нам надо ограничить проход по ссылкам или индексацию некоторых страниц.
На этой второй задаче мне хотелось бы остановиться чуть подробнее, потому что это две разные задачи и часто их путают даже специалисты по
продвижению сайтов.

 

Robots.txt


У нас на сайте вполне могут использоваться страницы, имеющие динамические параметры: сортировки, выборки итд. Допустим паук зашел на страницу, у которой может быть 1000 разных сортировок. Все эти 1000 одинаковых страниц он будет проходить при каждом обновлении выдачи поисковой системы. Для небольших сайтов это не такая уж и проблема, а вот для сайтов покрупнее это может привести к тому, что от обновления к обновлению поиск просто не будет успевать обходить весь сайт.

 

Чтобы указать поиску что мы не хотели бы чтобы некоторые страницы сайта он обходил своими пауками, существуют файлы robots.txt. Хочется отметить две особенности того, как обрабатываются такие файлы:

  • Этот файл указывает что на такие страницы пауку не стоит заходить, и паук может это понять до скачивания такой страницы.

  • Такие файлы влияют только на страницы, информацию о которых паук получил с самого сайта. Если на такие страницы есть ссылки с других сайтов - паук такие страницы будет скачивать

 

Мета тег robots и http заголовок X-Robots-Tag

 

Бывает другая ситуация - когда нам надо указать, что информацию на этой странице не стоит индексировать. Причины могут быть разные: страница не имеет смысла как первая, которую человек увидит в выдаче (например, странно было бы если бы посетители заходили на сайт через страницу корзины), или страница является копией и отличается только метками для рекламы.

 

В таком случае основным инструментом являются мета теги robots и заголовки X-Robots-Tag. Это два способа передачи одних и тех же рекомендаций. Технически они ничем друг от друга не отличаются. Используется то, что проще сделать именно на Вашем сайте.

 

С помощью этого инструмента можно управлять именно индексацией сайта - например не индексировать страницу вообще, не проходить по ссылкам с неё (отличие от роботс в том, что паук поймет это после скачивания этой страницы), не сохранять копию страницы итд.

 

Чем похожи и чем отличаются эти методы?

 

У этих методов есть одна общая черта: они оба являются рекомендательными и не гарантируют того, что поиск не будет краулить или индексировать эти страницы. Если вы хотите что-то спрятать от поиска - с поиском надо обращаться также, как и с человеком-посетителем - если данные должны быть доступны не всем - они должны показываться только авторизованным пользователям

И напоследок, небольшая шпаргалка:

 

 

 

 

Tags:

Share on Facebook
Share on Twitter
Please reload

Мы в соцсетях
Please reload

Поиск по тегам