Yandex: типичные ошибки. Yandex: типичные ошибки Сервер не дает ошибку 404

Страница 404 призвана сообщать пользователю, что заданный им url (адрес страницы) не существует.
Такие неправильные урлы еще можно назвать "битыми ссылками".
Многие сайты делают свои страницы 404 для удобства своих пользователей. Часто это красивые и интересные страницы, которые вызывают у пользователя улыбку вместо разочарования от того, что адрес страницы неправильный.
При создании страницы 404 есть важная техническая составляющая, которая сильно влияет на ранжирование сайтов в поисковых системах, если все не настроено правильно.

Если вы озадачились созданием страницы 404, то вам нужно учитывать три момента:
1) Переадресация со всех неправильно введенных url на страницу 404 в.htaccess.
2) Правильный ответ сервера после переадресации (http-код страницы должен быть 404, а не 200).
3) Закрытие страницы 404 от индексации в robots.txt

Сразу отмечу, что все вышеизложенное написано для самописных сайтов, преимущественно на php. Для wordpress существуют плагины по настройке того же самого. Но в этой статье мы рассмотрим, как все выглядит в реальности. %)

Переадресация (редирект) неправильных url на страницу 404

Первое, что вы делаете – создаете саму страницу 404, чтобы было куда людей посылать %).
Перенаправление url настраивается в файле.htaccess
Просто вписываете строчку:
ErrorDocument 404 http://mysite.com/404.php
Где «mysite.com» – ваш домен, а http://mysite.com/404.php - путь к реальной странице. Если ваш сайт на html, то строка будет выглядеть как:
ErrorDocument 404 http://mysite.com/404.html
Проверка очень проста. После заливки на хостинг файла.htaccess с вышеуказанной строкой, делаете проверку, вводя заведомо не существующий урл (битая ссылка), например: http://mysite.com/$%$%
Если переадресация на созданную вами страницу произошла, значит все работает.
Итак, полностью файл.htaccess, где настроена ТОЛЬКО переадресация на 404 будет выглядеть так:
____________________________
RewriteEngine on
ErrorDocument 404 http://mysite.com/404.html
____________________________

Правильный ответ сервера (http-код страницы)

Очень важно, чтобы при перенаправлении был правильный ответ сервера, а именно – 404 Not Found.
Тут следует объяснить отдельно.

Любому url при запросе назначается статус (http-код страницы).
Для всех существующих страниц, это: HTTP/1.1 200 OK
Для страниц перенаправленных: HTTP/1.1 302 Found
Если страницы не существует, это должен быть HTTP/1.1 404 Not Found

То есть, какой бы урл не был введен, ему присваивается статус, определенный код ответа сервера.
Проверить ответ сервера можно на такой ресурсе как bertal.ru или SEARCH CONCOLE GOOGLE – Сканирование/Посмотреть как GOOGLE бот.
Когда у вас не было перенаправления через.htaccess на страницу 404, то на любой несуществующий урл, введенный пользователем, а также на битые ссылки был ответ «HTTP/1.1 404 Not Found»

После того, как вы настроили перенаправление на свою авторскую страницу 404 через.htaccess, как описано выше, то вводя битую ссылку (неверный url, который заведомо не существует), типа http://mysite.com/$%$% , ответ сервера будет:
- сначала HTTP/1.1 302 Found (перенаправление),
- а затем HTTP/1.1 200 OK (страница существует).

Проверьте через bertal.ru .
Чем это грозит? Это будет означать, что гугл в свою базу данных (индекс) может внести все битые ссылки, как существующие страницы с содержанием страницы 404. По сути - дубли страниц. А это невероятно вредно для поисковой оптимизации.

В этом случае нужно сделать две вещи:
1) Настроить правильный ответ сервера на странице 404.
2) Закрыть от индексирования страницу 404. Это делается через файл robots.txt

Настраиваем ответ сервера HTTP/1.1 404 Not Found для несуществующих страниц

Ответ сервера настраивается благодаря функции php в самом начале страницы:

Пишите ее вначале файла 404.
В результате мы должны получить ответ на битую ссылку:

Закрыть страницу 404 от индексирования

Закрыть страницу от индексирования можно в файле rodots.txt. Будьте внимательны с этим инструментом, ведь через этот файл ваш сайт, по сути, общается с поисковыми роботами!
Полный текст файла rodots.txt, где ТОЛЬКО закрыта индексация 404 страницы, выглядит так:
____________________________
User-agent: *
Disallow:
Disallow: /404.php
____________________________

Замечания по коду: "/404.php" означает путь к странице. Если на вашем сайте страница 404.php (или 404.html соответственно) находится в какой-то папке, то путь будет выглядеть:
/holder/404.php
где "holder" - название папки.

Вот, собственно и все по странице 404. Проверьте работу страницы, перенаправления битых ссылок, и ответы серверов.
Повторюсь: Все вышеизложенное для самописных сайтов. Если вы используете wordpress, то можете поискать приличный плагин для настройки ошибки 404.

Ошибка 404 - это самая узнаваемая и распространенная ошибка гипертекстовых документов. Она сообщает о том, что по заданному адресу страницы не существует. Фактически речь идет об отсутствии html-файла для указанного документа, поэтому сайт возвращает ошибку.

Чтобы разобраться с вопросом подробнее, а также с рядом служебных файлов, которые есть у каждого ресурса, нужно изучить момент, связанный с гипертекстовым представлением страниц с помощью языка HTML (HyperText Markup Language - «язык гипертекстовой разметки»), и HTTP-протокол, посредством которого осуществляется доступ. Несмотря на то, что придется разбираться в языке программирования, форма его представления настолько проста, что ее сможет понять любой человек.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Гипертекстовые страницы и их особенности

Интернет родился в тот момент, когда английский инженер Тимоти Джон Бернерс-Ли придумал гипертекстовую форму представления текстовых страниц в сети и описал принцип доступа к ним по прикладному протоколу HTTP. Согласно общей идее, пользователь со своего устройства, а именно с браузера делает сетевой запрос на определенный ресурс. В этот момент открывается сессия на сервере, к которому осуществляется доступ. В качестве ответа возвращается HTML-страница.

Разумеется, в наше время используются более сложные алгоритмы доступа и «подкачки» страниц больших размеров, но общий принцип остается тем же. Для доступа к ресурсу нужно доменное имя и IP-адрес. Только при условии, что выполнены эти критерии и ресурс находится в рабочем состоянии, будет возвращаться «error 404 not found» на отсутствующий документ.

Как выглядит страница 404 по умолчанию

У сайта может быть оформленная страница об ошибке доступа «http 404 not found», а может и не быть. Пользователь с небольшим опытом, как правило, довольно сильно нервничает при ее получении и считает, что в этом существует его вина. На самом деле все гораздо проще, ответ вытекает из вышесказанного.

Код ошибки 404 в виде отдельной оформленной в дизайне сайта страницы возвращается только, если на сайте есть файл 404. html. Обычно она размещается в корневой директории. В противном случае сообщение об этой ошибке выдаст браузер вместе с сообщением об отсутствии доступа. И выглядит это обычно как белый лист с сообщением об ошибке.

При разработке сайтов, как правило, используются системы управления сайтами. Они содержат страницу 404 с указанием в функциональных файлах пути к ней. Обычно такая страница содержит сообщение о несуществующем адресе и ссылку перехода на главную страницу сайта. Шаблон страницы 404 может быть изменен по своему усмотрению, так как это страница вашего сайта, которую вы можете использовать, как пожелаете.

Для того, чтобы переделать шаблон, потребуются знания HTML для разметки файла. Обратите внимание, что в отдельных случаях у файла со страницей может быть другое название - err404. html, 404.php. Отличие от стандарта чаще всего связано с более широким функционалом, а также особенностями системы. Например, в WordPress документ можно найти в директории 404.php. В строке адреса "ошибка 404 страница не найдена" будет отображаться примерно так: домен.ру/404/.

Адаптируем стандартную страницу 404 под свои цели

Для улучшения юзабилити (приемлемости для пользователей) сайта, конечно, необходимо сделать страницу, которая будет привлекать посетителя вашего сайта и поможет продолжить просмотр. Что обязательно нужно учесть при написании кода:

  • Значительная часть посетителей, которые сталкиваются с несуществующими страницами, переходят на сайт из поисковых систем или по ссылкам на форумах, сайтах и социальных сетях, то есть оттуда, где могут располагаться старые ссылки на давно несуществующие страницы.
  • Пользователи ищут не ваш сайт, а интересующую информацию по ключевому слову, то есть при отсутствии желаемого посетитель покидает сайт и редко его просматривает.

То есть, вы должны понимать, что таких посетителей удержать будет не так просто, но это возможно!

Возьмите стандартный шаблон, доступный в интернете, или сделайте свой, учитывая указанные выше особенности:

  1. Кратко объясните человеку, что случилось и почему он не видит того, что искал. Укажите ему варианты дальнейших действий, которые помогут найти искомое.
  2. Выведите на странице 404 поисковую строку, чтобы посетитель мог сразу найти желаемое.
  3. Обязательно отобразите здесь меню вашего сайта, с помощью которого, человек сможет понять, куда идти.
  4. Сделайте так, чтобы страница привлекала пользователя, и ему хотелось найти информацию именно на вашем ресурсе. Используйте красочные и интересные текстово-визуальные решения.

Чтобы страница с сообщением об ошибке сервера 404 стала привлекательной для пользователя, достаточно вызвать его улыбку или интерес. Поэтому постарайтесь поработать над оригинальностью идеи для такого раздела вашего ресурса.

Редактируем страницу 404

Редактировать файл можно из системы управления сайтом напрямую, для этого нужно добавить желаемую разметку и изображения.
При ее создании руководствуйтесь тем, что информация должна открываться быстро и без задержек. Страница должна быть «легкой» (занимать мало места), полезной и предлагать альтернативы поиска несуществующего документа.

  • переход на главную;
  • список рейтинговых страниц сайта;
  • переход на карту ресурса;
  • кнопку сообщения администрации о «битой» ссылке на определенном источнике.

В остальном лучшим помощником будет фантазия, корпоративные стандарты и оригинальная идея дизайнера.

Заключение

Страница 404 not found - это служебный файл, который может быть изменен и дополнен, чтобы привлечь больше посетителей на сайт. Этот файл обязателен, так как в противном случае, браузер будет выдавать сообщение об ошибке, после которого шанс заманить человека к вам будет нулевым. Старайтесь его наполнить красочными изображениями и даже легким юмором.

Все указанные ошибки не критичны для Яndex, он проиндексирует страницы в любом случае. Но они могут помешать потенциальным посетителям Вашей страницы найти ее среди миллионов других.

Неправильно обрабатывается ошибка 404 "Not found"
Проверьте, что делают Ваши скрипты в случае ошибок. Если скрипт сообщает об ошибке и при этом выдает код нормального завершения 200, то сообщение будет проиндексировано. Если же Ваш скрипт вернет HTTP код 404, это сообщение об ошибке проиндексировано не будет.
Это относится и к обычным документам. Некоторые сервера настроены таким образом, что они в случае ошибки отсылают сообщение с кодом нормального завершения 200. Это мешает роботу удалить ссылку на страницу в базе данных. Любой современный web-сервер позволяет изменять стандартные сообщения об ошибках и отсылать их с правильным кодом ошибки.

Спам, или не нужно обманывать пользователя
Спам - это заголовки и ключевые слова, сдобренные большим количеством слов из самых популярных запросов, большие массивы текста, "написанные" на странице цветом фона или очень мелким шрифтом, а также многие другие уловки с целью привлечения пользователя на свои страницы обманом.
Их не стоит применять по двум причинам. Во-первых, это не добавляет славы создателю страниц и вызывает естественное раздражение пользователей. Во-вторых, Яndex отслеживает такие ненормальные изменения и снижает место документа на странице результатов. Кроме этого, спам увеличивает размер документа и, следовательно, уменьшает контрастность слов в нем, что также влияет на место документа в списке найденного. В случаях злостного использования спама администрация Яndex может исключить такие страницы и сайты из базы.
Страницы со временем перенаправления на другие страницы (redirect) равным нулю также исключаются из индексирования.

Неправильные даты
На Яndex работает поиск и сортировка по датам, но в 20% случаев серверы не выдают правильную дату изменения файлов. Настройте свой сервер правильно. Не лишайте пользователя дополнительной информации и воспользуйтесь возможностью корректно показать свои страницы при поиске по датам.

Индексирование одинаковых документов в разных кодировках
Много ресурсов расходуется впустую при индексации одних и тех же документов, выдаваемых web-серверами в разных кодировках. При этом русские поисковые системы все равно держат в базах документы в одной из кодировок. Рекомендуется запрещать для индексирования все кодировки, кроме одной. Если кодировки выдаются по портам серверам, то надо выдавать на разных портах (серверах) разный robots.txt. Это значит, во всех портах/серверах, кроме основного, должно быть написано

Если кодировки выдаются, к примеру, по директориям, то надо сделать один файл robots.txt, в котором будет написано

Disallow: /alt
disallow: /mac
disallow: /koi

Индексирование одного сайта на разных серверах
Эта проблема возникает, когда у сервера существуют зеркала, и/или кодировки делаются префиксами в имени хоста, например, для хоста www.chto-to.ru:
win.chto-to.ru, koi-www.chto-to.ru, wwwmac.chto-to.ru и т.д.
Робот не в состоянии самостоятельно определить "главный" адрес. Единственное, что он может делать (и делает) - это определить, что два документа совпадают с точностью до кодировок, и проиндексировать только один из них.
Таким образом, может оказаться, что разные части Вашего сайта проиндексированы на разных хостах. Если Вы хотите, чтобы весь Ваш сайт был проиндексирован по одному адресу (хосту), запретите индексацию остальных, задав соответствующий файл robots.txt. Через некоторое время (по мере обхода роботом) все проиндексированные документы будут ссылаться на этот хост.