0. Добавьте сайт в поисковую систему Яндекс.
1. Sitemap. Для удобства веб-мастеров и поисковых систем был разработан специальный формат карты сайта – sitemap. Это список ссылок на внутренние страницы сайта, представляемый в формате XML. Этот формат поддерживает и Яндекс. В специальном разделе сервиса можно загрузить sitemap для вашего сайта. Это позволит влиять
на приоритет обхода роботом некоторых страниц вашего сайта. Например, если какие-то страницы обновляются гораздо чаще, чем другие, следует указать эту информацию, чтобы робот Яндекса правильно планировал свою работу.
2. Robots.txt – файл, предназначенный для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. Рассмотрим три наиболее важных параметра, которые можно указать в этом файле:
–Disallow. Эта директива используется для запрета от индексирования отдельных разделов сайта. С ее помощью необходимо закрывать
от индексирования технические и не представляющие ценности ни для пользователя, ни для поисковых систем страницы. К ним относятся страницы с результатами поиска по сайту, статистика посещаемости сайта, дубликаты страниц, разнообразные логи, сервисные страницы баз данных и т.д. Подробнее об этом читайте
в специальном разделе помощи, посвященной файлу robots.txt.
–Crawl delay. Позволяет указать индексирующему роботу минимальный промежуток времени (в секундах) между обращениями к страницам сайта. Этот параметр полезен для крупных проектов, содержащих десятки тысяч страниц и более. Поисковый робот Яндекса при индексировании может создать на такой сайт большую нагрузку, что может вызвать перебои и задержки в работе сайта, поэтому, возможно, вам следует ограничить количество обращений в секунду. Например, директива Crawl-delay: 2 укажет роботу, что он должен выжидать 2 секунды между обращениями к серверу.
–Clean param. Нужен для указания поисковым роботам, какие
cgi-параметры в адресе страницы следует считать незначащими. Иногда адреса страниц содержат идентификаторы сессий – формально страницы с разными идентификаторами различаются, однако их содержимое при этом одинаково. Если таких страниц на сайте много, индексирующий робот может начать индексировать такие страницы, вместо того чтобы скачивать полезное содержимое.
В соответствующем разделе помощи можно прочитать подробнее
об использовании директивы clean param.
Сервис Яндекс.Вебмастер позволяет просмотреть список проиндексированных URL с вашего сайта. Регулярно проверяйте его, так как даже небольшие ошибки в коде могут привести к значительному росту числа ненужных URL на сайте и увеличить нагрузку на сайт.
3. Яндекс индексирует основные типы документов, распространенных в Сети. Но существуют ограничения, от которых зависит, как будет проиндексирован документ, и будет ли проиндексирован вообще:
–Большое количество cgi-параметров в URL, большое количество повторяющихся вложенных директорий и слишком большая общая длина URL может привести к ухудшению индексирования документов.
– –Для индексирования важен размер документа – документы больше 10Мб не индексируются.
– –Индексирование flash:
i. индексируется, если он не встроен в HTML и страница передается с HTTP-заголовком, содержащим
Content-Type: application/x-shockwave-flash;
ii. индексируются файлы *.swf, если на них есть прямая ссылка.
– –В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.
– –Яндекс корректно индексирует документы в формате Open Office XML и OpenDocument (в частности, документы Microsoft Office и Open Office). Но следует учитывать, что внедрение поддержки новых форматов может занимать некоторое время.
4. Если вы переопределили поведение сервера для несуществующих URL, убедитесь, что сервер возвращает код ошибки 404. Получив код ответа 404, поисковая система удалит данный документ из индекса. Следите, чтобы все нужные страницы сайта отдавали код 200 OK.
5. Следите за корректностью http-заголовков. В частности, важно, содержание ответа, который сервер отдает на запрос «if-modified-since». Заголовок Last-Modified должен отдавать корректную дату последнего изменения документа.
6. Версии сайта, адаптированные для просмотра на мобильных устройствах, лучше выносить на поддомен, так же, как и версии сайта
на различных языках.
Запрещайте для индексирования не предназначенные для пользователей страницы, управляйте поисковым роботом Яндекса.
Структура сайта
Основой интернета являются ссылки, по которым можно переходить
со страницы на другую страницу, с сайта на другой сайт. Работа поискового робота Яндекса основана на переходах по ссылкам и анализе этих ссылок. Почти все известные Яндексу документы попали в поисковую базу благодаря переходам робота по ссылкам, и только некоторые были добавлены в базу веб-мастерами вручную через форму «Сообщить о новом сайте». Если на вашем сайте есть документы, на которые не ссылаются другие страницы, робот Яндекса никогда не узнает про их существование, и они не будут учитываться при поиске. Поэтому важно следить за тем, как страницы вашего сайта связаны друг с другом. Вот несколько советов по организации структуры сайта:
1. Поддерживайте четкую ссылочную структуру на сайте. Каждый документ должен относиться к своему разделу. Следите, чтобы на каждый документ можно было попасть по обычной ссылке, обозначающейся в HTML-коде страницы тегом <A>: <a href=…>…</a>. Вообще говоря, время, которое необходимо роботу Яндекса, чтобы проиндексировать какую-либо внутреннюю страницу сайта, зависит,
в том числе, от глубины вложенности этой страницы. Поэтому чем глубже страница, тем больше времени может пройти до включения ее в индекс.
При создании ссылок между документами сайта нужно учитывать еще один момент. Часто входной точкой на ваш сайт является именно главная страница. Ведь людям гораздо проще запомнить название (имя домена) сайта, но не конкретную внутреннюю страницу, URL которой может быть довольно замысловатым. Организация навигации по сайту должна позволять пользователю быстро сориентироваться в его структуре
и легко находить нужные документы, чтобы не возникало ситуации, когда, не найдя нужной информации, разочарованный посетитель покидает сайт.
2. Используйте карту сайта. Для крупных проектов, содержащих множество страниц, рекомендуется использовать sitemap (карту сайта), которую можно загрузить в соответствующем разделе сервиса Яндекс.Вебмастер, или указать ссылку на файл в файле robots.txt. Это поможет поисковому роботу проиндексировать и проанализировать документы вашего сайта.
3. Ограничивайте индексирование служебной информации. Многочисленные страницы-дубликаты, результаты поиска по сайту, статистика посещений и тому подобные страницы могут тратить ресурсы робота и мешать индексированию основного содержимого сайта. Такие страницы не имеют ценности для поисковой системы, так как пользователям в выдаче они не предоставляют какой-то уникальной информации. Рекомендуем запрещать индексирование таких страниц в файле robots.txt. Если их не исключить из индексирования, то может получиться так, что регулярно добавляющиеся или обновляющиеся технические страницы будут хорошо индексироваться, а факт обновления важной информации на основных страницах сайта для робота останется незамеченным.
4. Каждая страница должна иметь уникальный адрес (URL). Желательно, чтобы вид URL давал представление о том, что содержится на соответствующей странице. Использование транслитерации в адресах страниц также позволит роботу понять, о чем может быть страница. Например, один только URL http://download.yandex.ru/company/experience/Baitin_Korrekciya%20gramotnosti.pdf дает поисковому роботу множество информации о документе: его можно скачать; формат, скорее всего, PDF; документ, вероятно, релевантен запросу «коррекция грамотности» и так далее.
5. Делайте ссылки на другие разделы сайта текстовыми, чтобы предоставить роботу больше информации о материалах, которые в них размещены.
6. Проверяйте корректность symlink-ов, чтобы при движении по сайту у страниц не получался бесконечно растущий URL. Страницы, у которых в пути содержится много повторений одного и того же токена, например, site.ru/vasya/vasya/vasya/vasya/ могут не индексироваться.
Запрещайте индексирование не предназначенных для пользователей страниц в файле robots.txt.
Использование графики
Практически ни один современный сайт не обходится в оформлении без графических элементов, которые делают его дизайн более привлекательным. Однако следует обдуманно и аккуратно подходить
к оформлению страниц с их использованием.
Во-первых, заполняйте атрибут ALT тега <IMG>. Все изображения на странице могут иметь «альтернативный текст», который задается
в атрибуте ALT тега <IMG>. Этот атрибут полезен по двум причинам:
– –Если по какой-либо причине картинка, вставленная на страницу сайта, недоступна, текст из атрибута ALT будет выведен вместо нее и позволит пользователю судить о ее содержимом.
– –Информация из этого атрибута помогает «картиночному» роботу, который индексирует изображения для Яндекс.Картинок. Если указан атрибут ALT, поисковой системе проще понять, что представляет собой данное изображение.
Во-вторых, дублируйте текст, представленный картинкой. Робот Яндекса не умеет (пока) распознавать текст, представленный в виде графического изображения, а текст из атрибута ALT не попадает в основной индекс. Поэтому не следует использовать картинки как замену тексту. Если использование графического элемента с текстом необходимо, продублируйте то, что написано на картинке, текстом. Тогда никакая нужная для корректного ранжирования информация не будет упущена.
Нюансы, возникающие при использовании графики:
–Графическое меню.
Меню сайта, выполненное в виде изображений,
а не текстов, хоть и дает возможность перейти по ссылке
на внутренние страницы, но не дает Яндексу представления о том, какая именно информация на них размещена. По возможности, следует предоставить альтернативное текстовое меню со ссылками
на основные разделы сайта.
–Если дизайн сайта выполнен с применением технологии flash, сделайте и текстовую версию сайта. Она будет полезна как пользователям, у которых не установлена совсем или установлена устаревшая программа отображения flash, пользователям мобильных устройств, а также роботу Яндекса, который сможет полноценно
и без ошибок проиндексировать ваш сайт. На индексирование flash есть некоторые ограничения (см. раздел «Файл robots.txt»).
Не заменяйте текст изображениями, чтобы вся нужная информация была проиндексирована.
Еще несколько советов для улучшения ранжирования в поиске
по картинкам:
– –Если картинки используются как иллюстрация к тексту, стремитесь размещать их как можно ближе к фрагменту текста, который они иллюстрируют. Если такой возможности нет – сопровождайте их подписями непосредственно рядом с картинкой.
– –Имена файлов картинок желательно делать осмысленными (то есть не img_123456.jpg, а ktulhu.jpg) и соответствующими содержанию картинки.
– –Если в тексте дается ссылка на изображение, то ее текст также должен быть осмысленным (то есть не <a href=”ktulhu.jpg”>рис. 1</a>, а <a href=”ktulhu.jpg”>Ктулху в естественной среде обитания</a>).
–Закрывайте от индексирования в robots.txt изображения CAPTCHA
и другие автоматически сгенерированные картинки (баннеры, графики, счетчики, графические информеры и т.п.)