Как сайтовете получават резултатите от търсачките? И как търсачките успяват да ни дадат информация за секунди?
Тайната на такава светкавична работа е в индекса за търсене. Може да се сравни с огромна и перфектно подредена архивна директория на всички уеб страници. Попадането в индекса означава, че търсачката е видяла, оценила и запомнила вашата страница. А това означава, че тя може да го покаже в резултатите от търсенето.
Вижте процеса на индексиране от нулата, за да разберете как сайтовете влизат в резултатите от търсенето в Google, дали е възможно да се управлява този процес и какво трябва да знаете за индексирането на ресурси с различни технологии.
Какво е обхождане и индексиране?
Обхождането на страници на сайтове е процес, когато търсачка изпраща своите специални програми (познаваме ги като роботи за търсене) за събиране на данни от нови и променени страници на сайтове.
Индексирането на страниците на сайта е сканиране, четене на данни и добавянето им в индекса (директория) от роботи за търсене. Търсачката използва получената информация, за да разбере за какво е вашият сайт и какво има на неговите страници. След това той може да определи ключовите думи за всяка сканирана страница и да запише копия от тях в индекса за търсене. За всяка страница тя съхранява URL адреси и информация за съдържанието.
В резултат на това, когато потребителите въвеждат заявка за търсене в Интернет, търсачката бързо сканира списъка си с обходени сайтове и показва само съответните страници в резултатите от търсенето. Като библиотекар, който търси нужните книги в каталога – по азбучен ред, по тема и по точно име.
Индексиране на сайтове в Google
Когато Google данните не се търсят от сайтове в реално време, а от индекса на Google, който съхранява стотици милиарди страници. По време на търсенето се вземат предвид различни фактори – вашето местоположение, език, тип устройство и т.н.
През 2019 г. Google промени основния си принцип на индексиране на сайтове – вероятно сте чували за старта на Mobile-first. Основната разлика между новия метод е, че сега търсачката съхранява мобилната версия на страниците в индекса. Преди това беше взета предвид предимно настолната версия, а сега на вашия сайт идва първият Googlebot за смартфони – особено ако сайтът е нов. Всички други сайтове постепенно преминават към нов метод на индексиране, за който собствениците ще научат в конзолата за търсене на Google.
Още няколко ключови разлики в индексирането в Google:
- Индексът се актуализира постоянно;
- Процесът на индексиране на сайт отнема от няколко минути до седмица;
- Страниците с лошо качество обикновено се понижават, но не се премахват от индекса.
Всички сканирани страници попадат в индекса, но само тези с най-високо качество се връщат в резултатите от търсенето. Преди да покаже на потребителя уеб страница при поискване, търсачката проверява нейната приложимост за повече от 200 критерия (фактори за класиране) и избира най-подходящите.
Как търсачките да разберат за вашия сайт
Ако това е нов ресурс, който не е индексиран преди, трябва да го „изпратите“ в търсачките. След като получат покана от вашия ресурс, търсачките ще изпратят своите скенери на сайта за събиране на данни.
Можете да поканите ботове за търсене на сайта, ако публикувате връзка към него на трети ресурс или на трети страни. Но обърнете внимание: за да могат търсачките да намерят вашия сайт, трябва да обхождат страницата, на която се намира тази връзка.
За Google
- Създайте карта на сайта, добавете връзка към нея в robots.txt и изпратете Sitemap на Google.
- Изпратете заявка за индексиране на променената страница в Search Console.
- Всеки seoshnik иска неговият сайт да се индексира по-бързо, като обхваща възможно най-много страници. Но никой не може да повлияе на това, дори и най-добрият приятел, който работи в Google.
Скоростта на обхождане и индексиране зависи от много фактори, включително броя на страниците в сайта, скоростта на самия сайт, настройките в уеб администратора и бюджета за обхождане. Накратко, обхождащ е броят на URL адресите на вашия сайт, който робот за търсене иска и може да обхожда.
На какво още може да повлия в процеса на индексиране?
Към плана за обхождане от роботите за търсене на нашия сайт.
Как да управлявате робот за търсене
Търсачката изтегля информация от сайта, давайки robots.txt и карта на сайта. И именно там можете да препоръчате на търсачката какво и как да изтеглите или не да изтеглите на вашия сайт.
Robots.txt файл
Това е обикновен текстов файл, който съдържа основна информация – например към кои роботи за търсене се отнася (User-agent) и какво забранява да обхожда (Disallow).
Инструкциите в robots.txt помагат на ботовете за навигация и да не губят ресурсите си, обхождайки маловажни страници (например системни файлове, страници с разрешения, съдържание на кошницата и т.н.). Например, редът Disallow: или admin ще попречи на ботовете за търсене да преглеждат страници, чийто URL адрес започва с думата admin, и Disallow: / *. Pdf $ ще им блокира достъпа до PDF файлове на сайта.
Също така в robots.txt е необходимо да се посочи адресът на картата на сайта, за да се посочи местоположението му за търсене на роботи.
Карта на сайта
Друг файл, който ще ви помогне да оптимизирате процеса на обхождане на сайта с роботи за търсене, е картата на сайта. Тя посочва как се организира съдържанието на сайта, кои страници подлежат на индексиране и колко често се актуализира информацията в тях.
Ако има няколко страници на вашия сайт, търсачката вероятно ще ги намери сама. Но когато един сайт има милиони страници, тя трябва да избере кои от тях да обхожда и колко често. И тогава картата на сайта помага за тяхното приоритизиране сред други фактори.
Също така сайтовете, за които мултимедийното или новинарското съдържание е много важно, могат да подобрят процеса на индексиране чрез създаване на отделни карти на сайтове за всеки тип съдържание. Отделни карти за видео също могат да информират търсачките за продължителността на видео последователността, типа на файла и условията за лицензиране. Карти за изображения – какво се показва, какъв тип файл и т.н. За новини, датата на публикуване. заглавие на статията и публикация.
Така че нито една важна страница на вашия сайт не е останала без вниманието на робот за търсене, навигация по менюто и вътрешна връзка. Но ако имате страница, към която не водят нито външни, нито вътрешни връзки, тогава картата на сайта ще помогне да я намерите.
Можете също да посочите в Sitemap:
- Честота на актуализиране на конкретна страница – с етикета <changefreq>;
- Канонична версия на страницата – с атрибут rel = canonical;
- Версии на страници на други езици – атрибут на hreflang.
Картата на сайта също помага много за да разберете защо е трудно да индексирате вашия сайт. Например, ако сайтът е много голям, тогава се създават много карти на сайта, разделени по категории или типове страници. И тогава е по-лесно да разберете в конзолата кои страници не са индексирани и вече да се справите с тях.
Можете да проверите коректността на файла на Sitemap на страницата в конзолата за търсене на Google на вашия сайт в секцията „Файлове на Sitemap“.
И така, вашият сайт е изпратен за индексиране, robots.txt и sitemap – време е да разберете как сайтът се индексира и какво търсачката намери в ресурса.