Spis treści:
Co to jest Index Bloat?
Index Bloat to sytuacja, w której mamy zindeksowaną dużą liczbę niskiej jakości podstron, które nie zawierają żadnych unikalnych ani wartościowych informacji. Strony te często są automatycznie generowane i powstają przykładowo dzięki indeksowaniu filtrów lub wyników wyszukiwarki wewnętrznej. Może to prowadzić do dużej ilości zduplikowanego contentu, a im więcej takich treści będzie, tym większa szansa, że Google będzie je postrzegał jako Thin Content.
Musimy jednak zwrócić uwagę, że nie wszystkie strony w typowej witrynie powinny być indeksowane. Celem SEO nie jest posiadanie jak największej ilości zaindeksowanych stron, ale posiadanie jak największej ilości wartościowych stron, które generują ruch i można go przekuć w przychód.
Adresy stron, które tworzą się poprzez korzystanie z filtrów, sortowania czy wewnętrznej wyszukiwarki mogą być zablokowane przez robotami wyszukiwarek za pomocą tagów “noindex” lub pliku robots.txt. Jeśli posiadamy kilka bardzo podobnych stron, z podobną treścią, ale jest to część naszej strategii i chcemy, aby takie strony istniały – możemy użyć linków kanonicznych. Wykorzystując tego typu metody, efektywnie odseparujemy tego typu adresy URL i nie będą miały negatywnego wpływu na resztę serwisu.
Dlaczego Index Bloat (Wzdęcie Indeksu) ma znaczenie w SEO?
Index Bloat może negatywnie wpłynąć na pozycje witryny w wynikach wyszukiwania. Osłabia autorytet całego serwisu, marnuje crawl budget, a przy odpowiednio wysokim poziomie niskowartościowych stron, Google może uznać cały serwis za spamowy i wyświetlać go rzadziej lub całkowicie usunąć z wyników wyszukiwania.
Nawet jeśli się to nie stanie, wciąż pozostaje problem dla użytkowników – odwiedzając taki serwis mogą mieć wrażenie, że “coś jest nie tak”. Teksty nie przekazują żadnych konkretnych informacji, często się powtarzają lub niektóre strony są wręcz puste. Niskiej jakości, automatycznie generowany content może być szybko wyłapany przez klientów. Taka witryna nie zachęca do dłuższych odwiedzin, a co dopiero do zakupów czy pozostawienia swoich danych osobowych.
Bezsensowne tracenie budżetu crawlowania również nie jest dobrym pomysłem. Internet cały czas się rozrasta, każdego dnia powstają nowe strony i serwisy, a zasoby Google’a są ograniczone. Powoduje to, że nowe serwisy mogą być (przynajmniej na początku) sporadycznie odwiedzane przez, ponieważ nie prowadzi do nich wiele linków, a witryna jest mała i świeża. Podobny problem występuje w przypadku dużych serwisów i ecommerce’ów, gdzie roboty mogą po prostu nie być w stanie nadążyć z monitorowaniem wszystkich zmian w obrębie serwisu. Index Bloat może powodować, że nasze zasoby crawl budgetu, już i tak ograniczone, będą marnowane na strony, które nie generują ruchu, sprzedaży lub są duplikatami innych stron.
Czytaj więcej: Czy Crawl Budget jest czynnikiem rankingowym SEO?
Powody, które mogą powodować Index Bloat
Powodów, przez które możemy mieć do czynienia z Index Bloat może być wiele. Oto najpopularniejsze z nich:
- Kombinacje sortowania i filtrów z kategoriami sklepowymi.
- Nieuporządkowane strony archiwalne lub testowe.
- Niekontrolowane tagi (strony z tagami).
- Strony paginacji.
- Strony z parametrami (np. generowanymi automatycznie czy UTM’ami).
- Strony z nieaktualną treścią.
- Niezoptymalizowane strony wyników wyszukiwarki wewnętrznej.
- Automatycznie generowane profile użytkowników z niewielką ilością treści.
- Elementy nietekstowe np. duża ilość plików PDF, które nie powinny być indeksowane.
- Niepoprawne przejście z http na https.
- Niespójność wersji www vs. non-www.
- Podkatalogi i podstrony, które nie powinny być indeksowane (np. strony testowe).
Jak sprawdzić czy w serwisie występuje Index Bloat?
Aby zapobiec Index Bloat, musisz znaleźć małowartościowe strony i je wyindeksować lub zablokować przed indeksowaniem. Możesz użyć Google Search Console (GSC), aby zobaczyć raport z indeksowania stron (zakładka “Strony” w sekcji “Indeksowanie” w menu bocznym). Na wykresie zobaczysz listę zindeksowanych i niezindeksowanych stron, a poniżej znajdziesz przyczyny i konkretne przykłady. Google Search Console umożliwia również eksport adresów w kilku formatach (przycisk “Eksportuj”). Aby sprawdzić czy dany adres URL jest zindeksowany, wystarczy wkleić go do wyszukiwarki w górnej części GSC. Jeśli zrobisz tak z np. adresem powstałym dzięki filtrom i okaże się, że jest on zindeksowany, wtedy zachodzi ryzyko, że może indeksować się też każda możliwa kombinacja kategorii i wszelkich filtrów. Innymi słowy – serwis jest w stanie “sztucznie spuchnąć” nawet kilkunastokrotnie, co negatywnie odbije się na wynikach serwisu.
Alternatywnie, możesz przeskanować stronę za pomocą crawlerów takich jak: Screaming Frog (darmowy do 500 adresów URL), Deepcrawl, Sitebulb, JetOctopus czy Oncrawl. naśladują one roboty wyszukiwarek i są w stanie wylistować wszystkie adresy URL na jakie trafią. Dzięki temu będziesz w stanie określić, jakiego rodzaju strony indeksują się w serwisie i czy występuje problem z Index Bloat.
Kolejnym ze sposobów jest użycie komendy “site:” w Google – wystarczy wejść na jakikolwiek adres URL i dodać na jego początku wspomnianą komendę. Jeśli wyszukiwarka zwróci wynik, to oznacza, że strona powinna być zindeksowana. Muszę jednak nadmienić, że ta metoda jest bardzo niedokładna i rekomendowałbym ostrożne podchodzenie do jej wyników.
Jak naprawić Index Bloat?
Aby uniknąć Index Bloat, powinniśmy regularnie przeglądać zawartość witryny i usuwać lub konsolidować wszelkie zduplikowane treści lub strony o niskiej jakości. Podobnie jak z czynnikami, które powodują Index Bloat, rozwiązań tego problemu również jest kilka. Po analizie serwisu możemy podjąć odpowiednie działania.
Oto kilka z nich:
Zaktualizuj lub dodaj plik robots.txt
Utwórz plik robot.txt, jeśli Twoja witryna jeszcze go nie posiada. Dobrą praktyką jest aktualizowanie dyrektyw w pliku robots.txt, aby upewnić się, że roboty wyszukiwarek odwiedzają właściwe strony. Plik robot.txt blokuje boty wyszukiwarek przed dostępem do wylistowanych adresów URL lub stron zawierających określone ciągi znaków.
Użyj tagów Meta Robots i X-Robots
Znacznik Meta Robots możesz dodać do kodu HTML, aby dostarczyć instrukcji dotyczących tylko tej konkretnej strony internetowej. Daje to większą kontrolę nad tym, jaki status indeksacji mają poszczególne strony. Możesz nawet zostawić instrukcje dla konkretnych robotów (“Googlebot” lub “Bingbot”). Tag Meta Robots powinien być używany tylko na stronach, które nie są objęte plikiem robots.txt. Jeśli nieumyślnie dodasz tag “noindex” do strony, która jest zablokowana przez plik robots.txt, Google nie będzie w stanie odczytać Twoich dyrektyw.
Znacznik X-Robots jest nagłówkiem HTTP odpowiedzi. Ma taką samą funkcjonalność jak Meta Robots i kontroluje indeksowanie obrazów, filmów, plików PDF i innych elementów, niebędących plikami HTML.
Dodaj linki kanoniczne (canonical tags)
Canonical Tags (linki kanoniczne) są umieszczane w nagłówku strony internetowej i wysyłają informację do robotów wyszukiwarek, który adres URL jest najważniejszy i powinien być pokazywany użytkownikom w wynikach wyszukiwania. Należy jednak pamiętać, że Google traktuje linki kanoniczne bardziej jako wskazówkę niż “rozkaz”. O ile wcześniej Google na swoim blogu rekomendował ich dodawanie, aby uniknąć tzw. “outrankingu” przez inne, większe serwisy, które skorzystają z naszych treści, tak w maju 2023 roku zmienił dokumentację i od tego momentu zaleca blokowanie indeksowania (np. poprzez dodanie parametru “noindex”).
Popraw paginację (stronicowanie)
Jeśli podzielisz produkty lub treści na kilka podstron, pamiętaj aby zastosować odpowiedni typ paginacji, aby Google rozumiał zależności między podstronami. Żeby wykluczyć ryzyko duplikacji treści, opis kategorii powinien pojawiać się jedynie na pierwszej stronie. Każda z podstron paginacji powinna być możliwa do crawlowania i zindeksowania przez roboty wyszukiwarek. Jedynym wyjątkiem mogą być bardzo duże serwisu, gdzie kwestia crawl budgetu jest złożonym zagadnieniem i powinna zostać skonsultowana ze specjalistą SEO przed jakimikolwiek działaniami.
Usuń lub połącz strony z podobnymi treściami
Mało efektywne treści, które nie generują ruchu organicznego, również mogą przyczynić się do Index Bloatu. Jeśli masz w swoim serwisie wiele stron z przestarzałą treścią lub z duplikatami, zastanów się nad ich usunięciem, wskazaniem najważniejszej podstrony (za pomocą linku kanonicznego) lub o połączeniu contentu.
Zanim jednak zaczniesz działać, przygotuj plan. Content Pruning (tzw. “przycinanie treści”) powinno być wykonane w sposób przemyślany, aby uniknąć negatywnego wpływu na SEO i autorytet witryny.
Usuń zaindeksowane strony za pomocą Google Search Console i narzędzia “Usunięcia”
Możesz poprosić Google’a o usunięcie konkretnych adresów z indeksu wyszukiwarki za pomocą narzędzia Disavow Links Tool. Wystarczy otworzyć projekt w Google Search Console, wybrać “Usunięcia” z sekcji “Indeksowanie” i wkleić konkretne adresy URL.
Po skorzystaniu z tej opcji masz około 6 miesięcy na usunięcie adresu URL lub ustawienie tagu “noindex”. Jeśli w tym czasie nie zaktualizujesz statusu danej strony lub nie zablokujesz jej poprzez plik robots.txt, Google będzie w stanie ponownie ją przeskanować i zaindeksować. Pamiętaj, aby również usunąć wewnętrzne linki wskazujące na każdą stronę, którą chcesz usunąć z indeksu Google.
Usuń wewnętrzne linki do stron powodujących Index Bloat
Bezpośrednie nawiązanie do wcześniejszego punktu – kiedy ustawisz parametr “noindex” (lub zablokujesz jakieś strony przez dyrektywy w pliku robots.txt), warto usunąć do nich wszystkie wewnętrzne linki. Pozwoli to zaoszczędzić crawl budget, a w dodatku skierować roboty wyszukiwarek oraz użytkowników do bardziej wartościowych stron.
Podsumowanie
Kwestia Index Bloat nie jest prosta i może się diametralnie różnić w zależności od obecnego stanu serwisu: historii i rodzaju strony, struktury kategorii, paginacji, dynamicznie tworzonych adresów i wielu innych czynników. Związane z tym działania powinny być podejmowane z ostrożnością i przewidywaniem możliwych skutków.
Jeśli przeczuwasz, że problem Bloat Indexu może dotyczyć Twojego serwisu, to zapraszam do kontaktu. Przeanalizuję sytuację i jeśli problem rzeczywiście występuje – przygotuje odpowiednie rekomendacje.
Dobrze jest tez zastanowić się nad prostym NOINDEX dla podstron bezwartościowych.
W przypadku canonical’a warto zwrocic uwagę czy Google nie gubi się i nie zmienia go samodzielnie – to też jest znak, że trzeba kombinować z np. duplikacjami i łączyć lub optymalizować treści.