Jak przeszukać dużą witrynę i wyodrębnić dane za pomocą pająka SEO firmy Screaming Frog

Krzyczeli Frog SEO Pająk

W tej chwili pomagamy kilku klientom Migracje Marketo. Ponieważ duże firmy wykorzystują takie rozwiązania dla przedsiębiorstw, jest to jak pajęczyna, która wplata się w procesy i platformy przez lata… aż do momentu, gdy firmy nie są nawet świadome każdego punktu styku.

Dzięki platformie do automatyzacji marketingu dla przedsiębiorstw, takiej jak Marketo, formularze są punktem wejścia danych w witrynach i na stronach docelowych. Firmy często mają tysiące stron i setki formularzy w swoich witrynach, które należy zidentyfikować w celu zaktualizowania.

Świetnym narzędziem do tego jest Screaming Frog's SEO Spider… Prawdopodobnie najpopularniejsza platforma na rynku do indeksowania, przeprowadzania audytów i wyodrębniania danych z witryny. Platforma jest bogata w funkcje i oferuje setki opcji dla praktycznie każdego wymaganego zadania.

Screaming Frog SEO Spider: Crawl and Extract

Kluczową cechą Screaming Frog SEO Spider jest to, że możesz wykonywać niestandardowe ekstrakcje na podstawie plików Regex, XPathlub CSSPath specyfika. Jest to niezwykle przydatne, ponieważ chcemy indeksować witryny klienta oraz kontrolować i przechwytywać wartości MunchkinID i FormId ze stron.

Za pomocą narzędzia otwórz Konfiguracja> Niestandardowe> Wyodrębnianie do identyfikacji elementów, które chcesz wyodrębnić.

Ekstrakcja niestandardowa screamingfrog

Ekran ekstrakcji pozwala na praktycznie nieograniczone gromadzenie danych:

Screaming Frog SEO Zasady ekstrakcji pająka

Wyodrębnianie Regex, XPath i CSSPath

Identyfikator MunchkinID znajduje się w skrypcie formularza znajdującym się na stronie:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Następnie stosujemy Reguła Regex aby przechwycić identyfikator z tagu skryptu, który jest wstawiony na stronie:

Regex: ["']id["']: *["'](.*?)["']

W przypadku identyfikatora formularza dane znajdują się w tagu wejściowym w formularzu Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Stosujemy Reguła XPath przechwycić identyfikator z formularza wstawionego na stronie. Zapytanie XPath szuka formularza z danymi wejściowymi o nazwie groźny, następnie wyodrębnienie zapisuje plik wartość:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Rendering JavaScript

Inną świetną opcją Screaming Frog jest to, że nie jesteś ograniczony do HTML na stronie, możesz renderować dowolny JavaScript, który wstawi formularze w Twojej witrynie. W ciągu Konfiguracja> Spider, możesz przejść do zakładki Rendering i włączyć to.

Screaming Frog SEO Spider Rendering JavaScript

Oczywiście indeksowanie witryny zajmuje trochę więcej czasu, ale otrzymasz formularze renderowane po stronie klienta przez JavaScript, a także formularze wstawiane po stronie serwera.

Chociaż jest to bardzo specyficzna aplikacja, jest niezwykle przydatna podczas pracy z dużymi witrynami. Będziesz absolutnie chciał sprawdzić, gdzie osadzone są twoje formularze w całej witrynie.

Pobierz Screaming Frog SEO Spider

Co o tym myślisz?

Ta strona używa Akismet do redukcji spamu. Dowiedz się, jak przetwarzane są dane komentarza.