Jak przeszukać dużą witrynę i wyodrębnić dane za pomocą pająka SEO firmy Screaming Frog

Krzyczeli Frog SEO Pająk

We’re assisting several clients right now with Migracje Marketo. As large companies utilize enterprise solutions like this, it’s like a spider web that weaves itself into processes and platforms over years… until the point that companies aren’t even aware of every touchpoint.

Dzięki platformie do automatyzacji marketingu dla przedsiębiorstw, takiej jak Marketo, formularze są punktem wejścia danych w witrynach i na stronach docelowych. Firmy często mają tysiące stron i setki formularzy w swoich witrynach, które należy zidentyfikować w celu zaktualizowania.

Świetnym narzędziem do tego jest Screaming Frog's SEO Spider… Prawdopodobnie najpopularniejsza platforma na rynku do indeksowania, przeprowadzania audytów i wyodrębniania danych z witryny. Platforma jest bogata w funkcje i oferuje setki opcji dla praktycznie każdego wymaganego zadania.

Screaming Frog SEO Spider: Crawl and Extract

Kluczową cechą Screaming Frog SEO Spider jest to, że możesz wykonywać niestandardowe ekstrakcje na podstawie plików Regex, XPathlub Ścieżka CSS specifics. This comes in extremely useful as we wish to crawl the client’s sites and audit and capture the MunchkinID and FormId values from pages.

Za pomocą narzędzia otwórz Konfiguracja> Niestandardowe> Wyodrębnianie do identyfikacji elementów, które chcesz wyodrębnić.

Ekstrakcja niestandardowa screamingfrog

Ekran ekstrakcji pozwala na praktycznie nieograniczone gromadzenie danych:

Screaming Frog SEO Zasady ekstrakcji pająka

Wyodrębnianie Regex, XPath i CSSPath

For the MunchkinID, the identifier is located within the form script that’s within the page:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Następnie stosujemy Reguła Regex aby przechwycić identyfikator z tagu skryptu, który jest wstawiony na stronie:

Regex: ["']id["']: *["'](.*?)["']

W przypadku identyfikatora formularza dane znajdują się w tagu wejściowym w formularzu Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Stosujemy Reguła XPath to capture the id from within the form that’s inserted in the page. The XPath query looks for a form with an input with a name of groźny, następnie wyodrębnienie zapisuje plik wartość:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Rendering JavaScript

Another great option of Screaming Frog is that you aren’t limited to the HTML in the page, you can render any JavaScript that’s going to insert forms within your site. Within Konfiguracja> Spider, możesz przejść do zakładki Rendering i włączyć to.

Screaming Frog SEO Spider Rendering JavaScript

This does take a little longer to crawl the site, of course, but you’ll get forms that are rendered client-side by JavaScript as well as forms that are inserted server-side.

While this is a very specific application, it’s an incredibly useful one as you’re working with large sites. You’ll absolutely want to audit where your forms are embedded throughout the site.

Pobierz Screaming Frog SEO Spider

Co o tym myślisz?

Ta strona używa Akismet do redukcji spamu. Dowiedz się, jak przetwarzane są dane komentarza.