Seite 2 von 4 ErsteErste 1234 LetzteLetzte
Ergebnis 11 bis 20 von 31

Thema: Google und URLs als Klartext

  1. #11
    Postrank 8
    Registriert seit
    23.08.2011
    Ort
    Würzburg
    Beiträge
    1.492
    Ja, das ist es wirklich. Wenn ich meine eigenen Beiträge da mal so lese, dann würde ich auch fast denken "der spinnt", "unglaubwürdig" oder sonst was... Leider ist dem aber nicht so.... Ich habe die Sperrung in der robots.txt nun mal entfernt und die Datei umbenannt. Nun gibts bei jedem Zugriff einen 404... Freue mich dann ja schon drauf, wenn das andere "Log" in den WMT voll läuft

    Das ist der entscheidente Teil vom kalender.js. Ausgelöst wird das "kalender_open" durch einen "onclick" auf der eigentlichen Webseite.

    Code:
    function kalender_open(field_id)
    {
        // Vorhandene Box schließen
        if(kalender_opened)
        {
            kalender_close(kalender_opened);
        }
    
        kalender_opened = field_id;
    
        var cal = document.getElementById('cal_'+field_id);
        cal.style.zIndex = 30;
        var div = document.createElement("div");
        div.id = 'div_'+field_id;
        div.className = 'kalenderdiv';
        div.innerHTML = '<img style="" src="/js/mozilla_giallo.gif" width="32" height="32" class="borderfree" /> Lade Daten...';
    
        var closebutton = document.createElement("div");
        closebutton.id = 'close';
        closebutton.innerHTML = '<a href="javascript:void(0);" onclick="kalender_close('+field_id+');return false;"><b>[X]</b></a>';
    
        var kalenderbox = document.createElement("div");
        kalenderbox.id = 'kalenderbox';
    
        kalenderbox.appendChild(closebutton);
    
        div.appendChild(kalenderbox);
        cal.appendChild(div);
    }
    
    function kalender_load(field_id, year, month, format)
    {
        AjaxRequest('/js/kalender-div-neu.php?id='+field_id+'&y='+year+'&m='+month, function(data)
        {
            var newdiv = document.createElement("div");
            newdiv.innerHTML = data;
            var div = document.getElementById('div_'+field_id);
            div.innerHTML = '';
            div.appendChild(newdiv);
        });
    }
    So, bin dann mal gespannt, ob Google die neue URL nun wieder aufruft. So war es vorher auch, ist identisch, nur der Dateiname ist nun ein anderer.

    So, WMT-Test bringt auch das gleiche wie zuvor:
    URL
    /js/kalender-div-neu.js

    Googlebot
    Blockiert für Zeile 5: Disallow: /js/

    Googlebot-Mobile
    Blockiert für Zeile 5: Disallow: /js/

  2. #12
    Postrank 8
    Registriert seit
    23.08.2011
    Ort
    Würzburg
    Beiträge
    1.492
    @catcat
    Nein, bisher gibt es im Ranking keine Veränderungen. Dennoch tut Google hier ja was, was er nicht soll / darf. Wäre mir egal, aber es verhindert halt alle anderen "Auswertungen" von Fehlern, die wirklich welche sind.

  3. #13
    Platzwart Avatar von catcat
    Registriert seit
    10.06.2011
    Ort
    Kaunas
    Beiträge
    2.338
    Und wenn Du den Kalender einfach wegmachst?
    Oder erfüllt der ne wichtige Funktion für Deine User?
    Vielleicht kannste den ersetzen?

    btw: Vielleicht gräbt der bot erst seit Weihnachten den Kalender durch, weil er irgendwo verlinkt wurde?
    Habe eben beschlossen, an Easiophobie zu leiden.
    Und grade ist auch noch ne Pagophobie dazugekommen...
    catcat.cc/

  4. #14
    Postrank 8 Avatar von guppy
    Registriert seit
    09.08.2011
    Ort
    Gartz
    Beiträge
    1.096
    Und die Seiten sind verlinkt von? Also die WMT zeigen an, dass die Seiten von der eigenen Domain verlinkt sind und nicht von so einer Pseudosuchmaschine, die sich nicht an die robots.txt halten?
    Gestern war heute noch Morgen
    und
    manchmal rufe ich während einer Besprechung "Das bringt mich auf eine Idee!", verlasse den Raum, fahre Heim und leg mich ins Bett.

  5. #15
    Postrank 3
    Registriert seit
    22.08.2011
    Beiträge
    82
    Google hat vor einigen Monaten beschlossen, noch viel heftiger Deep Crawling zu betreiben als es früher schon der Fall war. Insbesondere auch POST Abfragen abzusenden, nicht nur GET Abfragen, die - wie auch bei Dir beobachtet - mit Parametern aufgefüllt wird.

    Ich habe auch 6-stellig durch Robots.txt eingeschränkte URLs allein aus einem Crawl über die Feiertage (25.-26.). Da die Robots.txt aber gut aufgebaut ist und für den Bot klar ist, welche Seiten er beachten muss und welche nicht, stört es mich nicht weiter, dass er nun meint, seinen "Durch Robots.txt eingeschränkt" Bereich soweit auffüllen zu müssen.

    Ebenso stören mich die Fehler bzw. 404 bei nicht existenten URLs, die meist durch Scraper SuMas oder ähnlichem Müll entstehen, nicht. Auch hier folgt Google der gleichen Deep Crawl Philosophie: Alles, was wie ein Link aussieht, wird gefolgt.

    Letzteres hat nur mein Usability Herz aufhorchen lassen, da ich nur allzugut jene 404 kenne, die entstehen, wenn Nutzer eigenständig Links per Mail verschicken und dabei der Link z.B. in einer Mail gebrochen wird, da die Nutzer kein < > verwenden. Oder sie kopieren nur den sichtbaren Teil aus dem URL Feld ihres Browsers, etc. Daher habe ich mich an einen Algo gemacht, der bei 404 erst "rät", ob er vll. die gewünschte URL aus der falschen herleiten kann und dann die Nutzer direkt per 301 weiterleitet. Für absolut dumme 404 gibt es weiter einen 404 (410 für Seiten, die mal existierten und gelöscht wurden).

    Ich würde also empfehlen, auf den Krams in den WMT nicht allzuviel zu geben. Stört nur, wenn man es nutzt, weil irgendwo auf der Seite tatsächlich Fehler sind und diese nun zwischen dem Rauschen schwerer zu finden sind. Ist aber auf der Seite alles richtig, die richtigen URLs im Index, die falschen per Robots.txt und noindex gesperrt, würde ich mir über die WMT Angaben keine Gedanken machen.

  6. #16
    Postrank 8
    Registriert seit
    23.08.2011
    Ort
    Würzburg
    Beiträge
    1.492
    Zitat Zitat von guppy Beitrag anzeigen
    Und die Seiten sind verlinkt von? Also die WMT zeigen an, dass die Seiten von der eigenen Domain verlinkt sind und nicht von so einer Pseudosuchmaschine, die sich nicht an die robots.txt halten?
    Gute Frage.... "Verlinkt von": "Nicht verfügbar"

  7. #17
    Platzwart Avatar von catcat
    Registriert seit
    10.06.2011
    Ort
    Kaunas
    Beiträge
    2.338
    Rischtisch @chis.
    Ich geb auch nich viel auf die Fehlermeldungen in den WMT.
    Ich crawle meine Sites sowieso selbst und suche da nach fehlerhaften Links.
    Geht schneller und ist zuverlässiger.
    Und 1 Blick in die robots.txt der Site und ein 2. Blick in die Sitestruktur genügen auch, um da Fehler zu erkennen.
    Habe eben beschlossen, an Easiophobie zu leiden.
    Und grade ist auch noch ne Pagophobie dazugekommen...
    catcat.cc/

  8. #18
    Postrank 8
    Registriert seit
    23.08.2011
    Ort
    Würzburg
    Beiträge
    1.492
    @Chris
    Ja, Post und Get selbst füllen... Aber über Seiten, auf die gar nicht zugegriffen werden darf?

    Wenn Google mir sagt, dass er die .js nicht aufrufen kann, da per robots.txt gesperrt, dann ist das logisch und verständlich, die steht ja auch im Quelltext. Wenn der mir aber dann sagt, dass die .php nicht darf, dann nicht mehr, denn die ist nur in der .js als AjaxRequest enthalten. Selbiges die "weiterführenden" Links der Monate, diese sind nur in der .php, die ja ihrerseits in der .js ist.

    Es muss auf der eigentlichen Seite also ein "onclick" durchgeführt werden, das dann eine JS-Funktion startet. Diese JS-Funktion lädt dann die Daten der .php (ajax) und bindet sie in die Seite ein.

    Deep-Crawling ist ja schön und gut, aber man muss dem doch sagen können: "Eh lass die Finger von der Seite und von den dort enthaltenen verlinkten Seiten und deren Links."

    Zumal das ja alles keine vollwertigen Seiten sind, sondern eben nur Rohdaten, die per JS in die Seite dann integriert werden (ein Div mit 2 Monatskalendern). Der Aufruf der .php direkt führt zudem zu Fehlern, da das benötigte Javascript ja gar nicht geladen wurde und die Funktionen für den Kalender und die Navigation gar nicht verfügbar sind.

    Der Output von der kalender.php (auf die er nicht zugreifen darf!) schaut so aus:
    Code:
    <div id="kalenderbox"><div id="close"><a href="javascript:void(0);" onclick="kalender_close('dv');return false;"><b>[X]</b></a></div><div class="nav">&lt; Jahr &lt; Monat  -  <a href="javascript:void(0);" onclick="kalender('dv','2012','2','ddmmyyyy');return false;">Monat &gt;</a> <a href="javascript:void(0);" onclick="kalender('dv','2012','12','ddmmyyyy');return false;">Jahr &gt;</a></div><div class="kalendermonat">
    <table>
    <tr>
    <th colspan="7" class="monat_jahr">Dezember 2011</th>
    </tr>
    <tr>
    <td class="wtag werktag">Mo</td>
    <td class="wtag werktag">Di</td>
    <td class="wtag werktag">Mi</td>
    <td class="wtag werktag">Do</td>
    <td class="wtag werktag">Fr</td>
    <td class="wtag samstag">Sa</td>
    <td class="wtag sonntag">So</td>
    </tr>
    <tr>
    <td class="anfang" colspan="3">&nbsp;</td>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','01.12.2011');return false;">1</a></td>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','02.12.2011');return false;">2</a></td>
    <td class="wo"><a href="javascript:void(0);" onclick="ins('dv','03.12.2011');return false;">3</a></td>
    <td class="wo"><a href="javascript:void(0);" onclick="ins('dv','04.12.2011');return false;">4</a></td>
    </tr>
    <tr>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','26.12.2011');return false;">26</a></td>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','27.12.2011');return false;">27</a></td>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','28.12.2011');return false;">28</a></td>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','29.12.2011');return false;">29</a></td>
    <td class="we"><a href="javascript:void(0);" onclick="ins('dv','30.12.2011');return false;">30</a></td>
    <td class="wo"><a href="javascript:void(0);" onclick="ins('dv','31.12.2011');return false;">31</a></td>
    <td class="ende" colspan="1">&nbsp;</td></tr>
    <tr><td class="ende" colspan="7">&nbsp;</td></tr>
    </table>
    </div>
    <div style="clear:left;"></div></div>
    Nur hier, im oberen Bereich, gibt es die Navi der Monate als onclick="kalender('dv','2012','2','ddmmyyyy');retu rn false;" . Um weiter zu kommen muss man also dieses onclick auch ausführen. Was dann aber auch nichts bringt, da die Funktion kalender() gar nicht geladen ist.

    Wenn der Wertenereich von 24 Monaten überschritten ist, dann ist die Navi gar nicht mehr da. Also ein onclick="kalender('dv','2016','2','ddmmyyyy');retu rn false;" gibt es nicht, schon gar kein 4200!

  9. #19
    Postrank 8
    Registriert seit
    23.08.2011
    Ort
    Würzburg
    Beiträge
    1.492
    @catcat
    Ist ja auch richtig, ich beachte den Bereich auch nicht sonderlich, aber ab und zu schon. Eben diese "Backlink" die keine echten sind, Google aber dennoch abruft, die stehen nur da. Auch hab ich da nun schon einige echte und gute Backlinks gefunden auf Seiten, die es bei mir gar nicht gibt (vielleicht mal 2005 oder so). Die zeigte mir kein Backlinkchecker an, die WMT schon, eben im Bereich 404-Fehler.

  10. #20
    Postrank 8
    Registriert seit
    23.08.2011
    Ort
    Würzburg
    Beiträge
    1.492
    So, wieder zurück zu dem eigentlichen Thema, Links in Klartext im Content.

    Für mich habe ich nun den Beweis, dass Google normale URLs als Text im Content erkennt und auch verfolgt, was auch für die ganzen Meldungen in den WMT spricht (nicht die robots.txt-Geschichte).

    Habe vor zwei Tagen auf meiner Startseite einfach mitten in den Text folgendes geschrieben:
    http://www.meine-domain.de/urlauben.php
    Ebenso Datei angelegt und eine Benachrichtigung integriert, wenn einer (egal wer) darauf zugreift.

    Und, heute um 8:57 Uhr kam die SMS:
    UA: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) IP: 66.249.66.231 END

Seite 2 von 4 ErsteErste 1234 LetzteLetzte

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  
Hosting und Domains | Seide | Darts | Impressum