WEBVTT 00:00:00.005 --> 00:00:04.925 Wir haben zum Beispiel im letzten Jahr entdeckt, dass IONOS alle Websites 00:00:04.925 --> 00:00:07.645 im Shared-Hosting-Paket erst mal prinzipiell blockiert hat. Also 00:00:07.745 --> 00:00:12.825 nicht alle Bots, aber die GPT- und die Claude-Bots. Das waren die AI-Trainer. Das 00:00:13.185 --> 00:00:16.845 heißt, auch wenn ich die Optimierung vorangetrieben habe, haben 00:00:17.405 --> 00:00:20.905 die vielleicht gar keine Früchte getragen, weil diese Bots komplett blockiert wurden 00:00:20.905 --> 00:00:24.725 und ich gar keine Chance hatte, quasi in die Knowledge Base der LLMs reinzukommen. 00:00:30.045 --> 00:00:33.645 Wer crawlt eigentlich gerade eure Webseite? Und warum? 00:00:34.025 --> 00:00:38.625 Diese Frage klingt nach SEO-Grundlagen, aber die Antwort hat sich in den letzten 00:00:38.625 --> 00:00:40.145 Monaten radikal verändert. 00:00:40.405 --> 00:00:44.305 Neben dem Google-Bot tauchen in euren Logfiles plötzlich ganz neue Namen auf. 00:00:44.445 --> 00:00:47.265 GPT-Bot, Claude-Bot, Perplexity-Bot und weitere. 00:00:47.785 --> 00:00:52.105 Manche davon trainieren Sprachmodelle, andere recherchieren in Echtzeit für 00:00:52.105 --> 00:00:57.865 KI-Antworten. Und die entscheidende Frage ist: Wisst ihr, welcher eurer 00:00:57.865 --> 00:01:01.385 Inhalte diese Bots tatsächlich abholen und was sie damit 00:01:01.905 --> 00:01:06.485 machen? Mit KI ändert sich nicht nur die Suche, sondern auch die Anforderungen an das technische 00:01:06.725 --> 00:01:09.585 SEO. Die neuen Bot-Typen bieten uns aber gleichzeitig eine 00:01:09.585 --> 00:01:14.485 Chance. Wir können ermitteln, welche unserer Inhalte in LLMs tatsächlich genutzt 00:01:14.485 --> 00:01:18.425 werden und daraus Rückschlüsse für Content und Prompt-Recherche 00:01:19.025 --> 00:01:25.385 ziehen. Meine nächste Speakerin hier beim Spotlight SEO für KI ist Juliane 00:01:25.505 --> 00:01:32.085 Bettinger. Sie ist Co-Founderin und Technical SEO Consultant bei der Jenaer SEO-Agentur SEOSOON. Seit 00:01:32.525 --> 00:01:37.365 2018 berät sie vor allem Publisher und Medienhäuser, also genau die Branche, die 00:01:37.565 --> 00:01:40.425 von den Veränderungen durch KI-Systeme besonders betroffen ist. 00:01:40.425 --> 00:01:44.645 Gemeinsam mit ihrem Team setzt sie SEO- und KI-Strategien nicht nur beratend, 00:01:44.705 --> 00:01:49.045 sondern auch operativ um, schult Inhouse-Teams und entwickelt maßgeschneiderte 00:01:49.045 --> 00:01:54.665 Dashboards und ist auf tollen Konferenzen wie dieser hier auch als Speakerin dabei. 00:01:54.925 --> 00:01:57.925 Ich freue mich sehr, dass du heute hier bist, liebe Juliane. 00:01:59.388 --> 00:02:03.148 Hallo Hendrik, vielen lieben Dank für die Anmoderation. Sehr, sehr gerne. 00:02:03.368 --> 00:02:07.308 Ja, wir haben ja wie gesagt keine Zeit und der Markus und ich, 00:02:07.408 --> 00:02:09.748 wir sammeln im Hintergrund natürlich auch wieder fleißig eure Fragen. 00:02:10.088 --> 00:02:14.028 Deshalb Juliane, die Bühne gehört dir. Am Ende gibt es eine kleine Fragerunde 00:02:14.028 --> 00:02:16.808 und ja, ich freue mich jetzt auf einen spannenden Vortrag. 00:02:19.278 --> 00:02:25.738 Ja, wir sprechen ja momentan aktuell alle sehr viel über Optimierung für AI Search, 00:02:25.938 --> 00:02:29.758 also wie wir Mentions und Citations gewinnen können, wie wir vielleicht auch 00:02:29.758 --> 00:02:33.718 den Sentiment beeinflussen, aber wir sprechen meines Erachtens viel zu wenig 00:02:33.718 --> 00:02:37.018 über die technischen und infrastrukturellen Voraussetzungen. 00:02:37.758 --> 00:02:41.018 Wenn ich jetzt mal eine ziemlich abgedroschene Baumetapher heranziehe, 00:02:41.018 --> 00:02:43.458 ist es so ein bisschen, als wenn wir uns um den Dachbau kümmern, 00:02:43.638 --> 00:02:49.698 um den Innenausbau, aber eigentlich keine Gedanken an die Wände und an das Fundament verschwenden. 00:02:50.758 --> 00:02:54.718 Und gerade halt auch in diesem Bereich der Basics, der technischen SEO-Basics, 00:02:55.338 --> 00:02:56.778 hat sich halt viel geändert. Die 00:02:56.958 --> 00:03:00.798 Rahmenbedingungen haben sich geändert. Denn wir haben aktuell zwei prinzipielle 00:03:00.798 --> 00:03:04.978 Herausforderungen, mit denen wir uns auseinandersetzen müssen. Wir 00:03:05.398 --> 00:03:12.018 haben zum einen, auf der einen Seite, eine extreme Zunahme an verfügbaren Dokumenten. Und 00:03:12.278 --> 00:03:15.918 das ist natürlich getrieben durch den ganzen AI-Content, der produziert 00:03:15.918 --> 00:03:18.138 und massenhaft veröffentlicht wird. Und der 00:03:18.138 --> 00:03:22.718 Google-CEO hat erst vor ein paar Monaten das schön quantifiziert, hat gesagt, 00:03:22.798 --> 00:03:26.698 dass sich die Anzahl der verfügbaren Inhalte in den letzten zwei Jahren um 00:03:26.698 --> 00:03:28.998 45 Prozent erhöht hat. Also 00:03:29.258 --> 00:03:34.778 45 Prozent mehr Inhalte, die Google ja auch irgendwie erst mal verarbeiten 00:03:35.578 --> 00:03:40.018 muss. Das heißt, wir haben in diesem Bereich eigentlich eine zunehmende 00:03:40.238 --> 00:03:42.278 Wettbewerbssituation, weil sich die Crawl-Kapazitäten nicht wirklich 00:03:43.058 --> 00:03:44.578 anpassen. Das heißt, wir müssen uns eigentlich hier die Frage 00:03:44.618 --> 00:03:49.358 stellen: Wie kriegen wir eigentlich noch unsere wichtigen und relevanten Inhalte gecrawlt und 00:03:50.338 --> 00:03:54.958 indexiert? Und auf der anderen Seite wiederum haben wir einen komplett neuen Typus an 00:03:55.318 --> 00:04:00.038 Crawlern, die AI-Bots. Und die fluten quasi unsere Server, also die scrapen unsere 00:04:00.038 --> 00:04:04.218 Inhalte im ganz großen Stil. Und hier müssen wir uns eigentlich die Frage stellen: 00:04:04.318 --> 00:04:06.938 Wie gehen wir denn mit dieser Flut an Anfragen um, 00:04:07.138 --> 00:04:10.458 ohne dass wir im Gegenzug noch wirklich nennenswerten, relevanten Traffic bekommen? 00:04:11.786 --> 00:04:15.466 Und diese beiden Entwicklungen machen das Thema Crawling wichtiger als je 00:04:15.466 --> 00:04:19.526 zuvor, weil da vielleicht noch mal ein ganz basic Schritt, 00:04:20.066 --> 00:04:21.846 den wir uns vor Augen halten sollten: 00:04:22.506 --> 00:04:25.526 Wenn wir das Crawling von unseren wichtigen Inhalten nicht sicherstellen können, 00:04:25.526 --> 00:04:29.426 dann werden sie nicht indexiert, in der Folge können sie nicht ranken und 00:04:29.426 --> 00:04:33.026 damit habe ich halt auch keine Sichtbarkeit in Google, Bing und allen anderen klassischen 00:04:33.026 --> 00:04:34.206 Suchindizes. Soweit 00:04:35.353 --> 00:04:37.753 ist das, glaube ich, ganz klar, aber jetzt müssen wir uns ja auch noch 00:04:37.753 --> 00:04:40.173 einen Schritt weiterdenken. Weil wenn wir das nicht sicherstellen, 00:04:40.253 --> 00:04:43.293 dann haben wir aber auch mittlerweile keine Sichtbarkeit oder eine verringerte 00:04:43.293 --> 00:04:46.053 Chance auf Sichtbarkeit in LLM-Antworten. 00:04:46.273 --> 00:04:50.313 Weil die nutzen in diesem Retrieval-Prozess, im Grounding, die Indexdaten der 00:04:50.313 --> 00:04:52.113 klassischen Suchmaschinen. Und wenn 00:04:52.113 --> 00:04:56.693 ich dort nicht stattfinde, kann ich auch mit sehr geringer Wahrscheinlichkeit nur in 00:04:56.693 --> 00:04:57.953 den LLMs stattfinden. Das heißt: 00:04:58.533 --> 00:05:02.793 Crawling ist mittlerweile wichtig für zwei Suchsysteme. Und 00:05:03.273 --> 00:05:08.093 das bedeutet halt auch, dass wir uns um unsere technischen SEO-Basics Gedanken machen müssen. Das 00:05:08.213 --> 00:05:11.313 sollten wir schon immer eigentlich, aber es wird immer noch wichtiger. 00:05:11.713 --> 00:05:15.373 Und das bedeutet: Wir sollten uns um ein gutes URL-Inventar kümmern. Wir 00:05:15.473 --> 00:05:20.673 brauchen eine saubere und schnelle Server-Performance und eine gute Website-Struktur. Und 00:05:21.473 --> 00:05:24.393 das sind eigentlich Themen, wie gesagt, um die hätten wir uns schon lange 00:05:24.393 --> 00:05:26.793 kümmern sollen und um die kümmern wir uns in der Regel auch. 00:05:28.053 --> 00:05:31.573 Aber jetzt gibt es noch mal eine neue Anspruchsgruppe, nämlich die 00:05:32.593 --> 00:05:35.993 KI-Crawler. Und während wir halt bei den Search-Crawlern mittlerweile diese 00:05:35.993 --> 00:05:39.953 Herausforderung haben, dass wir um Crawl-Kapazitäten kämpfen müssen, dass es eine 00:05:39.953 --> 00:05:43.793 Wettbewerbssituation ist, haben wir nun bei den AI-Bots oftmals die Situation, dass sie teilweise 00:05:43.793 --> 00:05:44.813 mehr crawlen, als uns lieb 00:05:45.453 --> 00:05:48.893 ist. Man sieht, sie haben mittlerweile in den letzten zwei Jahren massiv aufgeholt. 00:05:48.993 --> 00:05:52.753 Also sie stellen mittlerweile 21 Prozent der gesamten Bot-Aktivitäten dar. 00:05:52.993 --> 00:05:56.353 Plus noch mal die ganzen AI Searches. Das ist 00:05:56.793 --> 00:05:59.493 halt extrem. Und wir sehen halt auch, wenn wir uns noch mal 00:05:59.813 --> 00:06:02.033 andere Charts anschauen, wie exponentiell 00:06:02.873 --> 00:06:07.173 das gewachsen ist. Der GPT-Bot zum Beispiel hatte letztes Jahr von einem Monat auf 00:06:07.173 --> 00:06:09.833 den anderen die Crawl-Aktivität verdreifacht. 00:06:10.293 --> 00:06:15.093 Also das ist höchst volatil und unvorhersehbar, wie diese Crawl-Aktivitäten 00:06:15.093 --> 00:06:16.573 der AI-Bots sich gestalten. 00:06:18.053 --> 00:06:21.113 Und wenn wir jetzt halt von diesen ganzen verschiedenen AI-Bots sprechen, 00:06:21.213 --> 00:06:23.473 ist es noch mal auch sehr wichtig, die zu 00:06:23.913 --> 00:06:29.313 klassifizieren. Weil es ist wichtig zu verstehen, wie die funktionieren, was die für einen 00:06:29.313 --> 00:06:32.193 Sinn und Zweck haben, damit wir auch wissen, wie wir mit denen umgehen und wie 00:06:32.193 --> 00:06:33.793 wir die vielleicht auch sogar für uns nutzen können. 00:06:35.024 --> 00:06:40.664 Dafür würde ich die in vier Kategorien packen, die sich nach Zweck ein bisschen unterscheiden. 00:06:40.904 --> 00:06:43.304 Die erste Kategorie, das sind die AI-Trainer. 00:06:44.104 --> 00:06:47.844 Das ist zum Beispiel ganz klassisch von OpenAI der GPT-Bot. 00:06:47.984 --> 00:06:52.384 Und die sind dazu da, die Daten zu scrapen. Und mit diesen Daten werden dann 00:06:52.384 --> 00:06:54.364 die entsprechenden Modelle trainiert. 00:06:54.484 --> 00:07:00.684 Also das sind die ganz klassischen großen Datensammler zum Trainieren der LLMs. 00:07:01.604 --> 00:07:05.884 Die nächste Kategorie, und die sind tatsächlich für die SEOs sehr spannend, 00:07:06.024 --> 00:07:07.404 das sind die AI-Assistants. 00:07:08.084 --> 00:07:13.224 Und jedes Modell, also OpenAI hat neben dem GPT-Bot zum Beispiel noch den ChatGPT-User-Bot 00:07:13.224 --> 00:07:14.384 und andere Modelle halt auch. 00:07:14.504 --> 00:07:17.644 Also jeder hat eigentlich neben dem AI-Trainer auch einen AI-Assistant. 00:07:17.644 --> 00:07:21.984 Und diese AI-Assistants, das sind nun diese Echtzeitabrufe. 00:07:22.064 --> 00:07:27.504 Das heißt, wenn ich in ChatGPT eine Frage stelle und ein Crawling-Prozess ausgelöst wird, 00:07:28.244 --> 00:07:33.504 dann Subqueries entstehen und da ein Relevanzset an URLs dazu zur Beantwortung 00:07:33.504 --> 00:07:40.764 der Fragen genutzt werden, dann werden diese URLs in dieser Zeit gecrawlt durch diesen AI-Assistant. 00:07:41.024 --> 00:07:43.084 Das heißt, wir haben hier wirklich eine 1:1-Relation. 00:07:44.597 --> 00:07:48.317 Die dritte Kategorie, das sind die AI-Search-Crawler. Und im Gegensatz zu diesem 00:07:48.317 --> 00:07:52.357 Echtzeitabruf sind die eher asynchron 00:07:52.517 --> 00:07:56.877 unterwegs. Das heißt, ganz oft kommen die halt auch nach den AI-Assistants und 00:07:56.877 --> 00:08:00.237 crawlen noch mal im großen Stil die ganzen verbundenen Ressourcen, 00:08:01.297 --> 00:08:02.917 die robots.txt. Also das sind die ganz 00:08:03.417 --> 00:08:08.157 großen Datensammler. Und die sind offiziell dafür da, um die Such- und 00:08:08.677 --> 00:08:12.517 Indexdaten zu verbessern. Was das ganz genau im Detail heißt, da kann man 00:08:12.597 --> 00:08:15.137 jetzt nur aus den Crawl-Mustern ein bisschen 00:08:15.657 --> 00:08:19.397 Rückschlüsse ziehen. Also sehr wahrscheinlich sind sie dazu da, um halt auch ein 00:08:19.397 --> 00:08:21.637 Caching mit zu unterstützen, einen eigenen 00:08:22.177 --> 00:08:26.377 Index mit aufzubauen. Eventuell werden auch im Hintergrund natürlich die Daten für 00:08:26.577 --> 00:08:30.877 Trainingszwecke genutzt. Man kann es nicht hundertprozentig sagen. Die Informationen sind hier 00:08:31.917 --> 00:08:35.797 tatsächlich relativ dünn. Die vierte Kategorie, und ich glaube, die sind auch in den 00:08:35.797 --> 00:08:38.837 letzten Wochen noch sehr viel prominenter geworden, das 00:08:39.277 --> 00:08:43.817 sind die AI-Agents. Das haben wir zum Beispiel ganz prominent in ChatGPT 00:08:43.817 --> 00:08:47.317 als Operator mit integriert oder halt auch sehr viele eigenständige Agents, 00:08:47.497 --> 00:08:51.217 die es mittlerweile gibt. Und wie die AI-Assistants haben die quasi so eine 00:08:51.797 --> 00:08:56.117 1:1-Relation. Auch hier wird durch einen User eine Interaktion getriggert. 00:08:56.217 --> 00:08:59.637 Aber das ist wirklich hier kein Abruf, sondern eine Interaktion mit einer Seite. 00:09:01.543 --> 00:09:06.723 Und diese vier verschiedenen AI-Bot-Typen, die bringen jetzt nun, 00:09:06.883 --> 00:09:08.983 ja, ich würde sagen, geänderte Anforderungen mit sich. 00:09:09.063 --> 00:09:12.723 Es sind nicht unbedingt neue, aber wir müssen andere Fragen stellen. 00:09:12.723 --> 00:09:16.663 Und wir müssen hier erst mal Grundlagen schaffen, die wir bis jetzt nicht 00:09:17.683 --> 00:09:23.123 hatten. Deswegen die Frage: Was ist eigentlich wichtig, wenn wir über 00:09:23.123 --> 00:09:27.503 KI-Crawler sprechen und um Basics und um bestmögliche Sichtbarkeit in LLMs 00:09:28.323 --> 00:09:32.343 zu gewährleisten? Und die erste, für mich auch wirklich wichtigste Frage, die oft viel 00:09:32.343 --> 00:09:35.663 zu kurz kommt, ist: Können denn die KI-Crawler 00:09:36.643 --> 00:09:40.123 überhaupt zugreifen? Weil oftmals werden Optimierungsmaßnahmen ergriffen, ohne 00:09:40.223 --> 00:09:42.023 zu prüfen, ob es überhaupt strukturelle 00:09:42.363 --> 00:09:46.483 Barrieren gibt. Also es gibt viele Optionen über den CDN, Firewall, direkt durch 00:09:46.563 --> 00:09:50.223 den Hoster, also alles, was serverseitig irgendwie diese ganzen 00:09:51.983 --> 00:09:55.423 Bot-Anfragen blockiert. Und das Problem ist halt, wenn man das 00:09:55.543 --> 00:09:58.843 bewusst einrichtet, ist das okay. Aber viele wissen gar nicht, dass es diese 00:09:58.943 --> 00:10:01.083 Barrieren gibt, weil sie sich nicht aktiv dafür entschieden 00:10:01.523 --> 00:10:05.183 haben. Wir haben zum Beispiel im letzten Jahr entdeckt, dass IONOS alle 00:10:05.203 --> 00:10:09.043 Websites im Shared-Hosting-Paket erst mal prinzipiell blockiert hat. Also 00:10:09.063 --> 00:10:14.203 nicht alle Bots, aber die GPT- und die Claude-Bots. Das waren die AI-Trainer. Das heißt, 00:10:14.583 --> 00:10:18.223 auch wenn ich die Optimierung vorangetrieben habe, haben die 00:10:18.823 --> 00:10:22.283 vielleicht gar keine Früchte getragen, weil diese Bots komplett blockiert wurden 00:10:22.283 --> 00:10:26.103 und ich gar keine Chance hatte, quasi in die Knowledge Base der LLMs reinzukommen. 00:10:26.943 --> 00:10:31.183 Wir haben jetzt ganz frisch auch eine eigene Studie dazu durchgeführt und haben 00:10:31.183 --> 00:10:36.323 uns 1.600 Domains angeschaut und mal geguckt: Wie weit verbreitet ist eigentlich dieses Problem? 00:10:37.383 --> 00:10:42.663 Und tatsächlich sind es doch 15 Prozent, wo so eine Blockade stattfindet. 00:10:42.743 --> 00:10:47.643 Also 15 Prozent aller untersuchten Domains hatten mindestens einen Bot blockiert. 00:10:47.643 --> 00:10:50.483 Und wir haben hier wirklich nur die relevantesten Bots genommen, 00:10:50.723 --> 00:10:53.863 also die, die für AI-Assistant und AI-Training zuständig 00:10:54.563 --> 00:10:58.783 sind. Wenn man dazu noch den Meta-External und den Bytespider nimmt, dann liegen 00:10:58.903 --> 00:11:00.583 wir sogar bei fast 30 Prozent. Das ist 00:11:00.883 --> 00:11:04.463 schon eine ordentliche Hausnummer. Wenn man sich das dann auch mal anguckt, wie sich 00:11:04.523 --> 00:11:09.243 das verteilt nach Website-Größe, sieht man, dass vor allem auch die Kleinen und 00:11:09.243 --> 00:11:11.383 sehr Kleinen davon betroffen sind. Meine Vermutung 00:11:12.263 --> 00:11:15.543 ist: Das liegt natürlich sehr stark am Hoster. Während die 00:11:15.983 --> 00:11:20.423 Großen, gehe ich ganz stark davon aus, eher bewusst blockieren, ist es 00:11:20.423 --> 00:11:23.143 bei den Kleinen und Mittleren unbewusst. Das heißt, 00:11:23.323 --> 00:11:27.663 hier gilt es halt wirklich, das zu testen, ob ich überhaupt erst mal für 00:11:27.663 --> 00:11:29.443 KI-Bots erreichbar bin. Und 00:11:30.303 --> 00:11:34.103 das kann ich entweder manuell machen über einen User-Agent-Switcher, da 00:11:34.243 --> 00:11:37.143 gibt es ganz viele Optionen. Kann man auch im Screaming Frog theoretisch 00:11:37.143 --> 00:11:38.923 machen, aber dann immer nur einzeln pro Bot. 00:11:39.143 --> 00:11:43.643 Oder es gibt auch schon verschiedene Tools. Wir haben auch schon für uns einen 00:11:43.643 --> 00:11:47.683 kleinen KI-Bot-Checker gebaut, wo wir das halt einfach domainweit checken können. 00:11:49.100 --> 00:11:52.440 Die zweite Frage in diesem Bereich „Können die KI-Crawler zugreifen?“ 00:11:52.520 --> 00:11:53.580 ist jetzt auch relativ neu. 00:11:54.580 --> 00:11:59.400 Denn erst vor wenigen Wochen hat Bing die Dokumentation angepasst, oder 00:11:59.480 --> 00:12:04.700 es ist jedenfalls erst mal bekannt geworden, dass Bing diesen 00:12:04.840 --> 00:12:06.880 Meta-Tag noarchive jetzt anders 00:12:07.100 --> 00:12:10.980 interpretiert. Der wird historisch gesehen schon lange von Google nicht mehr genutzt. Der war 00:12:11.280 --> 00:12:16.840 ursprünglich dazu da, dass gecachte Versionen nicht in den SERPs angezeigt werden. Bing hat 00:12:17.520 --> 00:12:20.480 jetzt einfach gesagt: Okay, wir nehmen jetzt diesen Tag und geben dem noch mal 00:12:20.480 --> 00:12:21.660 eine neue Bedeutung. Das 00:12:21.740 --> 00:12:25.660 heißt: Wenn du diesen Meta-Robots-Tag noch irgendwo im Quelltext hast, dann 00:12:26.160 --> 00:12:30.620 werden diese Inhalte nicht für Copilot und den Bing Chat genutzt und 00:12:30.620 --> 00:12:32.700 auch nicht als Trainingsdaten für 00:12:33.500 --> 00:12:37.920 Copilot. Das heißt, auch das sollte man einfach noch mal prüfen. Gerade im Publishing-Bereich 00:12:38.060 --> 00:12:41.240 wurde das historisch doch gerne genutzt. Und 00:12:41.580 --> 00:12:44.840 da habe ich es tatsächlich bei mehreren Publishern gefunden. Also 00:12:44.840 --> 00:12:49.680 auch das ist ein Thema: Wenn man Sichtbarkeit in Bing-Systemen wie Copilot 00:12:49.680 --> 00:12:54.800 haben möchte, sollte man prüfen, ob man noch diesen Meta-Tag irgendwo integriert hat. 00:12:56.525 --> 00:12:59.765 Jetzt kommen wir zur zweiten Frage. Jetzt haben wir erst mal Barrieren 00:12:59.905 --> 00:13:02.305 abgebaut, also alles, was uns vielleicht nicht wirklich bewusst 00:13:02.765 --> 00:13:07.605 war. Und jetzt kommt eher die Frage: Dürfen, sollen denn die KI-Crawler überhaupt 00:13:07.785 --> 00:13:12.385 zugreifen? Und da kann ich neben diesen serverseitigen Blockaden auch mit der robots.txt 00:13:13.025 --> 00:13:16.305 arbeiten. Also hier kann ich prinzipiell Scraping 00:13:17.525 --> 00:13:21.285 verhindern. Und in dem Zusammenhang wird viel zu selten die Frage diskutiert: Wie 00:13:21.285 --> 00:13:24.525 gehen wir denn überhaupt mit unseren vielleicht exklusiven Inhalten um 00:13:24.525 --> 00:13:27.565 oder mit unseren Inhalten, die momentan schon auf noindex stehen? Das 00:13:27.785 --> 00:13:30.305 hat ja bestimmt einen Grund, warum die auf noindex stehen. Und 00:13:30.545 --> 00:13:34.545 auch diese Fragen sollte ich mir eigentlich sehr explizit stellen. Wenn ich 00:13:35.365 --> 00:13:40.125 dann jetzt aber über die robots.txt nachdenke und die gerne einsetzen möchte, 00:13:40.125 --> 00:13:45.405 muss ich mir bewusst sein, dass die robots.txt nicht global funktioniert. Zum 00:13:45.905 --> 00:13:50.425 Beispiel Perplexity versteht sie eher als nett gemeinten Hinweis und nicht 00:13:50.425 --> 00:13:51.505 als wirkliche Direktive. 00:13:51.865 --> 00:13:55.965 Aber auch die AI-Agents halten sich nicht daran. 00:13:56.085 --> 00:13:59.065 Und das hat einfach damit zu tun, dass die einen Headless-Browser nutzen 00:13:59.065 --> 00:14:04.105 und damit eine ganz normale Browser-Erkennung und da auch nicht die robots.txt noch mal abfragen. 00:14:04.665 --> 00:14:06.385 Dessen muss man sich bewusst sein. 00:14:07.625 --> 00:14:11.485 Und als letzten Punkt: Wenn ich die robots.txt einsetze, muss ich mir 00:14:11.485 --> 00:14:13.465 auch bewusst sein, dass es keine rückwirkende Maßnahme 00:14:13.765 --> 00:14:17.905 ist. Das heißt, meine Inhalte sind meistens schon in der Knowledge Base auch zum 00:14:18.125 --> 00:14:21.805 Teil enthalten. Das wird damit also nicht entfernt. Und ich bin natürlich auch 00:14:21.805 --> 00:14:25.265 durch andere Websites irgendwo verlinkt, erwähnt. Auch 00:14:25.445 --> 00:14:27.945 das wird sich damit natürlich nicht auflösen. 00:14:30.642 --> 00:14:33.062 Die nächste Frage, die ich auch sehr wichtig finde, ist das 00:14:33.342 --> 00:14:35.842 Thema: Wie reagiert mein Server? Wie performt 00:14:36.662 --> 00:14:39.762 mein Server? Wir müssen uns ja mal vorstellen: Wir haben jetzt eigentlich 00:14:39.762 --> 00:14:43.782 neben diesen ganz normalen User-Hits und den ganzen Search-Bots 00:14:43.842 --> 00:14:49.902 und allen anderen Bot-Typen, die es da schon gab, noch mal so eine riesengroße neue Gruppe 00:14:50.342 --> 00:14:54.142 an Crawlern, die auch massiv crawlen. Und das belastet die 00:14:54.302 --> 00:14:58.702 Server. Deswegen reagieren die Hoster auch teilweise so, dass sie einzelne Bot-Typen blockieren. 00:14:59.262 --> 00:15:03.162 Und wir müssen das wirklich im Blick behalten. Wir müssen stabile Serverantworten 00:15:03.162 --> 00:15:07.622 sicherstellen und es muss vor allem Spielraum da sein. Denn die 00:15:07.622 --> 00:15:11.102 AI-Bots crawlen teilweise sehr volatil. Das heißt, ich brauche hier 00:15:11.182 --> 00:15:14.102 auch ein bisschen Kapazitäten nach oben. Ich habe es in den 00:15:14.102 --> 00:15:17.542 letzten Monaten wirklich mehrfach erlebt, dass Server immense Probleme 00:15:17.742 --> 00:15:23.002 hatten, teilweise Downtimes hatten. Und hier gilt es, Time to 00:15:23.002 --> 00:15:28.182 First Byte zu monitoren, die Page Performance im Blick zu haben. Ich habe jetzt 00:15:28.682 --> 00:15:30.982 hier mal einen Screenshot von der Google Search Console, von den 00:15:31.162 --> 00:15:32.182 Crawling-Statistiken. Das ist 00:15:32.482 --> 00:15:36.442 für eine Trendentwicklung ganz spannend, aber nicht für ein kurzfristiges Monitoring, 00:15:36.442 --> 00:15:39.942 weil die einen dreitägigen Verzug haben. Bis dahin hat das jeder 00:15:39.942 --> 00:15:41.982 selber gemerkt, dass er Probleme mit dem Server hat. Aber 00:15:42.162 --> 00:15:44.622 für eine Trendentwicklung auf jeden Fall super spannend. 00:15:46.867 --> 00:15:50.327 Die nächste Frage, die ich mir stellen sollte in Richtung 00:15:50.487 --> 00:15:56.707 „Können LLMs meine Inhalte lesen?“, ist: Wie ist denn mein ganzer Quelltext aufgebaut? Und ich 00:15:57.267 --> 00:16:02.147 denke, viele haben das mittlerweile schon gehört, dass AI-Bots nicht rendern. 00:16:02.147 --> 00:16:04.127 Sie führen JavaScript nicht aus. Das 00:16:04.587 --> 00:16:08.447 heißt, alles, was irgendwie über JavaScript nachgeladen wird, ist nicht sichtbar. 00:16:08.567 --> 00:16:11.687 Wenn ich etwas habe, was ich verstecken will, kann ich es schön in JavaScript 00:16:11.747 --> 00:16:15.127 packen. Das ist wahrscheinlich super. Aber ansonsten gilt: Alles, was 00:16:15.587 --> 00:16:18.587 relevant ist, sollte im initialen HTML sein. 00:16:19.727 --> 00:16:23.687 Dann bilderlastige Seiten oder Seiten mit viel Video- und 00:16:23.767 --> 00:16:25.627 Audiocontent. Auch das hat Nachteile. 00:16:26.607 --> 00:16:31.387 KI-Bots können die verarbeiten, aber wenn wir an das Grounding denken, 00:16:31.647 --> 00:16:34.467 dann werden Text-HTMLs bevorzugt. Da werden 00:16:34.527 --> 00:16:37.847 keine Video- und Audio-Inhalte für das Grounding verarbeitet. Das heißt, 00:16:37.847 --> 00:16:41.767 auch dahingehend müssen wir prüfen, wie wir diese Inhalte vielleicht in unseren 00:16:41.767 --> 00:16:44.707 Content-Bereich bekommen. Und in dem Zusammenhang finde 00:16:44.907 --> 00:16:48.687 ich auch strukturierte Daten auf jeden Fall immer noch sinnvoll und hilfreich. 00:16:48.687 --> 00:16:52.647 Ich weiß, das wird viel diskutiert. Sind strukturierte Daten in 00:16:52.887 --> 00:16:55.707 Richtung LLMs relevant? Haben die einen 00:16:55.987 --> 00:16:58.527 Impact? Können die gelesen werden? Aber unabhängig davon: 00:16:58.947 --> 00:17:03.447 Wir brauchen sie trotzdem auch für das klassische SEO, für die 00:17:03.587 --> 00:17:08.827 AIOs, für den KI-Modus von Google. Und gerade für erklärungswürdige Inhalte, wie 00:17:08.947 --> 00:17:10.927 es zum Beispiel Videos und Audios sind, 00:17:11.287 --> 00:17:15.527 die für Crawler doch schwerer zu verarbeiten sind, ist es auf jeden Fall 00:17:15.547 --> 00:17:19.187 hilfreich, hier über strukturierte Daten Semantik anzureichern. 00:17:21.161 --> 00:17:24.781 Und zu guter Letzt, Stichwort Semantik: Auch unser ganzer Code sollte semantisch 00:17:24.781 --> 00:17:28.961 gut aufbereitet sein. Weil wir sprechen hier von Large Language Models. 00:17:29.141 --> 00:17:32.241 Das heißt, die können mit Sprache sehr gut umgehen, also sollten wir 00:17:32.241 --> 00:17:33.821 ihnen auch Sprache geben – 00:17:34.121 --> 00:17:37.441 auch in unserem Code. Das heißt, sie sollten Absätze gut erkennen 00:17:37.721 --> 00:17:39.121 können. Sie sollten zum 00:17:39.801 --> 00:17:42.961 Beispiel, wenn ich eine Tabelle habe, diese nicht in einen Div-Container packen und 00:17:43.641 --> 00:17:48.161 mit CSS stylen, sondern das Tag table verwenden. Das hilft den LLMs. 00:17:48.381 --> 00:17:50.661 Das ist sehr basic, aber auch 00:17:51.461 --> 00:17:55.561 das ist ein Schritt dahin. Wenn wir all diese Ebenen jetzt mal zusammennehmen, 00:17:55.561 --> 00:18:01.001 dann ist das für mich so das Framework, womit man gute Basics 00:18:01.761 --> 00:18:06.741 für KI und für SEO schafft. Die unteren Ebenen, also 00:18:06.741 --> 00:18:07.961 die Crawling- und Zugriffssteuerung 00:18:08.261 --> 00:18:11.781 und die Serverkapazitäten, hatten wir gerade besprochen. Die orange Ebene ist nun alles 00:18:11.781 --> 00:18:17.061 das, was wir eigentlich im klassischen SEO machen. Also hier 00:18:17.061 --> 00:18:20.581 müssen wir das Crawling sicherstellen durch eine gute URL-Struktur 00:18:20.661 --> 00:18:23.541 und durch ein gutes URL-Inventar. Denn wir 00:18:23.801 --> 00:18:27.861 müssen uns vorstellen: Wenn wir Millionen dynamischer Parameter haben, eine schlechte 00:18:28.221 --> 00:18:30.081 interne Verlinkung, wo schon die normalen 00:18:30.081 --> 00:18:34.221 Search-Crawler nicht gut durchkommen, dann werden die AI-Bots sicherlich auch scheitern. Auch das ist 00:18:34.221 --> 00:18:35.681 noch ein Punkt, den wir 00:18:36.581 --> 00:18:41.061 in dem Zusammenhang mit Basics diskutieren und im Blick behalten müssen. 00:18:42.081 --> 00:18:44.061 Und wenn wir diese ganzen Ebenen sichergestellt haben, dann haben wir 00:18:44.061 --> 00:18:48.981 eigentlich erst mal ein gutes Setup geschaffen. Dann sind wir so weit, dass wir sagen: Okay, wir haben jetzt erst mal 00:18:49.681 --> 00:18:53.641 die Basics erfüllt. Jetzt können wir in Optimierungsmaßnahmen investieren und weiterdenken. 00:18:54.821 --> 00:18:58.261 Und das tun wir jetzt nämlich auch. Denn wir können auch im Bereich 00:18:58.261 --> 00:19:05.821 des technischen SEOs schon gewisse Inputs liefern und Monitoring aufzeigen, 00:19:05.821 --> 00:19:07.281 wie LLMs unsere 00:19:07.741 --> 00:19:10.721 Seite sehen und verstehen. Und das können 00:19:11.866 --> 00:19:18.706 wir wunderbar über Logfiles tun. Logfiles sind Protokolldateien, die jeden 00:19:19.386 --> 00:19:24.486 Request an diesem Webserver protokollieren. Und wir müssen uns vorstellen: Logfiles sind 00:19:24.926 --> 00:19:28.246 quasi unsere Analytics für Crawler. Wir können damit 00:19:28.526 --> 00:19:31.326 großartige Analysen machen. Wir haben hier bestimmte Informationen und können 00:19:31.326 --> 00:19:36.206 zum Beispiel herausfinden: Welche KI-Bots dominieren bei mir auf der Domain 00:19:36.546 --> 00:19:41.746 das Crawling? Welche URLs rufen die KI-Bots auf? Wie schnell wird eine 00:19:41.746 --> 00:19:45.106 komplett neue URL durch welchen KI-Bot gefunden? Also 00:19:45.426 --> 00:19:48.706 wir können damit ziemlich viele großartige Analysen machen. 00:19:50.126 --> 00:19:53.166 Und für alle, die vielleicht noch nicht mit Serverlogs gearbeitet haben, 00:19:53.166 --> 00:19:56.466 noch keine Logfile-Analyse gemacht haben, fragen sich jetzt 00:19:56.586 --> 00:19:58.786 vielleicht: Okay, wo finde ich denn eigentlich 00:19:59.386 --> 00:20:03.966 meine Serverlogs? Das ist wiederum ein bisschen abhängig davon, auf welcher Umgebung eure 00:20:04.946 --> 00:20:09.726 Seite läuft. Ich würde mal sagen, der Klassiker für eine mittelgroße Seite 00:20:09.726 --> 00:20:13.646 ist vielleicht ein Managed Hoster, eventuell noch in Kombination mit einem 00:20:13.906 --> 00:20:17.586 CDN. Und je größer die Website-Strukturen werden, umso eher 00:20:17.586 --> 00:20:20.266 ist es wahrscheinlich eine Cloud-Lösung oder 00:20:20.966 --> 00:20:26.426 eine eigene Server-Konfiguration. Aber eigentlich egal, welche dieser Optionen 00:20:26.486 --> 00:20:28.906 ihr vorfindet: Ihr solltet in der Regel immer die 00:20:28.906 --> 00:20:31.666 Möglichkeit haben, die Logs zu 00:20:31.786 --> 00:20:36.066 exportieren oder zu transferieren. Also theoretisch gibt es immer die 00:20:37.394 --> 00:20:41.134 Option, auf die Serverlogs zuzugreifen. Und wenn ihr damit arbeiten wollt, dann kann 00:20:41.834 --> 00:20:45.294 ich euch nur empfehlen: Sprecht mit dem Server-Admin oder 00:20:45.454 --> 00:20:49.714 dem technischen Betrieb, wie das bei euch heißt, und sagt, dass ihr diese 00:20:49.714 --> 00:20:53.974 Logfiles für KI-Analysen braucht. Denn damit könnt ihr eure Sichtbarkeit 00:20:53.974 --> 00:20:55.094 in Large Language Models 00:20:55.094 --> 00:20:59.414 sichtbar machen. Und mit diesem Argument bekommt man die Serverlogs 00:20:59.974 --> 00:21:02.794 mittlerweile auch. In der Vergangenheit war es erfahrungsgemäß 00:21:02.814 --> 00:21:08.054 immer relativ schwer, daran zu kommen. Da waren Themen 00:21:08.774 --> 00:21:12.274 wie Datenschutz oder der Aufwand oft ein Hindernis. Aber mit 00:21:12.334 --> 00:21:16.194 dem Thema KI-Analyse bekomme ich die mittlerweile in zwei bis drei Tagen. 00:21:17.991 --> 00:21:21.131 So, wie sieht denn jetzt so ein Logfile-Eintrag 00:21:21.971 --> 00:21:25.051 überhaupt aus? Das ist jetzt auf den ersten Blick vielleicht 00:21:25.151 --> 00:21:28.711 ein bisschen kryptisch, aber wir brauchen davon gar nicht viel. Insgesamt ist 00:21:29.171 --> 00:21:33.911 es auch relativ leicht zu verstehen. Wir haben 00:21:34.091 --> 00:21:37.111 eigentlich vier Komponenten, die wir daraus insbesondere brauchen. Einmal den 00:21:37.211 --> 00:21:38.471 Zeitstempel. Der sagt 00:21:39.131 --> 00:21:43.711 uns ganz genau: Wann wurde überhaupt gecrawlt? Dann haben wir den 00:21:44.831 --> 00:21:47.351 URL-Pfad. Der sagt uns: Was wurde überhaupt gecrawlt? Dann 00:21:47.451 --> 00:21:50.651 gibt es noch den Status-Code. Der sagt 00:21:51.411 --> 00:21:55.291 wiederum: Wie hat unser Server auf diesen Request reagiert? Und 00:21:55.371 --> 00:21:56.931 zu guter Letzt haben wir 00:21:57.151 --> 00:22:00.011 noch den User-Agent-String. Das ist immer das, was 00:22:00.651 --> 00:22:06.131 am kryptischsten aussieht. Er sagt uns aber: Wer hat denn hier überhaupt 00:22:06.631 --> 00:22:10.631 gecrawlt? Und das ist jetzt das 00:22:11.071 --> 00:22:15.911 Spannende. Denn wir erinnern uns noch einmal an unsere vier 00:22:15.991 --> 00:22:18.571 AI-Bot-Typen. Die können wir 00:22:19.191 --> 00:22:24.091 anhand des User-Agent-Strings identifizieren. Mit einer Ausnahme: Die AI-Agents benutzen eine normale 00:22:25.131 --> 00:22:28.331 Browser-Kennung. Damit sind sie in den Logfiles 00:22:28.371 --> 00:22:32.411 nicht ohne Weiteres zu identifizieren. Deswegen: Wenn ihr Logfile-Analysen 00:22:32.511 --> 00:22:36.131 macht und Sichtbarkeit analysieren wollt, dann konzentriert 00:22:36.191 --> 00:22:38.871 euch auf die AI-Trainer und die 00:22:39.391 --> 00:22:43.111 AI-Assistants. Denn die haben einfach den höchsten Informationsgehalt. 00:22:44.231 --> 00:22:47.391 Das hat wiederum mit den Antwortprozessen der LLMs zu tun. Man kann 00:22:47.491 --> 00:22:51.491 ganz grob sagen, dass es einen Bereich gibt, in dem Grounding ausgelöst 00:22:51.491 --> 00:22:53.931 wird, also eine Websuche im Hintergrund. Und dann 00:22:54.631 --> 00:22:58.451 gibt es wiederum Fragen, die kein Grounding auslösen. Die Fragen, die Grounding 00:22:58.451 --> 00:23:00.371 auslösen, sind meistens sehr 00:23:00.831 --> 00:23:05.351 zeitkritische oder sehr aktuelle Informationen. Fragen nach Produkten, Preisen – all das 00:23:05.991 --> 00:23:09.691 löst in der Regel eine Websuche aus. Dagegen: Wenn 00:23:09.951 --> 00:23:13.691 ich eher kreative Aufgaben stelle, Mathematik, Code-Geschichten oder sehr 00:23:13.691 --> 00:23:17.451 stabile Wissensfragen – das hatten wir vorhin auch schon mal 00:23:18.031 --> 00:23:20.731 –, dann wird in der Regel kein Grounding ausgeführt. 00:23:22.282 --> 00:23:25.022 Und wenn wir uns das jetzt mal gegenüberstellen, dann ist das schon 00:23:25.022 --> 00:23:28.302 eigentlich sehr wichtig. Denn die Fragen, bei denen Grounding ausgeführt 00:23:28.702 --> 00:23:31.402 wird, sind für uns wahrscheinlich eher conversionrelevant. 00:23:31.482 --> 00:23:33.202 Das sind die Sachen, in die wir auch 00:23:33.922 --> 00:23:37.822 reinwollen. Und wenn wir diese Unterscheidung der Antwort-Typen jetzt auf 00:23:37.822 --> 00:23:43.022 unsere AI-Bots übertragen, dann sehen wir schon, dass es hier 00:23:43.022 --> 00:23:44.482 einen Unterschied zwischen 00:23:45.082 --> 00:23:49.942 diesen Antwortprozessen gibt. Allein schon beim Crawl-Zeitpunkt. Im Grounding 00:23:49.942 --> 00:23:54.202 findet das Crawling nämlich im Antwortprozess statt. Also: 00:23:54.462 --> 00:23:59.502 Jemand stellt eine Frage, es wird eine Websuche ausgelöst, ein 00:23:59.502 --> 00:24:03.342 Relevanzset wird gebildet aufgrund der Subqueries, dieses Relevanzset wird 00:24:03.342 --> 00:24:04.342 gecrawlt und 00:24:05.415 --> 00:24:08.335 dann wird auf Basis dieser Inhalte eine Antwort generiert. 00:24:08.415 --> 00:24:11.355 Bei dem anderen Prozess, bei dem die Knowledge 00:24:11.635 --> 00:24:15.315 Base zum Tragen kommt, also kein Grounding stattfindet, ist 00:24:15.375 --> 00:24:18.795 das Crawling bereits vorgelagert. Das sind unsere zwei unterschiedlichen Bot-Typen, nämlich die 00:24:19.795 --> 00:24:23.975 AI-Assistants und die AI-Trainer. Und besonders spannend ist der 00:24:24.255 --> 00:24:29.715 Prozess im Grounding. Denn wir können anhand der AI-Assistants 00:24:30.035 --> 00:24:34.355 Rückschlüsse auf Nutzeranfragen ziehen. Wir können anhand der AI-Assistants 00:24:34.435 --> 00:24:40.315 eigentlich wahres Nutzerinteresse identifizieren und damit eine Art Reverse-Prompt-Recherche machen. 00:24:41.655 --> 00:24:44.435 Ich habe meinen Prozess mitgebracht und ein 00:24:44.835 --> 00:24:46.335 paar Beispiele, wie 00:24:46.855 --> 00:24:52.955 das aussehen kann. Als Allererstes würde ich 00:24:52.955 --> 00:24:55.215 in dieser Identifikation 00:24:55.275 --> 00:24:59.135 des Nutzerinteresses die einzelnen Bot-Hits analysieren. Und das am besten je 00:24:59.555 --> 00:25:04.175 nach Modell, weil es hier Unterschiede gibt. Man schaut 00:25:04.175 --> 00:25:06.455 sich also erst mal 00:25:07.415 --> 00:25:10.755 ganz stupide an: Wie viele Hits hat welche Seite durch 00:25:10.755 --> 00:25:12.535 welchen Bot? Das allein 00:25:12.715 --> 00:25:15.755 ist schon interessant. Aber noch spannender wird es, 00:25:15.915 --> 00:25:18.915 wenn man die Daten aggregiert. 00:25:19.015 --> 00:25:22.175 Also nach Verzeichnis, Produktgruppen oder Themen. Dann 00:25:22.755 --> 00:25:26.275 sieht man schon: Welche Themenschwerpunkte sind denn am meisten 00:25:26.275 --> 00:25:28.855 gefragt? Und daraus kann man natürlich 00:25:28.915 --> 00:25:32.275 ableiten, wo man später vielleicht mehr investieren möchte – 00:25:32.275 --> 00:25:36.035 in Richtung weiterer GEO-Maßnahmen. 00:25:38.418 --> 00:25:43.698 Wenn ich mich jetzt diesem Punkt Reverse-Prompt-Engineering nähern will, 00:25:44.378 --> 00:25:47.178 würde ich mich jetzt halt durch die einzelnen URLs 00:25:47.538 --> 00:25:52.618 auch durcharbeiten. Das heißt, man kann hier sehr gut die Kombination mit den GSC-Daten nehmen. 00:25:52.818 --> 00:25:56.678 Man schaut sich die einzelnen URLs an und guckt dann zu 00:25:56.838 --> 00:26:01.038 diesen URLs: Was habe ich denn hier gerade im Long-Tail-Bereich in 00:26:01.078 --> 00:26:04.958 den GSC-Daten? Habe ich hier Fragen, die mir auffällig sind? Das ist schon 00:26:05.038 --> 00:26:11.458 mal der erste Indikator. Das könnten aggregierte Daten sein, die auch 00:26:11.458 --> 00:26:15.558 so in einem längeren Prompt, in einem individuellen Prompt natürlich, 00:26:16.218 --> 00:26:21.318 in den LLMs gestellt werden. Und neben diesem Zugang über die GSC 00:26:21.318 --> 00:26:22.878 würde ich immer noch 00:26:22.878 --> 00:26:28.258 parallel mit einem KI-Agenten arbeiten. Das heißt, diese Top-URLs 00:26:28.258 --> 00:26:32.578 dann einem KI-Agenten übergeben, Themen und Entitäten extrahieren lassen 00:26:32.778 --> 00:26:36.018