WEBVTT

00:00:00.005 --> 00:00:04.925
<v Vortrag>Wir haben zum Beispiel im letzten Jahr entdeckt, dass IONOS alle Websites

00:00:04.925 --> 00:00:07.645
<v Vortrag>im Shared-Hosting-Paket erst mal prinzipiell blockiert hat. Also

00:00:07.745 --> 00:00:12.825
<v Vortrag>nicht alle Bots, aber die GPT- und die Claude-Bots. Das waren die AI-Trainer. Das

00:00:13.185 --> 00:00:16.845
<v Vortrag>heißt, auch wenn ich die Optimierung vorangetrieben habe, haben

00:00:17.405 --> 00:00:20.905
<v Vortrag>die vielleicht gar keine Früchte getragen, weil diese Bots komplett blockiert wurden

00:00:20.905 --> 00:00:24.725
<v Vortrag>und ich gar keine Chance hatte, quasi in die Knowledge Base der LLMs reinzukommen.

00:00:30.045 --> 00:00:33.645
<v Vortrag>Wer crawlt eigentlich gerade eure Webseite? Und warum?

00:00:34.025 --> 00:00:38.625
<v Vortrag>Diese Frage klingt nach SEO-Grundlagen, aber die Antwort hat sich in den letzten

00:00:38.625 --> 00:00:40.145
<v Vortrag>Monaten radikal verändert.

00:00:40.405 --> 00:00:44.305
<v Vortrag>Neben dem Google-Bot tauchen in euren Logfiles plötzlich ganz neue Namen auf.

00:00:44.445 --> 00:00:47.265
<v Vortrag>GPT-Bot, Claude-Bot, Perplexity-Bot und weitere.

00:00:47.785 --> 00:00:52.105
<v Vortrag>Manche davon trainieren Sprachmodelle, andere recherchieren in Echtzeit für

00:00:52.105 --> 00:00:57.865
<v Vortrag>KI-Antworten. Und die entscheidende Frage ist: Wisst ihr, welcher eurer

00:00:57.865 --> 00:01:01.385
<v Vortrag>Inhalte diese Bots tatsächlich abholen und was sie damit

00:01:01.905 --> 00:01:06.485
<v Vortrag>machen? Mit KI ändert sich nicht nur die Suche, sondern auch die Anforderungen an das technische

00:01:06.725 --> 00:01:09.585
<v Vortrag>SEO. Die neuen Bot-Typen bieten uns aber gleichzeitig eine

00:01:09.585 --> 00:01:14.485
<v Vortrag>Chance. Wir können ermitteln, welche unserer Inhalte in LLMs tatsächlich genutzt

00:01:14.485 --> 00:01:18.425
<v Vortrag>werden und daraus Rückschlüsse für Content und Prompt-Recherche

00:01:19.025 --> 00:01:25.385
<v Vortrag>ziehen. Meine nächste Speakerin hier beim Spotlight SEO für KI ist Juliane

00:01:25.505 --> 00:01:32.085
<v Vortrag>Bettinger. Sie ist Co-Founderin und Technical SEO Consultant bei der Jenaer SEO-Agentur SEOSOON. Seit

00:01:32.525 --> 00:01:37.365
<v Vortrag>2018 berät sie vor allem Publisher und Medienhäuser, also genau die Branche, die

00:01:37.565 --> 00:01:40.425
<v Vortrag>von den Veränderungen durch KI-Systeme besonders betroffen ist.

00:01:40.425 --> 00:01:44.645
<v Vortrag>Gemeinsam mit ihrem Team setzt sie SEO- und KI-Strategien nicht nur beratend,

00:01:44.705 --> 00:01:49.045
<v Vortrag>sondern auch operativ um, schult Inhouse-Teams und entwickelt maßgeschneiderte

00:01:49.045 --> 00:01:54.665
<v Vortrag>Dashboards und ist auf tollen Konferenzen wie dieser hier auch als Speakerin dabei.

00:01:54.925 --> 00:01:57.925
<v Vortrag>Ich freue mich sehr, dass du heute hier bist, liebe Juliane.

00:01:59.388 --> 00:02:03.148
<v Vortrag>Hallo Hendrik, vielen lieben Dank für die Anmoderation. Sehr, sehr gerne.

00:02:03.368 --> 00:02:07.308
<v Vortrag>Ja, wir haben ja wie gesagt keine Zeit und der Markus und ich,

00:02:07.408 --> 00:02:09.748
<v Vortrag>wir sammeln im Hintergrund natürlich auch wieder fleißig eure Fragen.

00:02:10.088 --> 00:02:14.028
<v Vortrag>Deshalb Juliane, die Bühne gehört dir. Am Ende gibt es eine kleine Fragerunde

00:02:14.028 --> 00:02:16.808
<v Vortrag>und ja, ich freue mich jetzt auf einen spannenden Vortrag.

00:02:19.278 --> 00:02:25.738
<v Vortrag>Ja, wir sprechen ja momentan aktuell alle sehr viel über Optimierung für AI Search,

00:02:25.938 --> 00:02:29.758
<v Vortrag>also wie wir Mentions und Citations gewinnen können, wie wir vielleicht auch

00:02:29.758 --> 00:02:33.718
<v Vortrag>den Sentiment beeinflussen, aber wir sprechen meines Erachtens viel zu wenig

00:02:33.718 --> 00:02:37.018
<v Vortrag>über die technischen und infrastrukturellen Voraussetzungen.

00:02:37.758 --> 00:02:41.018
<v Vortrag>Wenn ich jetzt mal eine ziemlich abgedroschene Baumetapher heranziehe,

00:02:41.018 --> 00:02:43.458
<v Vortrag>ist es so ein bisschen, als wenn wir uns um den Dachbau kümmern,

00:02:43.638 --> 00:02:49.698
<v Vortrag>um den Innenausbau, aber eigentlich keine Gedanken an die Wände und an das Fundament verschwenden.

00:02:50.758 --> 00:02:54.718
<v Vortrag>Und gerade halt auch in diesem Bereich der Basics, der technischen SEO-Basics,

00:02:55.338 --> 00:02:56.778
<v Vortrag>hat sich halt viel geändert. Die

00:02:56.958 --> 00:03:00.798
<v Vortrag>Rahmenbedingungen haben sich geändert. Denn wir haben aktuell zwei prinzipielle

00:03:00.798 --> 00:03:04.978
<v Vortrag>Herausforderungen, mit denen wir uns auseinandersetzen müssen. Wir

00:03:05.398 --> 00:03:12.018
<v Vortrag>haben zum einen, auf der einen Seite, eine extreme Zunahme an verfügbaren Dokumenten. Und

00:03:12.278 --> 00:03:15.918
<v Vortrag>das ist natürlich getrieben durch den ganzen AI-Content, der produziert

00:03:15.918 --> 00:03:18.138
<v Vortrag>und massenhaft veröffentlicht wird. Und der

00:03:18.138 --> 00:03:22.718
<v Vortrag>Google-CEO hat erst vor ein paar Monaten das schön quantifiziert, hat gesagt,

00:03:22.798 --> 00:03:26.698
<v Vortrag>dass sich die Anzahl der verfügbaren Inhalte in den letzten zwei Jahren um

00:03:26.698 --> 00:03:28.998
<v Vortrag>45 Prozent erhöht hat. Also

00:03:29.258 --> 00:03:34.778
<v Vortrag>45 Prozent mehr Inhalte, die Google ja auch irgendwie erst mal verarbeiten

00:03:35.578 --> 00:03:40.018
<v Vortrag>muss. Das heißt, wir haben in diesem Bereich eigentlich eine zunehmende

00:03:40.238 --> 00:03:42.278
<v Vortrag>Wettbewerbssituation, weil sich die Crawl-Kapazitäten nicht wirklich

00:03:43.058 --> 00:03:44.578
<v Vortrag>anpassen. Das heißt, wir müssen uns eigentlich hier die Frage

00:03:44.618 --> 00:03:49.358
<v Vortrag>stellen: Wie kriegen wir eigentlich noch unsere wichtigen und relevanten Inhalte gecrawlt und

00:03:50.338 --> 00:03:54.958
<v Vortrag>indexiert? Und auf der anderen Seite wiederum haben wir einen komplett neuen Typus an

00:03:55.318 --> 00:04:00.038
<v Vortrag>Crawlern, die AI-Bots. Und die fluten quasi unsere Server, also die scrapen unsere

00:04:00.038 --> 00:04:04.218
<v Vortrag>Inhalte im ganz großen Stil. Und hier müssen wir uns eigentlich die Frage stellen:

00:04:04.318 --> 00:04:06.938
<v Vortrag>Wie gehen wir denn mit dieser Flut an Anfragen um,

00:04:07.138 --> 00:04:10.458
<v Vortrag>ohne dass wir im Gegenzug noch wirklich nennenswerten, relevanten Traffic bekommen?

00:04:11.786 --> 00:04:15.466
<v Vortrag>Und diese beiden Entwicklungen machen das Thema Crawling wichtiger als je

00:04:15.466 --> 00:04:19.526
<v Vortrag>zuvor, weil da vielleicht noch mal ein ganz basic Schritt,

00:04:20.066 --> 00:04:21.846
<v Vortrag>den wir uns vor Augen halten sollten:

00:04:22.506 --> 00:04:25.526
<v Vortrag>Wenn wir das Crawling von unseren wichtigen Inhalten nicht sicherstellen können,

00:04:25.526 --> 00:04:29.426
<v Vortrag>dann werden sie nicht indexiert, in der Folge können sie nicht ranken und

00:04:29.426 --> 00:04:33.026
<v Vortrag>damit habe ich halt auch keine Sichtbarkeit in Google, Bing und allen anderen klassischen

00:04:33.026 --> 00:04:34.206
<v Vortrag>Suchindizes. Soweit

00:04:35.353 --> 00:04:37.753
<v Vortrag>ist das, glaube ich, ganz klar, aber jetzt müssen wir uns ja auch noch

00:04:37.753 --> 00:04:40.173
<v Vortrag>einen Schritt weiterdenken. Weil wenn wir das nicht sicherstellen,

00:04:40.253 --> 00:04:43.293
<v Vortrag>dann haben wir aber auch mittlerweile keine Sichtbarkeit oder eine verringerte

00:04:43.293 --> 00:04:46.053
<v Vortrag>Chance auf Sichtbarkeit in LLM-Antworten.

00:04:46.273 --> 00:04:50.313
<v Vortrag>Weil die nutzen in diesem Retrieval-Prozess, im Grounding, die Indexdaten der

00:04:50.313 --> 00:04:52.113
<v Vortrag>klassischen Suchmaschinen. Und wenn

00:04:52.113 --> 00:04:56.693
<v Vortrag>ich dort nicht stattfinde, kann ich auch mit sehr geringer Wahrscheinlichkeit nur in

00:04:56.693 --> 00:04:57.953
<v Vortrag>den LLMs stattfinden. Das heißt:

00:04:58.533 --> 00:05:02.793
<v Vortrag>Crawling ist mittlerweile wichtig für zwei Suchsysteme. Und

00:05:03.273 --> 00:05:08.093
<v Vortrag>das bedeutet halt auch, dass wir uns um unsere technischen SEO-Basics Gedanken machen müssen. Das

00:05:08.213 --> 00:05:11.313
<v Vortrag>sollten wir schon immer eigentlich, aber es wird immer noch wichtiger.

00:05:11.713 --> 00:05:15.373
<v Vortrag>Und das bedeutet: Wir sollten uns um ein gutes URL-Inventar kümmern. Wir

00:05:15.473 --> 00:05:20.673
<v Vortrag>brauchen eine saubere und schnelle Server-Performance und eine gute Website-Struktur. Und

00:05:21.473 --> 00:05:24.393
<v Vortrag>das sind eigentlich Themen, wie gesagt, um die hätten wir uns schon lange

00:05:24.393 --> 00:05:26.793
<v Vortrag>kümmern sollen und um die kümmern wir uns in der Regel auch.

00:05:28.053 --> 00:05:31.573
<v Vortrag>Aber jetzt gibt es noch mal eine neue Anspruchsgruppe, nämlich die

00:05:32.593 --> 00:05:35.993
<v Vortrag>KI-Crawler. Und während wir halt bei den Search-Crawlern mittlerweile diese

00:05:35.993 --> 00:05:39.953
<v Vortrag>Herausforderung haben, dass wir um Crawl-Kapazitäten kämpfen müssen, dass es eine

00:05:39.953 --> 00:05:43.793
<v Vortrag>Wettbewerbssituation ist, haben wir nun bei den AI-Bots oftmals die Situation, dass sie teilweise

00:05:43.793 --> 00:05:44.813
<v Vortrag>mehr crawlen, als uns lieb

00:05:45.453 --> 00:05:48.893
<v Vortrag>ist. Man sieht, sie haben mittlerweile in den letzten zwei Jahren massiv aufgeholt.

00:05:48.993 --> 00:05:52.753
<v Vortrag>Also sie stellen mittlerweile 21 Prozent der gesamten Bot-Aktivitäten dar.

00:05:52.993 --> 00:05:56.353
<v Vortrag>Plus noch mal die ganzen AI Searches. Das ist

00:05:56.793 --> 00:05:59.493
<v Vortrag>halt extrem. Und wir sehen halt auch, wenn wir uns noch mal

00:05:59.813 --> 00:06:02.033
<v Vortrag>andere Charts anschauen, wie exponentiell

00:06:02.873 --> 00:06:07.173
<v Vortrag>das gewachsen ist. Der GPT-Bot zum Beispiel hatte letztes Jahr von einem Monat auf

00:06:07.173 --> 00:06:09.833
<v Vortrag>den anderen die Crawl-Aktivität verdreifacht.

00:06:10.293 --> 00:06:15.093
<v Vortrag>Also das ist höchst volatil und unvorhersehbar, wie diese Crawl-Aktivitäten

00:06:15.093 --> 00:06:16.573
<v Vortrag>der AI-Bots sich gestalten.

00:06:18.053 --> 00:06:21.113
<v Vortrag>Und wenn wir jetzt halt von diesen ganzen verschiedenen AI-Bots sprechen,

00:06:21.213 --> 00:06:23.473
<v Vortrag>ist es noch mal auch sehr wichtig, die zu

00:06:23.913 --> 00:06:29.313
<v Vortrag>klassifizieren. Weil es ist wichtig zu verstehen, wie die funktionieren, was die für einen

00:06:29.313 --> 00:06:32.193
<v Vortrag>Sinn und Zweck haben, damit wir auch wissen, wie wir mit denen umgehen und wie

00:06:32.193 --> 00:06:33.793
<v Vortrag>wir die vielleicht auch sogar für uns nutzen können.

00:06:35.024 --> 00:06:40.664
<v Vortrag>Dafür würde ich die in vier Kategorien packen, die sich nach Zweck ein bisschen unterscheiden.

00:06:40.904 --> 00:06:43.304
<v Vortrag>Die erste Kategorie, das sind die AI-Trainer.

00:06:44.104 --> 00:06:47.844
<v Vortrag>Das ist zum Beispiel ganz klassisch von OpenAI der GPT-Bot.

00:06:47.984 --> 00:06:52.384
<v Vortrag>Und die sind dazu da, die Daten zu scrapen. Und mit diesen Daten werden dann

00:06:52.384 --> 00:06:54.364
<v Vortrag>die entsprechenden Modelle trainiert.

00:06:54.484 --> 00:07:00.684
<v Vortrag>Also das sind die ganz klassischen großen Datensammler zum Trainieren der LLMs.

00:07:01.604 --> 00:07:05.884
<v Vortrag>Die nächste Kategorie, und die sind tatsächlich für die SEOs sehr spannend,

00:07:06.024 --> 00:07:07.404
<v Vortrag>das sind die AI-Assistants.

00:07:08.084 --> 00:07:13.224
<v Vortrag>Und jedes Modell, also OpenAI hat neben dem GPT-Bot zum Beispiel noch den ChatGPT-User-Bot

00:07:13.224 --> 00:07:14.384
<v Vortrag>und andere Modelle halt auch.

00:07:14.504 --> 00:07:17.644
<v Vortrag>Also jeder hat eigentlich neben dem AI-Trainer auch einen AI-Assistant.

00:07:17.644 --> 00:07:21.984
<v Vortrag>Und diese AI-Assistants, das sind nun diese Echtzeitabrufe.

00:07:22.064 --> 00:07:27.504
<v Vortrag>Das heißt, wenn ich in ChatGPT eine Frage stelle und ein Crawling-Prozess ausgelöst wird,

00:07:28.244 --> 00:07:33.504
<v Vortrag>dann Subqueries entstehen und da ein Relevanzset an URLs dazu zur Beantwortung

00:07:33.504 --> 00:07:40.764
<v Vortrag>der Fragen genutzt werden, dann werden diese URLs in dieser Zeit gecrawlt durch diesen AI-Assistant.

00:07:41.024 --> 00:07:43.084
<v Vortrag>Das heißt, wir haben hier wirklich eine 1:1-Relation.

00:07:44.597 --> 00:07:48.317
<v Vortrag>Die dritte Kategorie, das sind die AI-Search-Crawler. Und im Gegensatz zu diesem

00:07:48.317 --> 00:07:52.357
<v Vortrag>Echtzeitabruf sind die eher asynchron

00:07:52.517 --> 00:07:56.877
<v Vortrag>unterwegs. Das heißt, ganz oft kommen die halt auch nach den AI-Assistants und

00:07:56.877 --> 00:08:00.237
<v Vortrag>crawlen noch mal im großen Stil die ganzen verbundenen Ressourcen,

00:08:01.297 --> 00:08:02.917
<v Vortrag>die robots.txt. Also das sind die ganz

00:08:03.417 --> 00:08:08.157
<v Vortrag>großen Datensammler. Und die sind offiziell dafür da, um die Such- und

00:08:08.677 --> 00:08:12.517
<v Vortrag>Indexdaten zu verbessern. Was das ganz genau im Detail heißt, da kann man

00:08:12.597 --> 00:08:15.137
<v Vortrag>jetzt nur aus den Crawl-Mustern ein bisschen

00:08:15.657 --> 00:08:19.397
<v Vortrag>Rückschlüsse ziehen. Also sehr wahrscheinlich sind sie dazu da, um halt auch ein

00:08:19.397 --> 00:08:21.637
<v Vortrag>Caching mit zu unterstützen, einen eigenen

00:08:22.177 --> 00:08:26.377
<v Vortrag>Index mit aufzubauen. Eventuell werden auch im Hintergrund natürlich die Daten für

00:08:26.577 --> 00:08:30.877
<v Vortrag>Trainingszwecke genutzt. Man kann es nicht hundertprozentig sagen. Die Informationen sind hier

00:08:31.917 --> 00:08:35.797
<v Vortrag>tatsächlich relativ dünn. Die vierte Kategorie, und ich glaube, die sind auch in den

00:08:35.797 --> 00:08:38.837
<v Vortrag>letzten Wochen noch sehr viel prominenter geworden, das

00:08:39.277 --> 00:08:43.817
<v Vortrag>sind die AI-Agents. Das haben wir zum Beispiel ganz prominent in ChatGPT

00:08:43.817 --> 00:08:47.317
<v Vortrag>als Operator mit integriert oder halt auch sehr viele eigenständige Agents,

00:08:47.497 --> 00:08:51.217
<v Vortrag>die es mittlerweile gibt. Und wie die AI-Assistants haben die quasi so eine

00:08:51.797 --> 00:08:56.117
<v Vortrag>1:1-Relation. Auch hier wird durch einen User eine Interaktion getriggert.

00:08:56.217 --> 00:08:59.637
<v Vortrag>Aber das ist wirklich hier kein Abruf, sondern eine Interaktion mit einer Seite.

00:09:01.543 --> 00:09:06.723
<v Vortrag>Und diese vier verschiedenen AI-Bot-Typen, die bringen jetzt nun,

00:09:06.883 --> 00:09:08.983
<v Vortrag>ja, ich würde sagen, geänderte Anforderungen mit sich.

00:09:09.063 --> 00:09:12.723
<v Vortrag>Es sind nicht unbedingt neue, aber wir müssen andere Fragen stellen.

00:09:12.723 --> 00:09:16.663
<v Vortrag>Und wir müssen hier erst mal Grundlagen schaffen, die wir bis jetzt nicht

00:09:17.683 --> 00:09:23.123
<v Vortrag>hatten. Deswegen die Frage: Was ist eigentlich wichtig, wenn wir über

00:09:23.123 --> 00:09:27.503
<v Vortrag>KI-Crawler sprechen und um Basics und um bestmögliche Sichtbarkeit in LLMs

00:09:28.323 --> 00:09:32.343
<v Vortrag>zu gewährleisten? Und die erste, für mich auch wirklich wichtigste Frage, die oft viel

00:09:32.343 --> 00:09:35.663
<v Vortrag>zu kurz kommt, ist: Können denn die KI-Crawler

00:09:36.643 --> 00:09:40.123
<v Vortrag>überhaupt zugreifen? Weil oftmals werden Optimierungsmaßnahmen ergriffen, ohne

00:09:40.223 --> 00:09:42.023
<v Vortrag>zu prüfen, ob es überhaupt strukturelle

00:09:42.363 --> 00:09:46.483
<v Vortrag>Barrieren gibt. Also es gibt viele Optionen über den CDN, Firewall, direkt durch

00:09:46.563 --> 00:09:50.223
<v Vortrag>den Hoster, also alles, was serverseitig irgendwie diese ganzen

00:09:51.983 --> 00:09:55.423
<v Vortrag>Bot-Anfragen blockiert. Und das Problem ist halt, wenn man das

00:09:55.543 --> 00:09:58.843
<v Vortrag>bewusst einrichtet, ist das okay. Aber viele wissen gar nicht, dass es diese

00:09:58.943 --> 00:10:01.083
<v Vortrag>Barrieren gibt, weil sie sich nicht aktiv dafür entschieden

00:10:01.523 --> 00:10:05.183
<v Vortrag>haben. Wir haben zum Beispiel im letzten Jahr entdeckt, dass IONOS alle

00:10:05.203 --> 00:10:09.043
<v Vortrag>Websites im Shared-Hosting-Paket erst mal prinzipiell blockiert hat. Also

00:10:09.063 --> 00:10:14.203
<v Vortrag>nicht alle Bots, aber die GPT- und die Claude-Bots. Das waren die AI-Trainer. Das heißt,

00:10:14.583 --> 00:10:18.223
<v Vortrag>auch wenn ich die Optimierung vorangetrieben habe, haben die

00:10:18.823 --> 00:10:22.283
<v Vortrag>vielleicht gar keine Früchte getragen, weil diese Bots komplett blockiert wurden

00:10:22.283 --> 00:10:26.103
<v Vortrag>und ich gar keine Chance hatte, quasi in die Knowledge Base der LLMs reinzukommen.

00:10:26.943 --> 00:10:31.183
<v Vortrag>Wir haben jetzt ganz frisch auch eine eigene Studie dazu durchgeführt und haben

00:10:31.183 --> 00:10:36.323
<v Vortrag>uns 1.600 Domains angeschaut und mal geguckt: Wie weit verbreitet ist eigentlich dieses Problem?

00:10:37.383 --> 00:10:42.663
<v Vortrag>Und tatsächlich sind es doch 15 Prozent, wo so eine Blockade stattfindet.

00:10:42.743 --> 00:10:47.643
<v Vortrag>Also 15 Prozent aller untersuchten Domains hatten mindestens einen Bot blockiert.

00:10:47.643 --> 00:10:50.483
<v Vortrag>Und wir haben hier wirklich nur die relevantesten Bots genommen,

00:10:50.723 --> 00:10:53.863
<v Vortrag>also die, die für AI-Assistant und AI-Training zuständig

00:10:54.563 --> 00:10:58.783
<v Vortrag>sind. Wenn man dazu noch den Meta-External und den Bytespider nimmt, dann liegen

00:10:58.903 --> 00:11:00.583
<v Vortrag>wir sogar bei fast 30 Prozent. Das ist

00:11:00.883 --> 00:11:04.463
<v Vortrag>schon eine ordentliche Hausnummer. Wenn man sich das dann auch mal anguckt, wie sich

00:11:04.523 --> 00:11:09.243
<v Vortrag>das verteilt nach Website-Größe, sieht man, dass vor allem auch die Kleinen und

00:11:09.243 --> 00:11:11.383
<v Vortrag>sehr Kleinen davon betroffen sind. Meine Vermutung

00:11:12.263 --> 00:11:15.543
<v Vortrag>ist: Das liegt natürlich sehr stark am Hoster. Während die

00:11:15.983 --> 00:11:20.423
<v Vortrag>Großen, gehe ich ganz stark davon aus, eher bewusst blockieren, ist es

00:11:20.423 --> 00:11:23.143
<v Vortrag>bei den Kleinen und Mittleren unbewusst. Das heißt,

00:11:23.323 --> 00:11:27.663
<v Vortrag>hier gilt es halt wirklich, das zu testen, ob ich überhaupt erst mal für

00:11:27.663 --> 00:11:29.443
<v Vortrag>KI-Bots erreichbar bin. Und

00:11:30.303 --> 00:11:34.103
<v Vortrag>das kann ich entweder manuell machen über einen User-Agent-Switcher, da

00:11:34.243 --> 00:11:37.143
<v Vortrag>gibt es ganz viele Optionen. Kann man auch im Screaming Frog theoretisch

00:11:37.143 --> 00:11:38.923
<v Vortrag>machen, aber dann immer nur einzeln pro Bot.

00:11:39.143 --> 00:11:43.643
<v Vortrag>Oder es gibt auch schon verschiedene Tools. Wir haben auch schon für uns einen

00:11:43.643 --> 00:11:47.683
<v Vortrag>kleinen KI-Bot-Checker gebaut, wo wir das halt einfach domainweit checken können.

00:11:49.100 --> 00:11:52.440
<v Vortrag>Die zweite Frage in diesem Bereich „Können die KI-Crawler zugreifen?“

00:11:52.520 --> 00:11:53.580
<v Vortrag>ist jetzt auch relativ neu.

00:11:54.580 --> 00:11:59.400
<v Vortrag>Denn erst vor wenigen Wochen hat Bing die Dokumentation angepasst, oder

00:11:59.480 --> 00:12:04.700
<v Vortrag>es ist jedenfalls erst mal bekannt geworden, dass Bing diesen

00:12:04.840 --> 00:12:06.880
<v Vortrag>Meta-Tag noarchive jetzt anders

00:12:07.100 --> 00:12:10.980
<v Vortrag>interpretiert. Der wird historisch gesehen schon lange von Google nicht mehr genutzt. Der war

00:12:11.280 --> 00:12:16.840
<v Vortrag>ursprünglich dazu da, dass gecachte Versionen nicht in den SERPs angezeigt werden. Bing hat

00:12:17.520 --> 00:12:20.480
<v Vortrag>jetzt einfach gesagt: Okay, wir nehmen jetzt diesen Tag und geben dem noch mal

00:12:20.480 --> 00:12:21.660
<v Vortrag>eine neue Bedeutung. Das

00:12:21.740 --> 00:12:25.660
<v Vortrag>heißt: Wenn du diesen Meta-Robots-Tag noch irgendwo im Quelltext hast, dann

00:12:26.160 --> 00:12:30.620
<v Vortrag>werden diese Inhalte nicht für Copilot und den Bing Chat genutzt und

00:12:30.620 --> 00:12:32.700
<v Vortrag>auch nicht als Trainingsdaten für

00:12:33.500 --> 00:12:37.920
<v Vortrag>Copilot. Das heißt, auch das sollte man einfach noch mal prüfen. Gerade im Publishing-Bereich

00:12:38.060 --> 00:12:41.240
<v Vortrag>wurde das historisch doch gerne genutzt. Und

00:12:41.580 --> 00:12:44.840
<v Vortrag>da habe ich es tatsächlich bei mehreren Publishern gefunden. Also

00:12:44.840 --> 00:12:49.680
<v Vortrag>auch das ist ein Thema: Wenn man Sichtbarkeit in Bing-Systemen wie Copilot

00:12:49.680 --> 00:12:54.800
<v Vortrag>haben möchte, sollte man prüfen, ob man noch diesen Meta-Tag irgendwo integriert hat.

00:12:56.525 --> 00:12:59.765
<v Vortrag>Jetzt kommen wir zur zweiten Frage. Jetzt haben wir erst mal Barrieren

00:12:59.905 --> 00:13:02.305
<v Vortrag>abgebaut, also alles, was uns vielleicht nicht wirklich bewusst

00:13:02.765 --> 00:13:07.605
<v Vortrag>war. Und jetzt kommt eher die Frage: Dürfen, sollen denn die KI-Crawler überhaupt

00:13:07.785 --> 00:13:12.385
<v Vortrag>zugreifen? Und da kann ich neben diesen serverseitigen Blockaden auch mit der robots.txt

00:13:13.025 --> 00:13:16.305
<v Vortrag>arbeiten. Also hier kann ich prinzipiell Scraping

00:13:17.525 --> 00:13:21.285
<v Vortrag>verhindern. Und in dem Zusammenhang wird viel zu selten die Frage diskutiert: Wie

00:13:21.285 --> 00:13:24.525
<v Vortrag>gehen wir denn überhaupt mit unseren vielleicht exklusiven Inhalten um

00:13:24.525 --> 00:13:27.565
<v Vortrag>oder mit unseren Inhalten, die momentan schon auf noindex stehen? Das

00:13:27.785 --> 00:13:30.305
<v Vortrag>hat ja bestimmt einen Grund, warum die auf noindex stehen. Und

00:13:30.545 --> 00:13:34.545
<v Vortrag>auch diese Fragen sollte ich mir eigentlich sehr explizit stellen. Wenn ich

00:13:35.365 --> 00:13:40.125
<v Vortrag>dann jetzt aber über die robots.txt nachdenke und die gerne einsetzen möchte,

00:13:40.125 --> 00:13:45.405
<v Vortrag>muss ich mir bewusst sein, dass die robots.txt nicht global funktioniert. Zum

00:13:45.905 --> 00:13:50.425
<v Vortrag>Beispiel Perplexity versteht sie eher als nett gemeinten Hinweis und nicht

00:13:50.425 --> 00:13:51.505
<v Vortrag>als wirkliche Direktive.

00:13:51.865 --> 00:13:55.965
<v Vortrag>Aber auch die AI-Agents halten sich nicht daran.

00:13:56.085 --> 00:13:59.065
<v Vortrag>Und das hat einfach damit zu tun, dass die einen Headless-Browser nutzen

00:13:59.065 --> 00:14:04.105
<v Vortrag>und damit eine ganz normale Browser-Erkennung und da auch nicht die robots.txt noch mal abfragen.

00:14:04.665 --> 00:14:06.385
<v Vortrag>Dessen muss man sich bewusst sein.

00:14:07.625 --> 00:14:11.485
<v Vortrag>Und als letzten Punkt: Wenn ich die robots.txt einsetze, muss ich mir

00:14:11.485 --> 00:14:13.465
<v Vortrag>auch bewusst sein, dass es keine rückwirkende Maßnahme

00:14:13.765 --> 00:14:17.905
<v Vortrag>ist. Das heißt, meine Inhalte sind meistens schon in der Knowledge Base auch zum

00:14:18.125 --> 00:14:21.805
<v Vortrag>Teil enthalten. Das wird damit also nicht entfernt. Und ich bin natürlich auch

00:14:21.805 --> 00:14:25.265
<v Vortrag>durch andere Websites irgendwo verlinkt, erwähnt. Auch

00:14:25.445 --> 00:14:27.945
<v Vortrag>das wird sich damit natürlich nicht auflösen.

00:14:30.642 --> 00:14:33.062
<v Vortrag>Die nächste Frage, die ich auch sehr wichtig finde, ist das

00:14:33.342 --> 00:14:35.842
<v Vortrag>Thema: Wie reagiert mein Server? Wie performt

00:14:36.662 --> 00:14:39.762
<v Vortrag>mein Server? Wir müssen uns ja mal vorstellen: Wir haben jetzt eigentlich

00:14:39.762 --> 00:14:43.782
<v Vortrag>neben diesen ganz normalen User-Hits und den ganzen Search-Bots

00:14:43.842 --> 00:14:49.902
<v Vortrag>und allen anderen Bot-Typen, die es da schon gab, noch mal so eine riesengroße neue Gruppe

00:14:50.342 --> 00:14:54.142
<v Vortrag>an Crawlern, die auch massiv crawlen. Und das belastet die

00:14:54.302 --> 00:14:58.702
<v Vortrag>Server. Deswegen reagieren die Hoster auch teilweise so, dass sie einzelne Bot-Typen blockieren.

00:14:59.262 --> 00:15:03.162
<v Vortrag>Und wir müssen das wirklich im Blick behalten. Wir müssen stabile Serverantworten

00:15:03.162 --> 00:15:07.622
<v Vortrag>sicherstellen und es muss vor allem Spielraum da sein. Denn die

00:15:07.622 --> 00:15:11.102
<v Vortrag>AI-Bots crawlen teilweise sehr volatil. Das heißt, ich brauche hier

00:15:11.182 --> 00:15:14.102
<v Vortrag>auch ein bisschen Kapazitäten nach oben. Ich habe es in den

00:15:14.102 --> 00:15:17.542
<v Vortrag>letzten Monaten wirklich mehrfach erlebt, dass Server immense Probleme

00:15:17.742 --> 00:15:23.002
<v Vortrag>hatten, teilweise Downtimes hatten. Und hier gilt es, Time to

00:15:23.002 --> 00:15:28.182
<v Vortrag>First Byte zu monitoren, die Page Performance im Blick zu haben. Ich habe jetzt

00:15:28.682 --> 00:15:30.982
<v Vortrag>hier mal einen Screenshot von der Google Search Console, von den

00:15:31.162 --> 00:15:32.182
<v Vortrag>Crawling-Statistiken. Das ist

00:15:32.482 --> 00:15:36.442
<v Vortrag>für eine Trendentwicklung ganz spannend, aber nicht für ein kurzfristiges Monitoring,

00:15:36.442 --> 00:15:39.942
<v Vortrag>weil die einen dreitägigen Verzug haben. Bis dahin hat das jeder

00:15:39.942 --> 00:15:41.982
<v Vortrag>selber gemerkt, dass er Probleme mit dem Server hat. Aber

00:15:42.162 --> 00:15:44.622
<v Vortrag>für eine Trendentwicklung auf jeden Fall super spannend.

00:15:46.867 --> 00:15:50.327
<v Vortrag>Die nächste Frage, die ich mir stellen sollte in Richtung

00:15:50.487 --> 00:15:56.707
<v Vortrag>„Können LLMs meine Inhalte lesen?“, ist: Wie ist denn mein ganzer Quelltext aufgebaut? Und ich

00:15:57.267 --> 00:16:02.147
<v Vortrag>denke, viele haben das mittlerweile schon gehört, dass AI-Bots nicht rendern.

00:16:02.147 --> 00:16:04.127
<v Vortrag>Sie führen JavaScript nicht aus. Das

00:16:04.587 --> 00:16:08.447
<v Vortrag>heißt, alles, was irgendwie über JavaScript nachgeladen wird, ist nicht sichtbar.

00:16:08.567 --> 00:16:11.687
<v Vortrag>Wenn ich etwas habe, was ich verstecken will, kann ich es schön in JavaScript

00:16:11.747 --> 00:16:15.127
<v Vortrag>packen. Das ist wahrscheinlich super. Aber ansonsten gilt: Alles, was

00:16:15.587 --> 00:16:18.587
<v Vortrag>relevant ist, sollte im initialen HTML sein.

00:16:19.727 --> 00:16:23.687
<v Vortrag>Dann bilderlastige Seiten oder Seiten mit viel Video- und

00:16:23.767 --> 00:16:25.627
<v Vortrag>Audiocontent. Auch das hat Nachteile.

00:16:26.607 --> 00:16:31.387
<v Vortrag>KI-Bots können die verarbeiten, aber wenn wir an das Grounding denken,

00:16:31.647 --> 00:16:34.467
<v Vortrag>dann werden Text-HTMLs bevorzugt. Da werden

00:16:34.527 --> 00:16:37.847
<v Vortrag>keine Video- und Audio-Inhalte für das Grounding verarbeitet. Das heißt,

00:16:37.847 --> 00:16:41.767
<v Vortrag>auch dahingehend müssen wir prüfen, wie wir diese Inhalte vielleicht in unseren

00:16:41.767 --> 00:16:44.707
<v Vortrag>Content-Bereich bekommen. Und in dem Zusammenhang finde

00:16:44.907 --> 00:16:48.687
<v Vortrag>ich auch strukturierte Daten auf jeden Fall immer noch sinnvoll und hilfreich.

00:16:48.687 --> 00:16:52.647
<v Vortrag>Ich weiß, das wird viel diskutiert. Sind strukturierte Daten in

00:16:52.887 --> 00:16:55.707
<v Vortrag>Richtung LLMs relevant? Haben die einen

00:16:55.987 --> 00:16:58.527
<v Vortrag>Impact? Können die gelesen werden? Aber unabhängig davon:

00:16:58.947 --> 00:17:03.447
<v Vortrag>Wir brauchen sie trotzdem auch für das klassische SEO, für die

00:17:03.587 --> 00:17:08.827
<v Vortrag>AIOs, für den KI-Modus von Google. Und gerade für erklärungswürdige Inhalte, wie

00:17:08.947 --> 00:17:10.927
<v Vortrag>es zum Beispiel Videos und Audios sind,

00:17:11.287 --> 00:17:15.527
<v Vortrag>die für Crawler doch schwerer zu verarbeiten sind, ist es auf jeden Fall

00:17:15.547 --> 00:17:19.187
<v Vortrag>hilfreich, hier über strukturierte Daten Semantik anzureichern.

00:17:21.161 --> 00:17:24.781
<v Vortrag>Und zu guter Letzt, Stichwort Semantik: Auch unser ganzer Code sollte semantisch

00:17:24.781 --> 00:17:28.961
<v Vortrag>gut aufbereitet sein. Weil wir sprechen hier von Large Language Models.

00:17:29.141 --> 00:17:32.241
<v Vortrag>Das heißt, die können mit Sprache sehr gut umgehen, also sollten wir

00:17:32.241 --> 00:17:33.821
<v Vortrag>ihnen auch Sprache geben –

00:17:34.121 --> 00:17:37.441
<v Vortrag>auch in unserem Code. Das heißt, sie sollten Absätze gut erkennen

00:17:37.721 --> 00:17:39.121
<v Vortrag>können. Sie sollten zum

00:17:39.801 --> 00:17:42.961
<v Vortrag>Beispiel, wenn ich eine Tabelle habe, diese nicht in einen Div-Container packen und

00:17:43.641 --> 00:17:48.161
<v Vortrag>mit CSS stylen, sondern das Tag table verwenden. Das hilft den LLMs.

00:17:48.381 --> 00:17:50.661
<v Vortrag>Das ist sehr basic, aber auch

00:17:51.461 --> 00:17:55.561
<v Vortrag>das ist ein Schritt dahin. Wenn wir all diese Ebenen jetzt mal zusammennehmen,

00:17:55.561 --> 00:18:01.001
<v Vortrag>dann ist das für mich so das Framework, womit man gute Basics

00:18:01.761 --> 00:18:06.741
<v Vortrag>für KI und für SEO schafft. Die unteren Ebenen, also

00:18:06.741 --> 00:18:07.961
<v Vortrag>die Crawling- und Zugriffssteuerung

00:18:08.261 --> 00:18:11.781
<v Vortrag>und die Serverkapazitäten, hatten wir gerade besprochen. Die orange Ebene ist nun alles

00:18:11.781 --> 00:18:17.061
<v Vortrag>das, was wir eigentlich im klassischen SEO machen. Also hier

00:18:17.061 --> 00:18:20.581
<v Vortrag>müssen wir das Crawling sicherstellen durch eine gute URL-Struktur

00:18:20.661 --> 00:18:23.541
<v Vortrag>und durch ein gutes URL-Inventar. Denn wir

00:18:23.801 --> 00:18:27.861
<v Vortrag>müssen uns vorstellen: Wenn wir Millionen dynamischer Parameter haben, eine schlechte

00:18:28.221 --> 00:18:30.081
<v Vortrag>interne Verlinkung, wo schon die normalen

00:18:30.081 --> 00:18:34.221
<v Vortrag>Search-Crawler nicht gut durchkommen, dann werden die AI-Bots sicherlich auch scheitern. Auch das ist

00:18:34.221 --> 00:18:35.681
<v Vortrag>noch ein Punkt, den wir

00:18:36.581 --> 00:18:41.061
<v Vortrag>in dem Zusammenhang mit Basics diskutieren und im Blick behalten müssen.

00:18:42.081 --> 00:18:44.061
<v Vortrag>Und wenn wir diese ganzen Ebenen sichergestellt haben, dann haben wir

00:18:44.061 --> 00:18:48.981
<v Vortrag>eigentlich erst mal ein gutes Setup geschaffen. Dann sind wir so weit, dass wir sagen: Okay, wir haben jetzt erst mal

00:18:49.681 --> 00:18:53.641
<v Vortrag>die Basics erfüllt. Jetzt können wir in Optimierungsmaßnahmen investieren und weiterdenken.

00:18:54.821 --> 00:18:58.261
<v Vortrag>Und das tun wir jetzt nämlich auch. Denn wir können auch im Bereich

00:18:58.261 --> 00:19:05.821
<v Vortrag>des technischen SEOs schon gewisse Inputs liefern und Monitoring aufzeigen,

00:19:05.821 --> 00:19:07.281
<v Vortrag>wie LLMs unsere

00:19:07.741 --> 00:19:10.721
<v Vortrag>Seite sehen und verstehen. Und das können

00:19:11.866 --> 00:19:18.706
<v Vortrag>wir wunderbar über Logfiles tun. Logfiles sind Protokolldateien, die jeden

00:19:19.386 --> 00:19:24.486
<v Vortrag>Request an diesem Webserver protokollieren. Und wir müssen uns vorstellen: Logfiles sind

00:19:24.926 --> 00:19:28.246
<v Vortrag>quasi unsere Analytics für Crawler. Wir können damit

00:19:28.526 --> 00:19:31.326
<v Vortrag>großartige Analysen machen. Wir haben hier bestimmte Informationen und können

00:19:31.326 --> 00:19:36.206
<v Vortrag>zum Beispiel herausfinden: Welche KI-Bots dominieren bei mir auf der Domain

00:19:36.546 --> 00:19:41.746
<v Vortrag>das Crawling? Welche URLs rufen die KI-Bots auf? Wie schnell wird eine

00:19:41.746 --> 00:19:45.106
<v Vortrag>komplett neue URL durch welchen KI-Bot gefunden? Also

00:19:45.426 --> 00:19:48.706
<v Vortrag>wir können damit ziemlich viele großartige Analysen machen.

00:19:50.126 --> 00:19:53.166
<v Vortrag>Und für alle, die vielleicht noch nicht mit Serverlogs gearbeitet haben,

00:19:53.166 --> 00:19:56.466
<v Vortrag>noch keine Logfile-Analyse gemacht haben, fragen sich jetzt

00:19:56.586 --> 00:19:58.786
<v Vortrag>vielleicht: Okay, wo finde ich denn eigentlich

00:19:59.386 --> 00:20:03.966
<v Vortrag>meine Serverlogs? Das ist wiederum ein bisschen abhängig davon, auf welcher Umgebung eure

00:20:04.946 --> 00:20:09.726
<v Vortrag>Seite läuft. Ich würde mal sagen, der Klassiker für eine mittelgroße Seite

00:20:09.726 --> 00:20:13.646
<v Vortrag>ist vielleicht ein Managed Hoster, eventuell noch in Kombination mit einem

00:20:13.906 --> 00:20:17.586
<v Vortrag>CDN. Und je größer die Website-Strukturen werden, umso eher

00:20:17.586 --> 00:20:20.266
<v Vortrag>ist es wahrscheinlich eine Cloud-Lösung oder

00:20:20.966 --> 00:20:26.426
<v Vortrag>eine eigene Server-Konfiguration. Aber eigentlich egal, welche dieser Optionen

00:20:26.486 --> 00:20:28.906
<v Vortrag>ihr vorfindet: Ihr solltet in der Regel immer die

00:20:28.906 --> 00:20:31.666
<v Vortrag>Möglichkeit haben, die Logs zu

00:20:31.786 --> 00:20:36.066
<v Vortrag>exportieren oder zu transferieren. Also theoretisch gibt es immer die

00:20:37.394 --> 00:20:41.134
<v Vortrag>Option, auf die Serverlogs zuzugreifen. Und wenn ihr damit arbeiten wollt, dann kann

00:20:41.834 --> 00:20:45.294
<v Vortrag>ich euch nur empfehlen: Sprecht mit dem Server-Admin oder

00:20:45.454 --> 00:20:49.714
<v Vortrag>dem technischen Betrieb, wie das bei euch heißt, und sagt, dass ihr diese

00:20:49.714 --> 00:20:53.974
<v Vortrag>Logfiles für KI-Analysen braucht. Denn damit könnt ihr eure Sichtbarkeit

00:20:53.974 --> 00:20:55.094
<v Vortrag>in Large Language Models

00:20:55.094 --> 00:20:59.414
<v Vortrag>sichtbar machen. Und mit diesem Argument bekommt man die Serverlogs

00:20:59.974 --> 00:21:02.794
<v Vortrag>mittlerweile auch. In der Vergangenheit war es erfahrungsgemäß

00:21:02.814 --> 00:21:08.054
<v Vortrag>immer relativ schwer, daran zu kommen. Da waren Themen

00:21:08.774 --> 00:21:12.274
<v Vortrag>wie Datenschutz oder der Aufwand oft ein Hindernis. Aber mit

00:21:12.334 --> 00:21:16.194
<v Vortrag>dem Thema KI-Analyse bekomme ich die mittlerweile in zwei bis drei Tagen.

00:21:17.991 --> 00:21:21.131
<v Vortrag>So, wie sieht denn jetzt so ein Logfile-Eintrag

00:21:21.971 --> 00:21:25.051
<v Vortrag>überhaupt aus? Das ist jetzt auf den ersten Blick vielleicht

00:21:25.151 --> 00:21:28.711
<v Vortrag>ein bisschen kryptisch, aber wir brauchen davon gar nicht viel. Insgesamt ist

00:21:29.171 --> 00:21:33.911
<v Vortrag>es auch relativ leicht zu verstehen. Wir haben

00:21:34.091 --> 00:21:37.111
<v Vortrag>eigentlich vier Komponenten, die wir daraus insbesondere brauchen. Einmal den

00:21:37.211 --> 00:21:38.471
<v Vortrag>Zeitstempel. Der sagt

00:21:39.131 --> 00:21:43.711
<v Vortrag>uns ganz genau: Wann wurde überhaupt gecrawlt? Dann haben wir den

00:21:44.831 --> 00:21:47.351
<v Vortrag>URL-Pfad. Der sagt uns: Was wurde überhaupt gecrawlt? Dann

00:21:47.451 --> 00:21:50.651
<v Vortrag>gibt es noch den Status-Code. Der sagt

00:21:51.411 --> 00:21:55.291
<v Vortrag>wiederum: Wie hat unser Server auf diesen Request reagiert? Und

00:21:55.371 --> 00:21:56.931
<v Vortrag>zu guter Letzt haben wir

00:21:57.151 --> 00:22:00.011
<v Vortrag>noch den User-Agent-String. Das ist immer das, was

00:22:00.651 --> 00:22:06.131
<v Vortrag>am kryptischsten aussieht. Er sagt uns aber: Wer hat denn hier überhaupt

00:22:06.631 --> 00:22:10.631
<v Vortrag>gecrawlt? Und das ist jetzt das

00:22:11.071 --> 00:22:15.911
<v Vortrag>Spannende. Denn wir erinnern uns noch einmal an unsere vier

00:22:15.991 --> 00:22:18.571
<v Vortrag>AI-Bot-Typen. Die können wir

00:22:19.191 --> 00:22:24.091
<v Vortrag>anhand des User-Agent-Strings identifizieren. Mit einer Ausnahme: Die AI-Agents benutzen eine normale

00:22:25.131 --> 00:22:28.331
<v Vortrag>Browser-Kennung. Damit sind sie in den Logfiles

00:22:28.371 --> 00:22:32.411
<v Vortrag>nicht ohne Weiteres zu identifizieren. Deswegen: Wenn ihr Logfile-Analysen

00:22:32.511 --> 00:22:36.131
<v Vortrag>macht und Sichtbarkeit analysieren wollt, dann konzentriert

00:22:36.191 --> 00:22:38.871
<v Vortrag>euch auf die AI-Trainer und die

00:22:39.391 --> 00:22:43.111
<v Vortrag>AI-Assistants. Denn die haben einfach den höchsten Informationsgehalt.

00:22:44.231 --> 00:22:47.391
<v Vortrag>Das hat wiederum mit den Antwortprozessen der LLMs zu tun. Man kann

00:22:47.491 --> 00:22:51.491
<v Vortrag>ganz grob sagen, dass es einen Bereich gibt, in dem Grounding ausgelöst

00:22:51.491 --> 00:22:53.931
<v Vortrag>wird, also eine Websuche im Hintergrund. Und dann

00:22:54.631 --> 00:22:58.451
<v Vortrag>gibt es wiederum Fragen, die kein Grounding auslösen. Die Fragen, die Grounding

00:22:58.451 --> 00:23:00.371
<v Vortrag>auslösen, sind meistens sehr

00:23:00.831 --> 00:23:05.351
<v Vortrag>zeitkritische oder sehr aktuelle Informationen. Fragen nach Produkten, Preisen – all das

00:23:05.991 --> 00:23:09.691
<v Vortrag>löst in der Regel eine Websuche aus. Dagegen: Wenn

00:23:09.951 --> 00:23:13.691
<v Vortrag>ich eher kreative Aufgaben stelle, Mathematik, Code-Geschichten oder sehr

00:23:13.691 --> 00:23:17.451
<v Vortrag>stabile Wissensfragen – das hatten wir vorhin auch schon mal

00:23:18.031 --> 00:23:20.731
<v Vortrag>–, dann wird in der Regel kein Grounding ausgeführt.

00:23:22.282 --> 00:23:25.022
<v Vortrag>Und wenn wir uns das jetzt mal gegenüberstellen, dann ist das schon

00:23:25.022 --> 00:23:28.302
<v Vortrag>eigentlich sehr wichtig. Denn die Fragen, bei denen Grounding ausgeführt

00:23:28.702 --> 00:23:31.402
<v Vortrag>wird, sind für uns wahrscheinlich eher conversionrelevant.

00:23:31.482 --> 00:23:33.202
<v Vortrag>Das sind die Sachen, in die wir auch

00:23:33.922 --> 00:23:37.822
<v Vortrag>reinwollen. Und wenn wir diese Unterscheidung der Antwort-Typen jetzt auf

00:23:37.822 --> 00:23:43.022
<v Vortrag>unsere AI-Bots übertragen, dann sehen wir schon, dass es hier

00:23:43.022 --> 00:23:44.482
<v Vortrag>einen Unterschied zwischen

00:23:45.082 --> 00:23:49.942
<v Vortrag>diesen Antwortprozessen gibt. Allein schon beim Crawl-Zeitpunkt. Im Grounding

00:23:49.942 --> 00:23:54.202
<v Vortrag>findet das Crawling nämlich im Antwortprozess statt. Also:

00:23:54.462 --> 00:23:59.502
<v Vortrag>Jemand stellt eine Frage, es wird eine Websuche ausgelöst, ein

00:23:59.502 --> 00:24:03.342
<v Vortrag>Relevanzset wird gebildet aufgrund der Subqueries, dieses Relevanzset wird

00:24:03.342 --> 00:24:04.342
<v Vortrag>gecrawlt und

00:24:05.415 --> 00:24:08.335
<v Vortrag>dann wird auf Basis dieser Inhalte eine Antwort generiert.

00:24:08.415 --> 00:24:11.355
<v Vortrag>Bei dem anderen Prozess, bei dem die Knowledge

00:24:11.635 --> 00:24:15.315
<v Vortrag>Base zum Tragen kommt, also kein Grounding stattfindet, ist

00:24:15.375 --> 00:24:18.795
<v Vortrag>das Crawling bereits vorgelagert. Das sind unsere zwei unterschiedlichen Bot-Typen, nämlich die

00:24:19.795 --> 00:24:23.975
<v Vortrag>AI-Assistants und die AI-Trainer. Und besonders spannend ist der

00:24:24.255 --> 00:24:29.715
<v Vortrag>Prozess im Grounding. Denn wir können anhand der AI-Assistants

00:24:30.035 --> 00:24:34.355
<v Vortrag>Rückschlüsse auf Nutzeranfragen ziehen. Wir können anhand der AI-Assistants

00:24:34.435 --> 00:24:40.315
<v Vortrag>eigentlich wahres Nutzerinteresse identifizieren und damit eine Art Reverse-Prompt-Recherche machen.

00:24:41.655 --> 00:24:44.435
<v Vortrag>Ich habe meinen Prozess mitgebracht und ein

00:24:44.835 --> 00:24:46.335
<v Vortrag>paar Beispiele, wie

00:24:46.855 --> 00:24:52.955
<v Vortrag>das aussehen kann. Als Allererstes würde ich

00:24:52.955 --> 00:24:55.215
<v Vortrag>in dieser Identifikation

00:24:55.275 --> 00:24:59.135
<v Vortrag>des Nutzerinteresses die einzelnen Bot-Hits analysieren. Und das am besten je

00:24:59.555 --> 00:25:04.175
<v Vortrag>nach Modell, weil es hier Unterschiede gibt. Man schaut

00:25:04.175 --> 00:25:06.455
<v Vortrag>sich also erst mal

00:25:07.415 --> 00:25:10.755
<v Vortrag>ganz stupide an: Wie viele Hits hat welche Seite durch

00:25:10.755 --> 00:25:12.535
<v Vortrag>welchen Bot? Das allein

00:25:12.715 --> 00:25:15.755
<v Vortrag>ist schon interessant. Aber noch spannender wird es,

00:25:15.915 --> 00:25:18.915
<v Vortrag>wenn man die Daten aggregiert.

00:25:19.015 --> 00:25:22.175
<v Vortrag>Also nach Verzeichnis, Produktgruppen oder Themen. Dann

00:25:22.755 --> 00:25:26.275
<v Vortrag>sieht man schon: Welche Themenschwerpunkte sind denn am meisten

00:25:26.275 --> 00:25:28.855
<v Vortrag>gefragt? Und daraus kann man natürlich

00:25:28.915 --> 00:25:32.275
<v Vortrag>ableiten, wo man später vielleicht mehr investieren möchte –

00:25:32.275 --> 00:25:36.035
<v Vortrag>in Richtung weiterer GEO-Maßnahmen.

00:25:38.418 --> 00:25:43.698
<v Vortrag>Wenn ich mich jetzt diesem Punkt Reverse-Prompt-Engineering nähern will,

00:25:44.378 --> 00:25:47.178
<v Vortrag>würde ich mich jetzt halt durch die einzelnen URLs

00:25:47.538 --> 00:25:52.618
<v Vortrag>auch durcharbeiten. Das heißt, man kann hier sehr gut die Kombination mit den GSC-Daten nehmen.

00:25:52.818 --> 00:25:56.678
<v Vortrag>Man schaut sich die einzelnen URLs an und guckt dann zu

00:25:56.838 --> 00:26:01.038
<v Vortrag>diesen URLs: Was habe ich denn hier gerade im Long-Tail-Bereich in

00:26:01.078 --> 00:26:04.958
<v Vortrag>den GSC-Daten? Habe ich hier Fragen, die mir auffällig sind? Das ist schon

00:26:05.038 --> 00:26:11.458
<v Vortrag>mal der erste Indikator. Das könnten aggregierte Daten sein, die auch

00:26:11.458 --> 00:26:15.558
<v Vortrag>so in einem längeren Prompt, in einem individuellen Prompt natürlich,

00:26:16.218 --> 00:26:21.318
<v Vortrag>in den LLMs gestellt werden. Und neben diesem Zugang über die GSC

00:26:21.318 --> 00:26:22.878
<v Vortrag>würde ich immer noch

00:26:22.878 --> 00:26:28.258
<v Vortrag>parallel mit einem KI-Agenten arbeiten. Das heißt, diese Top-URLs

00:26:28.258 --> 00:26:32.578
<v Vortrag>dann einem KI-Agenten übergeben, Themen und Entitäten extrahieren lassen

00:26:32.778 --> 00:26:36.018
<v Vortrag>und durch den KI-Agenten mögliche Fragen entwickeln lassen. Und

00:26:36.258 --> 00:26:39.598
<v Vortrag>das am besten schon entlang der Customer Journey

00:26:39.738 --> 00:26:43.098
<v Vortrag>und des Such-Intents. Sodass ich diese

00:26:43.358 --> 00:26:45.978
<v Vortrag>ganzen Fragen, die eher diese informationellen Bereiche abdecken, schon mal außen vor lasse

00:26:45.978 --> 00:26:50.058
<v Vortrag>und wirklich meine wichtigsten Fragestellungen herausziehe, die weiter unten im

00:26:50.678 --> 00:26:55.798
<v Vortrag>Funnel liegen. Und mit diesen Fragen kann ich dann sehr gezielt ein

00:26:55.798 --> 00:26:58.138
<v Vortrag>Tracking beziehungsweise Monitoring

00:26:58.258 --> 00:27:01.718
<v Vortrag>aufsetzen. Denn ich kann es anhand des wahren Nutzerinteresses ableiten.

00:27:01.778 --> 00:27:04.538
<v Vortrag>Ich muss mir nicht überlegen, was mögliche Fragen sein könnten,

00:27:04.598 --> 00:27:07.438
<v Vortrag>die irgendjemand gestellt hat, sondern ich habe bereits klare Hinweise, an denen

00:27:07.678 --> 00:27:09.178
<v Vortrag>ich mich abarbeiten kann.

00:27:11.030 --> 00:27:15.690
<v Vortrag>Aber wir können mit Logfiles sogar noch mehr machen, außer dieses Nutzerinteresse zu

00:27:15.930 --> 00:27:19.950
<v Vortrag>identifizieren. Wir können auch schon etwas über unsere eigene

00:27:20.610 --> 00:27:25.690
<v Vortrag>AI-Performance sagen. Und da lohnt es sich auf jeden Fall, die Serverlogs noch

00:27:25.690 --> 00:27:28.930
<v Vortrag>mit weiteren Datenquellen anzureichern. Also GA4, GSC. Und

00:27:29.450 --> 00:27:33.030
<v Vortrag>daraus können wir dann sehr viele interessante Schlüsse ziehen. Ich mache im

00:27:33.030 --> 00:27:35.950
<v Vortrag>ersten Schritt immer so eine Art Quantifizierung. Das heißt, ich schaue

00:27:36.030 --> 00:27:40.270
<v Vortrag>mir erst mal ganz simpel an: Wie viele URLs werden denn überhaupt von einem

00:27:40.270 --> 00:27:44.450
<v Vortrag>AI-Assistant genutzt? Also: Wie

00:27:44.670 --> 00:27:47.890
<v Vortrag>viele meiner URLs werden überhaupt schon im Grounding genutzt? Und

00:27:48.710 --> 00:27:52.430
<v Vortrag>das stelle ich den GSC-Daten gegenüber. Also: Wie viele URLs habe ich dort

00:27:52.430 --> 00:27:55.450
<v Vortrag>mit einer Impression? Dann habe ich schon eine Art AI-Score. Hier in dem

00:27:55.930 --> 00:27:59.550
<v Vortrag>Fall sind es 79 Prozent. Das ist tatsächlich schon relativ viel. Oftmals sehe

00:27:59.910 --> 00:28:03.410
<v Vortrag>ich Anteile von 50 bis 60 Prozent. Da hat man natürlich noch sehr viel

00:28:03.410 --> 00:28:06.690
<v Vortrag>Raum für Entwicklung und Optimierung.

00:28:07.910 --> 00:28:11.610
<v Vortrag>Neben dieser Quantifizierung ist auch eine Qualifizierung spannend.

00:28:11.690 --> 00:28:15.790
<v Vortrag>Also wirklich zu gucken: Führen diese Hits denn auch wirklich

00:28:16.170 --> 00:28:18.450
<v Vortrag>zu Klicks? Das könnte ich jetzt auch schon

00:28:18.510 --> 00:28:21.690
<v Vortrag>anhand der Serverlogs machen. Dafür bräuchte ich theoretisch die

00:28:21.810 --> 00:28:24.710
<v Vortrag>GA4-Daten nicht. Spannend ist aber zusätzlich, Conversions mit dazuzunehmen. Also nicht

00:28:24.710 --> 00:28:26.910
<v Vortrag>nur die Klicks, die auf meine Seite kommen, sondern

00:28:27.010 --> 00:28:29.610
<v Vortrag>auch: Hat der Klick

00:28:30.490 --> 00:28:34.890
<v Vortrag>konvertiert? Man kann die Daten unglaublich stark anreichern und sehr viele

00:28:34.890 --> 00:28:36.210
<v Vortrag>Erkenntnisse daraus ziehen.

00:28:36.510 --> 00:28:39.670
<v Vortrag>Ein Ansatz ist zum Beispiel zu schauen, ob ich sogenannte

00:28:39.870 --> 00:28:41.350
<v Vortrag>Hidden Champions habe. Also URLs,

00:28:42.270 --> 00:28:47.690
<v Vortrag>die für das Grounding genutzt werden, in einem relativ geringen

00:28:47.830 --> 00:28:50.330
<v Vortrag>Ausmaß, aber einen übermäßigen Anteil

00:28:50.330 --> 00:28:53.450
<v Vortrag>an Klicks bringen. Und die ich in den normalen Search-Daten

00:28:53.450 --> 00:28:58.070
<v Vortrag>der GSC möglicherweise gar nicht finden würde,

00:28:58.130 --> 00:29:01.030
<v Vortrag>weil sie dort nur wenige Klicks bringen. Aber sie scheinen besonders relevant

00:29:01.030 --> 00:29:03.070
<v Vortrag>in LLMs zu sein.

00:29:04.769 --> 00:29:10.129
<v Vortrag>Daneben ist auch hier eine Aggregation wieder spannend. Ihr seht

00:29:10.489 --> 00:29:14.489
<v Vortrag>hier fast 50 Prozent für den Bereich Gesundheit und Ernährung. Ich hatte

00:29:14.749 --> 00:29:20.889
<v Vortrag>eben eine Grafik, bei der Gesundheit und Ernährung 25 Prozent hatte, also die reinen

00:29:21.689 --> 00:29:25.669
<v Vortrag>Hits. Das heißt: Von den reinen Hits zu den URLs, die auch einen

00:29:26.129 --> 00:29:29.189
<v Vortrag>Klick bekommen, haben wir hier einen großen Sprung.

00:29:29.349 --> 00:29:31.289
<v Vortrag>Diese Inhalte performen also

00:29:31.489 --> 00:29:34.509
<v Vortrag>überdurchschnittlich gut. Gesundheit und Ernährung scheint hier richtig gut

00:29:34.689 --> 00:29:39.489
<v Vortrag>zu funktionieren. Da sollte ich schauen, ob ich die Erfolgsrezepte dieser

00:29:39.489 --> 00:29:42.909
<v Vortrag>Seiten übertragen kann. Ob ich diese Seiten für Conversion weiter

00:29:42.909 --> 00:29:45.249
<v Vortrag>optimiere, interne Verlinkungen ausbaue.

00:29:45.549 --> 00:29:49.109
<v Vortrag>Es gibt viele Ideen, wie man mit diesen Daten weiterarbeiten kann.

00:29:49.929 --> 00:29:53.269
<v Vortrag>Und dann ist natürlich auch die Frage: Welche Inhalte werden denn

00:29:53.269 --> 00:29:57.469
<v Vortrag>nicht genutzt oder führen zu keinen Klicks? Denn auch das kann

00:29:57.549 --> 00:30:00.449
<v Vortrag>spannend sein. Man kann daraus ableiten, wo man

00:30:01.049 --> 00:30:04.829
<v Vortrag>vielleicht in Zukunft weniger investieren sollte. Man sieht hier,

00:30:04.929 --> 00:30:09.109
<v Vortrag>dass teilweise unter den Top-URLs mit den Top-Hits im Grounding

00:30:09.149 --> 00:30:10.449
<v Vortrag>einige dabei sind, die

00:30:10.949 --> 00:30:15.109
<v Vortrag>gar keine Klicks bekommen. Wenn man sich das ansieht, dann sind das

00:30:15.109 --> 00:30:19.029
<v Vortrag>oft diese rein informationellen Inhalte. Dort lohnt es sich

00:30:19.109 --> 00:30:22.189
<v Vortrag>wahrscheinlich weniger, weiter zu investieren. Auch das sind mögliche Schlussfolgerungen.

00:30:23.915 --> 00:30:28.395
<v Vortrag>Der dritte Bereich, über den wir durch die Logfiles Aufschluss

00:30:28.435 --> 00:30:29.395
<v Vortrag>bekommen können, ist die

00:30:29.515 --> 00:30:33.315
<v Vortrag>Knowledge-Phase. Also: Was ist eigentlich schon von meinen Inhalten in

00:30:33.335 --> 00:30:36.335
<v Vortrag>den internen

00:30:37.075 --> 00:30:40.855
<v Vortrag>KI-Wissenssystemen abgelegt? Das geht, indem ich mir die Klicks anschaue, die

00:30:40.975 --> 00:30:44.715
<v Vortrag>ich aus diesen einzelnen Systemen bekomme, und gleichzeitig

00:30:44.815 --> 00:30:48.695
<v Vortrag>prüfe, ob ich in den Serverlogs einen AI-Assistant-Eintrag dazu

00:30:49.495 --> 00:30:52.795
<v Vortrag>finde. Wenn ich den nicht finde, bedeutet das im

00:30:53.055 --> 00:30:56.335
<v Vortrag>Umkehrschluss, dass meine Inhalte bereits im Foundation Model

00:30:56.915 --> 00:30:58.375
<v Vortrag>vorhanden sein müssen. Und man

00:30:58.435 --> 00:31:01.975
<v Vortrag>sieht das eigentlich sehr gut. Das sind meistens Informationen

00:31:02.395 --> 00:31:07.095
<v Vortrag>wie Checkout, Account-Bereiche, Kontaktdaten zu Unternehmen oder Informationen über

00:31:07.195 --> 00:31:09.315
<v Vortrag>Unternehmen. Also Dinge, die nicht so volatil sind.

00:31:10.175 --> 00:31:14.395
<v Vortrag>Ich habe hier mal ein schönes Beispiel gehabt, das uns wirklich

00:31:14.395 --> 00:31:15.475
<v Vortrag>ein bisschen die

00:31:15.535 --> 00:31:18.455
<v Vortrag>Augen geöffnet hat. Wir hatten die Daten aggregiert und gesehen,

00:31:19.055 --> 00:31:25.135
<v Vortrag>dass der Anteil bei den Artists bei 26 Prozent lag. Also

00:31:25.275 --> 00:31:31.095
<v Vortrag>beim GPT-Bot waren 26 Prozent aller Hits auf Artists verteilt. Und

00:31:31.215 --> 00:31:35.235
<v Vortrag>wir haben daneben noch die AI-Assistants gelegt, also die

00:31:35.315 --> 00:31:36.555
<v Vortrag>URLs, die im Grounding

00:31:36.915 --> 00:31:40.975
<v Vortrag>genutzt werden. Dort machten die Artists nur zwei Prozent aus.

00:31:41.255 --> 00:31:46.375
<v Vortrag>Das heißt: Sie werden unterdurchschnittlich oft in Grounding-Suchen genutzt.

00:31:46.375 --> 00:31:47.535
<v Vortrag>Was wiederum

00:31:47.655 --> 00:31:51.015
<v Vortrag>bedeutet: Wahrscheinlich werden diese Inhalte direkt aus der

00:31:51.015 --> 00:31:54.035
<v Vortrag>internen Knowledge Base beantwortet. Was auch Sinn

00:31:54.115 --> 00:31:57.495
<v Vortrag>macht, wenn man sich Artists vorstellt. Das sind nicht unbedingt brandaktuelle

00:31:57.495 --> 00:32:01.055
<v Vortrag>Informationen – außer wenn es um Konzerte geht.

00:32:01.415 --> 00:32:04.655
<v Vortrag>Das heißt auch hier: Eigentlich sollten wir darauf nicht noch

00:32:04.655 --> 00:32:07.575
<v Vortrag>zusätzliche GEO-Maßnahmen setzen.

00:32:10.113 --> 00:32:13.973
<v Vortrag>Zu guter Letzt kann ich mit den Serverlogs auch

00:32:14.013 --> 00:32:15.013
<v Vortrag>die Erreichbarkeit analysieren. Also:

00:32:15.113 --> 00:32:18.773
<v Vortrag>Wie bin ich überhaupt für alle AI-Bots erreichbar?

00:32:19.133 --> 00:32:22.933
<v Vortrag>Indem ich einfach schaue: Finde ich überhaupt alle wesentlichen AI-Bots

00:32:22.933 --> 00:32:26.253
<v Vortrag>in meinen Serverlogs? Und natürlich prüfe ich auch, ob sie alle

00:32:26.253 --> 00:32:30.153
<v Vortrag>einen Statuscode 200 bekommen. Auch die Verteilung ist teilweise schon spannend. Ich

00:32:30.453 --> 00:32:35.653
<v Vortrag>sehe in mehreren Projekten, dass der AI-Assistant von OpenAI, also der

00:32:36.013 --> 00:32:39.733
<v Vortrag>ChatGPT-User-Bot, mittlerweile schon den zweitgrößten Anteil ausmacht.

00:32:39.813 --> 00:32:42.113
<v Vortrag>Noch vor Bing. Das ist der Wahnsinn.

00:32:42.353 --> 00:32:47.453
<v Vortrag>Der ChatGPT-User-Bot crawlt häufiger die Seite als

00:32:48.013 --> 00:32:50.653
<v Vortrag>Bing. Auch das ist spannend, sich einfach mal anzuschauen.

00:32:52.173 --> 00:32:57.493
<v Vortrag>Zu guter Letzt habe ich noch einen kleinen Vergleich zu den Bing

00:32:58.473 --> 00:33:03.633
<v Vortrag>Webmaster Tools gezogen. Vor ein oder zwei Monaten – es ist noch gar nicht

00:33:03.773 --> 00:33:07.753
<v Vortrag>so lange her – hat uns Bing einen

00:33:07.753 --> 00:33:13.653
<v Vortrag>neuen Bereich zur Verfügung gestellt. AI Performance heißt der.

00:33:13.853 --> 00:33:15.413
<v Vortrag>Hier finden wir aggregierte Grounding-Queries und

00:33:15.933 --> 00:33:18.873
<v Vortrag>Pages, die für das Grounding genutzt wurden. Wir haben

00:33:19.073 --> 00:33:22.253
<v Vortrag>leider keine direkte Querverbindung. Wir wissen also nicht: Welche

00:33:22.253 --> 00:33:25.813
<v Vortrag>Grounding-Query passt zu welcher Page? Man kann es natürlich teilweise

00:33:25.813 --> 00:33:27.593
<v Vortrag>ableiten, aber das fehlt an dieser Stelle.

00:33:27.773 --> 00:33:30.513
<v Vortrag>Ich habe mich gefragt: Wie gut sind diese Daten eigentlich? Vielleicht

00:33:30.513 --> 00:33:36.693
<v Vortrag>ersetzen die ja sogar die Serverlogs. Und wir können uns diese Abkürzung

00:33:37.053 --> 00:33:40.313
<v Vortrag>nehmen. Ich habe zunächst mit unserer eigenen Domain gestartet. Zugegeben, die

00:33:40.313 --> 00:33:45.333
<v Vortrag>ist nicht sehr groß. Aber ich habe dort trotzdem nur eine Page

00:33:45.333 --> 00:33:46.333
<v Vortrag>gefunden. Im Vergleich

00:33:46.593 --> 00:33:52.773
<v Vortrag>dazu habe ich in den Serverlogs 39 URLs gefunden und über

00:33:52.853 --> 00:33:55.213
<v Vortrag>300 ChatGPT-User-Hits im gleichen Zeitraum.

00:33:56.073 --> 00:33:59.753
<v Vortrag>Jeweils 30 Tage. Und wenn man zusätzlich die GSC-Daten dazulegt, findet man

00:33:59.993 --> 00:34:03.453
<v Vortrag>noch ein paar mehr URLs. Insgesamt scheint unsere Domain aber schon

00:34:03.453 --> 00:34:07.133
<v Vortrag>relativ gut im Grounding genutzt zu werden. Wir

00:34:07.253 --> 00:34:09.293
<v Vortrag>haben eine Durchdringung von 86 Prozent.

00:34:11.034 --> 00:34:15.994
<v Vortrag>Und dann zu guter Letzt auch noch spannend, sich diese Top-URLs im

00:34:16.254 --> 00:34:21.414
<v Vortrag>Vergleich anzuschauen. Also entsprechend die Top-Ten-Logfile-Daten, dann auch die der

00:34:21.414 --> 00:34:22.534
<v Vortrag>GSC und der Bing

00:34:22.794 --> 00:34:27.834
<v Vortrag>Webmaster Tools. Und da kann man ganz abgekürzt sagen:

00:34:28.034 --> 00:34:33.814
<v Vortrag>Es entspricht sich nicht. Es gibt eine Übereinstimmung von circa 50 Prozent, wenn ich

00:34:34.574 --> 00:34:39.294
<v Vortrag>mir verschiedene Datensets anschaue. Und das entspricht auch dem, was wir wissen:

00:34:39.294 --> 00:34:45.574
<v Vortrag>Ein gutes Ranking in Google und Bing korreliert mit

00:34:45.814 --> 00:34:48.234
<v Vortrag>Sichtbarkeit in LLM-Antworten. Aber es ist eben

00:34:48.474 --> 00:34:52.694
<v Vortrag>nur eine Korrelation. In den Logfiles finden wir noch sehr viel mehr

00:34:52.694 --> 00:34:54.754
<v Vortrag>Inhalte und gerade auch solche Hidden Champions. Von

00:34:55.114 --> 00:35:00.554
<v Vortrag>daher lohnt es sich aus meiner Sicht auf jeden Fall, in die Daten zu

00:35:01.174 --> 00:35:05.134
<v Vortrag>schauen. Ich habe das auch noch an einem zweiten Beispiel

00:35:05.554 --> 00:35:10.454
<v Vortrag>durchgespielt. Auch hier habe ich immerhin 14 URLs gefunden. Im Vergleich zu den

00:35:10.454 --> 00:35:14.594
<v Vortrag>Serverlogs habe ich jedoch 113 URLs im Grounding gefunden. Also

00:35:14.974 --> 00:35:17.994
<v Vortrag>unter zehn Prozent dessen, was uns Bing hier zur Verfügung

00:35:18.674 --> 00:35:22.914
<v Vortrag>stellt. Natürlich muss man dabei anmerken: Die Nutzung von Copilot ist

00:35:22.914 --> 00:35:25.294
<v Vortrag>wesentlich geringer als die Nutzung

00:35:26.254 --> 00:35:29.654
<v Vortrag>von ChatGPT. Das heißt, man kann es nicht direkt vergleichen. Aber die

00:35:29.654 --> 00:35:35.294
<v Vortrag>Daten zeigen auch hier, dass wir mit den Logfiles deutlich mehr Erkenntnisse gewinnen können.

00:35:36.754 --> 00:35:40.774
<v Vortrag>Genau, auch das hier noch ein Beispiel. Hier sind es zum Beispiel um die 60

00:35:40.774 --> 00:35:42.774
<v Vortrag>Prozent. Hier besteht noch

00:35:44.222 --> 00:35:49.822
<v Vortrag>erhebliches Potenzial. Kommen wir zum Recap. Was sind jetzt die Takeaways, die ihr hier

00:35:50.342 --> 00:35:55.742
<v Vortrag>mitnehmen könnt? Als Allererstes: Ein gutes Crawl- und Index-Management ist wichtiger

00:35:55.742 --> 00:36:02.502
<v Vortrag>denn je. Die Rahmenbedingungen haben sich verschärft und wir müssen gute Basics

00:36:02.742 --> 00:36:05.542
<v Vortrag>schaffen, damit wir in LLMs sichtbar

00:36:05.942 --> 00:36:10.962
<v Vortrag>sind. Wenn wir das erledigt haben, dann müssen wir uns um diesen neuen

00:36:10.962 --> 00:36:13.142
<v Vortrag>Bot-Typus KI-Crawler kümmern. Denn die haben noch einmal

00:36:13.322 --> 00:36:17.502
<v Vortrag>gewisse andere Ansprüche. Wir müssen Barrieren abbauen und ein optimales Setup

00:36:18.482 --> 00:36:22.642
<v Vortrag>für sie schaffen. Und zu guter Letzt: Wenn wir das

00:36:22.722 --> 00:36:24.122
<v Vortrag>alles erledigt haben und

00:36:24.462 --> 00:36:28.682
<v Vortrag>die Basics geschaffen sind, dann können wir die Crawl-Aktivitäten für uns nutzen. Denn

00:36:28.682 --> 00:36:32.702
<v Vortrag>wir können mit den Logfiles analysieren: Wie sichtbar sind wir aktuell

00:36:32.702 --> 00:36:36.942
<v Vortrag>schon in den einzelnen Large Language Models? Und wo können wir vielleicht

00:36:36.942 --> 00:36:38.662
<v Vortrag>sogar noch Optimierungsmaßnahmen

00:36:39.862 --> 00:36:44.302
<v Vortrag>ableiten? Ja, damit habe ich nur noch zwei kleine Tool-Tipps. Einmal diesen

00:36:44.582 --> 00:36:47.822
<v Vortrag>KI-Bot-Checker, mit dem ihr prüfen könnt, ob ihr irgendwo strukturelle

00:36:47.882 --> 00:36:51.362
<v Vortrag>Barrieren habt. Und wenn ihr selber einmal mit Logfiles arbeiten wollt: Das ist

00:36:51.462 --> 00:36:54.662
<v Vortrag>alles kostenfrei und datenschutzkonform. Könnt ihr gerne ausprobieren. Es

00:36:54.722 --> 00:36:56.582
<v Vortrag>gibt sicherlich auch noch andere Alternativen.

00:36:57.442 --> 00:36:59.262
<v Vortrag>Ja, damit bin ich am Ende. Vielen lieben Dank.

00:37:01.625 --> 00:37:06.185
<v Vortrag>Ja, super. Vielen, vielen Dank dir, liebe Juliane. Es sind auch

00:37:06.185 --> 00:37:07.965
<v Vortrag>tatsächlich einige Fragen

00:37:08.165 --> 00:37:12.245
<v Vortrag>eingetrudelt. Wir haben noch ein bisschen Zeit, Markus. Ich würde sagen, du

00:37:12.245 --> 00:37:13.465
<v Vortrag>kannst einfach mal loslegen

00:37:14.365 --> 00:37:18.245
<v Vortrag>mit deinen Fragen. Ja, hallo auch von mir noch mal.

00:37:19.705 --> 00:37:22.545
<v Vortrag>Danke für den guten Vortrag. Ein paar Fragen sind schon da,

00:37:22.625 --> 00:37:25.685
<v Vortrag>aber wir hätten durchaus noch Platz. Wenn jemand noch etwas auf

00:37:25.785 --> 00:37:28.845
<v Vortrag>dem Herzen hat, ich glaube zwei oder drei gute Fragen

00:37:30.865 --> 00:37:35.165
<v Vortrag>könnten wir noch gebrauchen. Aber ich fange mal an.

00:37:35.245 --> 00:37:38.025
<v Vortrag>KI-Crawler blocken war ein Thema. Aber die Rückfrage von

00:37:38.785 --> 00:37:42.665
<v Vortrag>jemandem: Was für gute Gründe gibt es eigentlich, KI-Crawler zu blocken?

00:37:42.905 --> 00:37:44.685
<v Vortrag>Ja, das ist ein

00:37:45.265 --> 00:37:49.125
<v Vortrag>sehr gutes Thema. Kommt halt darauf an, wie exklusiv meine Inhalte

00:37:49.505 --> 00:37:53.605
<v Vortrag>sind. Zum Beispiel gerade im Publishing-Bereich wird das

00:37:53.785 --> 00:37:57.105
<v Vortrag>sehr stark diskutiert. Denn hier wird natürlich Traffic abgezogen – zumindest in

00:37:57.105 --> 00:38:01.845
<v Vortrag>großen Teilen. Wenn Informationen von anderen Plattformen einfach gescrapt und angeboten werden,

00:38:02.545 --> 00:38:04.085
<v Vortrag>dann hat man da natürlich ein gewisses

00:38:04.085 --> 00:38:06.325
<v Vortrag>Missverhältnis. Ich würde auch eigentlich

00:38:06.325 --> 00:38:10.745
<v Vortrag>erst mal niemandem aktiv empfehlen, Inhalte zu blocken.

00:38:10.805 --> 00:38:13.705
<v Vortrag>Ich würde eher schauen: Habe ich bestimmte exklusive Inhalte?

00:38:13.865 --> 00:38:21.825
<v Vortrag>Deswegen bin ich auch kein Fan von globalem Sperren. Gezielte Sperrungen sind eher das Thema.

00:38:24.105 --> 00:38:29.805
<v Vortrag>Es kommt viel Lob im Chat. Starker Vortrag. Danke dafür noch

00:38:31.265 --> 00:38:33.805
<v Vortrag>mal. Eine interessante Frage, die hätte ich gar nicht

00:38:33.865 --> 00:38:34.785
<v Vortrag>so vorhergesehen, aber ich finde

00:38:34.985 --> 00:38:39.945
<v Vortrag>sie echt gut: Wäre eine an Barrierefreiheit angepasste und

00:38:39.945 --> 00:38:42.825
<v Vortrag>strukturierte Website unterm Strich auch für KI-Systeme besser

00:38:43.185 --> 00:38:47.905
<v Vortrag>les- und verarbeitbar? Ja, definitiv. Das kann man mit einem klaren

00:38:49.512 --> 00:38:52.352
<v Vortrag>Ja beantworten. Absolut. Weil JavaScript zum Beispiel für die ja auch nicht

00:38:52.672 --> 00:38:55.712
<v Vortrag>so gut wäre. Genau. Und auch semantische Tags spielen hier eine

00:38:55.892 --> 00:39:01.592
<v Vortrag>Rolle. Also ja: Eine barrierefreie Seite hilft auch für KI-Systeme.

00:39:04.212 --> 00:39:07.792
<v Vortrag>Logfile-Analyse. Welchen Zeitraum der Logfiles sollte man sich ansehen,

00:39:07.852 --> 00:39:10.952
<v Vortrag>um eine konkrete Aussage treffen zu können? Guter

00:39:12.532 --> 00:39:14.972
<v Vortrag>Punkt. Nehmt, was ihr kriegen könnt, würde ich erst

00:39:15.772 --> 00:39:19.312
<v Vortrag>mal sagen. In der Regel kann man schon mit vier Wochen sehr

00:39:19.512 --> 00:39:21.972
<v Vortrag>gut arbeiten. Ich beschäftige mich schon länger damit und

00:39:22.152 --> 00:39:27.132
<v Vortrag>habe gemerkt, dass sich das in den letzten Monaten noch einmal extrem

00:39:27.252 --> 00:39:31.012
<v Vortrag>verstärkt hat. Wenn man sich im August zum Beispiel Logfiles

00:39:31.052 --> 00:39:36.312
<v Vortrag>angeguckt hat, hat sich die Frequenz gerade von diesen AI-Assistants noch

00:39:36.532 --> 00:39:38.952
<v Vortrag>einmal extrem erhöht. Das heißt, es lohnt sich schon,

00:39:38.992 --> 00:39:42.992
<v Vortrag>immer mal wieder hineinzuschauen. Denn ich glaube, man kann dadurch auch Trendentwicklungen erkennen. Vier

00:39:43.192 --> 00:39:47.392
<v Vortrag>Wochen reichen aber schon aus. Da kann man sehr viel herauslesen.

00:39:50.312 --> 00:39:54.052
<v Vortrag>Diese Logfiles können ja relativ gewaltig groß werden. Die

00:39:54.132 --> 00:39:56.312
<v Vortrag>guckt man sich wahrscheinlich nicht mehr mit einem Texteditor an.

00:39:56.452 --> 00:39:58.912
<v Vortrag>Gibt es Tools für die Auswertung dieser Zugriffe?

00:39:59.332 --> 00:40:03.072
<v Vortrag>Genau, die gibt es. Ich hatte zum Schluss eins gezeigt. Wir haben

00:40:03.292 --> 00:40:06.232
<v Vortrag>für uns eine Lösung mit Fokus auf AI-Bots. Ansonsten

00:40:06.592 --> 00:40:09.652
<v Vortrag>gibt es beispielsweise vom Screaming Frog den Log File

00:40:09.732 --> 00:40:10.852
<v Vortrag>Analyser. Der ist

00:40:11.392 --> 00:40:14.392
<v Vortrag>relativ günstig. Den kann man, glaube ich, für etwa 150 Euro im

00:40:14.392 --> 00:40:17.852
<v Vortrag>Jahr kaufen. Dann gibt es auch größere

00:40:17.892 --> 00:40:20.832
<v Vortrag>Tool-Anbieter wie OnCrawl. Es gibt verschiedene Lösungen. Man braucht tatsächlich

00:40:20.832 --> 00:40:23.292
<v Vortrag>ein Tool dafür. Anders macht das keinen Sinn.

00:40:25.122 --> 00:40:28.042
<v Vortrag>Du hattest auch

00:40:28.162 --> 00:40:30.042
<v Vortrag>Time-to-First-Byte-Monitoring genannt. Also

00:40:30.902 --> 00:40:33.942
<v Vortrag>wie schnell antwortet mein Server eigentlich? Das

00:40:33.942 --> 00:40:37.722
<v Vortrag>kann man sich ja kostenlos in den

00:40:38.602 --> 00:40:42.262
<v Vortrag>Crawling-Statistiken der Search Console anschauen. Aber da

00:40:43.022 --> 00:40:46.622
<v Vortrag>habe ich diesen Zeitverzug. Wie würdest du

00:40:46.842 --> 00:40:49.762
<v Vortrag>das kurzfristig überwachen? Ja, das

00:40:49.762 --> 00:40:53.942
<v Vortrag>ist so ein Thema. Dann brauche

00:40:54.482 --> 00:40:58.082
<v Vortrag>ich wahrscheinlich schon ein aufwendigeres Monitoring.

00:40:58.262 --> 00:41:01.722
<v Vortrag>Entweder direkt ein Server-Monitoring oder andere

00:41:01.722 --> 00:41:04.822
<v Vortrag>Tools, die das überwachen. Du

00:41:04.962 --> 00:41:07.362
<v Vortrag>kannst dir über PageSpeed Insights zum Beispiel

00:41:07.562 --> 00:41:10.122
<v Vortrag>auch den Time to First Byte

00:41:10.122 --> 00:41:14.722
<v Vortrag>ausgeben lassen. Aber dafür müsste

00:41:14.762 --> 00:41:15.902
<v Vortrag>ich täglich hineinschauen.

00:41:16.382 --> 00:41:19.162
<v Vortrag>Das ist schon komplexer. Das sollte

00:41:19.162 --> 00:41:24.682
<v Vortrag>man wahrscheinlich eher in Richtung

00:41:24.682 --> 00:41:27.562
<v Vortrag>IT und Server-Monitoring geben.

00:41:29.302 --> 00:41:32.222
<v Vortrag>Gerade als kleine oder mittlere Website

00:41:32.302 --> 00:41:35.262
<v Vortrag>ist das schwieriger. Da braucht man wahrscheinlich

00:41:35.262 --> 00:41:37.462
<v Vortrag>kostenpflichtige Tools für ein echtes Monitoring.

00:41:39.395 --> 00:41:42.515
<v Vortrag>Du hast ja auch an einigen Stellen Daten aus verschiedenen Quellen zusammengeführt.

00:41:44.075 --> 00:41:48.955
<v Vortrag>Search Console, AI Performance Report, andere Datenquellen. Wie geht ihr

00:41:48.995 --> 00:41:53.435
<v Vortrag>damit in der Praxis um? Habt ihr da eine Plattform?

00:41:53.435 --> 00:41:58.115
<v Vortrag>Ja, wir analysieren die Logfiles im Bulk und binden das momentan einfach

00:41:59.355 --> 00:42:01.835
<v Vortrag>in einem Looker-Studio-Dashboard an. Das geht relativ unkompliziert. Man kann über

00:42:01.835 --> 00:42:04.455
<v Vortrag>APIs natürlich noch weitere Datenquellen integrieren. Ganz basic: Logfile-Daten

00:42:05.015 --> 00:42:12.055
<v Vortrag>aggregieren, als Sheets bereitstellen und an ein Looker-Studio-Dashboard anbinden.

00:42:12.235 --> 00:42:16.035
<v Vortrag>Dazu kommen die Konnektoren für GSC und GA4. Das

00:42:16.035 --> 00:42:19.935
<v Vortrag>ist erst mal der einfache Weg.

00:42:21.595 --> 00:42:23.755
<v Vortrag>So, jetzt kommen noch mehr Fragen rein.

00:42:23.875 --> 00:42:26.115
<v Vortrag>Verrückt. Was ist

00:42:26.555 --> 00:42:31.895
<v Vortrag>hier heute los? Lesen Bots auch semantisch

00:42:32.975 --> 00:42:36.775
<v Vortrag>YouTube-Videos aus, zum Beispiel

00:42:37.035 --> 00:42:41.535
<v Vortrag>die Tonspur oder Untertitel? Ja, das ist ein

00:42:42.755 --> 00:42:44.895
<v Vortrag>sehr guter Punkt. Da bin ich

00:42:45.135 --> 00:42:48.595
<v Vortrag>ehrlich gesagt selbst noch dabei,

00:42:48.935 --> 00:42:51.275
<v Vortrag>das zu analysieren und Test-Setups aufzubauen.

00:42:51.635 --> 00:42:56.115
<v Vortrag>Bei YouTube kann ich mir das sehr

00:42:56.115 --> 00:42:59.415
<v Vortrag>gut vorstellen. Gerade im Google-Umfeld liegt

00:43:00.735 --> 00:43:04.275
<v Vortrag>das nahe. Und bei ChatGPT

00:43:04.375 --> 00:43:06.375
<v Vortrag>kann ich mir

00:43:07.195 --> 00:43:11.315
<v Vortrag>vorstellen, dass solche Daten für Trainingszwecke genutzt werden. Aber

00:43:11.315 --> 00:43:15.735
<v Vortrag>wie gut das tatsächlich funktioniert, ist noch

00:43:16.675 --> 00:43:21.155
<v Vortrag>offen. Im Retrieval würde ich das eher bezweifeln.

00:43:21.155 --> 00:43:23.415
<v Vortrag>In der

00:43:24.395 --> 00:43:28.295
<v Vortrag>Knowledge Base eher ja. Wie gesagt:

00:43:28.495 --> 00:43:32.495
<v Vortrag>Da laufen bei mir selbst noch

00:43:32.775 --> 00:43:36.515
<v Vortrag>Tests. Mein Gefühl ist aber, dass

00:43:38.019 --> 00:43:41.399
<v Vortrag>Video- und Audio-Inhalte aktuell noch Nachteile haben.

00:43:44.039 --> 00:43:49.619
<v Vortrag>Noch eine Frage: Schadet die Sperrung

00:43:49.799 --> 00:43:54.559
<v Vortrag>einzelner Verzeichnisse, beispielsweise für das LLM-Training, der Sichtbarkeit

00:43:55.139 --> 00:43:57.639
<v Vortrag>der Domain insgesamt? Also beim Grounding oder bei

00:43:57.739 --> 00:44:01.999
<v Vortrag>Inhalten, die nicht gesperrt sind? Nein. Klares Nein. Die LLMs haben

00:44:02.459 --> 00:44:06.839
<v Vortrag>nicht so ein ausgeklügeltes Ranking-System wie Google mit

00:44:06.839 --> 00:44:09.819
<v Vortrag>einer Sitewide-Bewertung. Die KI-Bots machen das nicht.

00:44:09.899 --> 00:44:17.339
<v Vortrag>Sie nutzen das, was im Grounding vorhanden ist

00:44:18.439 --> 00:44:22.079
<v Vortrag>oder für Trainingszwecke gefunden wird. Daraus entstehen keine

00:44:22.079 --> 00:44:24.119
<v Vortrag>Nachteile für andere Inhalte. Deshalb kann man

00:44:24.499 --> 00:44:28.139
<v Vortrag>solche Bereiche sehr unbedenklich sperren. Und darüber sollte

00:44:28.139 --> 00:44:32.479
<v Vortrag>man tatsächlich nachdenken: Welche Inhalte möchte ich

00:44:32.779 --> 00:44:35.579
<v Vortrag>vielleicht gezielt für Trainingszwecke oder Groundings sperren?

00:44:35.739 --> 00:44:41.719
<v Vortrag>Es kommt noch eine etwas Off-Topic-Frage rein. Wie ist deine Meinung zu Grounding-Pages?

00:44:41.999 --> 00:44:45.879
<v Vortrag>Wir haben ja gleich den Hans Kronenberg noch da. Ja, tatsächlich. Ich weiß, das ist

00:44:47.019 --> 00:44:52.159
<v Vortrag>aktuell ein sehr umstrittenes Thema. Hans hat da wirklich etwas angestoßen. Ich bin

00:44:52.379 --> 00:44:55.539
<v Vortrag>tatsächlich eher pro Grounding-Pages. Wir machen dazu gerade selbst Tests. Und

00:44:56.499 --> 00:45:00.399
<v Vortrag>ich finde den Grundgedanken sinnvoll: Informationen, die ich einem normalen Nutzer vielleicht gar nicht

00:45:00.399 --> 00:45:03.519
<v Vortrag>so präsentieren möchte, die aber für Sprachmodelle hilfreich sind, kann ich dort

00:45:03.519 --> 00:45:07.279
<v Vortrag>gezielt und neutral bündeln. Für mich ergibt das durchaus Sinn.

00:45:09.207 --> 00:45:15.847
<v Vortrag>Okay, dann würde ich sagen: Schön, dass du da warst. Und ich wünsche mir

00:45:16.767 --> 00:45:21.687
<v Vortrag>den Hendrik jetzt herbei. Ja, da bin ich auch schon. Liebe Juliane,

00:45:21.687 --> 00:45:23.287
<v Vortrag>ich sage dir auch noch

00:45:23.427 --> 00:45:27.687
<v Vortrag>einmal vielen lieben Dank. Es kommen wirklich ganz viele Dankes- und Lobesworte

00:45:28.567 --> 00:45:31.767
<v Vortrag>im Chat an. Falls noch Fragen offen geblieben sind: Wir

00:45:31.887 --> 00:45:35.767
<v Vortrag>haben nachher noch den Talk mit Hans. Und mit Sicherheit kann man

00:45:35.767 --> 00:45:39.107
<v Vortrag>dir auch später noch eine Frage stellen oder dich über

00:45:39.107 --> 00:45:43.547
<v Vortrag>LinkedIn kontaktieren. Ich glaube, wir haben heute

00:45:43.947 --> 00:45:46.487
<v Vortrag>alle festgestellt: So eine Logfile-Analyse ist ein bisschen

00:45:46.507 --> 00:45:49.027
<v Vortrag>wie Brokkoli im SEO-Speiseplan. Jeder weiß, wie gesund

00:45:49.187 --> 00:45:52.327
<v Vortrag>und wichtig sie ist. Vielleicht ist sie nicht jedermanns

00:45:52.467 --> 00:45:55.807
<v Vortrag>Sache. Aber vielleicht hat dieser Vortrag ja dazu

00:45:55.807 --> 00:45:58.867
<v Vortrag>geführt, dass wir alle mehr Brokkoli essen. Gut, diesen

00:45:59.387 --> 00:46:02.287
<v Vortrag>Scherz konnte ich mir jetzt nicht verkneifen. Alles klar.

