Künstliche Intelligenz lebt von Daten, und je mehr davon, desto besser. Doch woher kommen all die Texte, mit denen Sprachmodelle wie ChatGPT, Claude oder Googles Gemini trainiert werden? Ein großer Teil stammt aus den offen zugänglichen Wissensquellen des Internets: Wikipedia, Reddit, Foren und Blogs. Diese Seiten bilden das Rückgrat des digitalen Allgemeinwissens.

Inzwischen geraten sie jedoch unter Druck. Immer häufiger sind es keine menschlichen Besucherinnen und Besucher mehr, die sich durch Artikel und Diskussionen klicken, sondern Bots. Diese automatisierten Programme rufen Inhalte ab, speichern sie und nutzen sie anschließend für das Training von KI-Systemen. Und sie gehen dabei immer raffinierter vor.
Wikipedia: Tarnkappen-Bots im Wissensarchiv
Wikipedia kämpft seit Jahren mit automatisierten Zugriffen. Neu ist, dass viele dieser Bots sich inzwischen nicht mehr offen zu erkennen geben. Stattdessen verhalten sie sich gezielt so, dass sie wie menschliche Besucher wirken. Sie legen Pausen ein, wechseln IP-Adressen und imitieren typische Klickpfade.
Die Wikimedia Foundation hat in den vergangenen Monaten genau solche Aktivitäten entdeckt. Nach ihren Analysen war ein erheblicher Teil der vermeintlich menschlichen Zugriffe in Wahrheit automatisiert. Besonders auffällig war ein starker Anstieg der Zugriffe aus Brasilien im Frühjahr 2025, die sich nachträglich als Bot-Traffic herausstellten.

Was tun diese Bots? In der Regel scrapen sie Inhalte, also rufen systematisch Seiten auf, speichern Texte, Bilder und Metadaten und nutzen diese Informationen zum Training von Sprachmodellen. Wikipedia wird dadurch zu einer inoffiziellen Datenquelle der KI-Branche – ohne Zustimmung, Bezahlung oder Gegenleistung.
Für eine Plattform, die von ehrenamtlichen Autorinnen und Autoren sowie von Spenden lebt, ist das ein ernstes Problem. Während die Zahl der menschlichen Besucher sinkt, steigen die Kosten für Serverlast und Bandbreite. KI-Modelle profitieren also von einem Gemeingut, das sie gleichzeitig schwächen.
Reddit: Die neue Bibel der KI – mit allen Risiken
Auch Reddit gehört zu den beliebtesten Quellen für Sprachmodelle. Eine Analyse von Semrush und Visual Capitalist zeigt, dass mehr als 40 Prozent der in KI-Antworten zitierten Inhalte von Reddit stammen. Wikipedia folgt mit etwa 26 Prozent. Klassische Medien, Fachportale oder wissenschaftliche Publikationen liegen weit abgeschlagen dahinter.

Das verdeutlicht, wie stark Sprachmodelle auf nutzergenerierte Inhalte angewiesen sind – und wie unsicher ihre Wissensbasis dadurch sein kann. Reddit-Beiträge sind oft subjektiv, manchmal ungenau oder schlicht falsch. Trotzdem fließen sie in die Antworten ein, die viele als objektiv und verlässlich wahrnehmen.
Wenn eine KI etwa in einem Forum liest, dass man ein nasses Handy am besten in Reis legt, kann genau dieser Tipp in einer generierten Antwort auftauchen – obwohl er technisch längst widerlegt ist.
Warum sich Bots plötzlich tarnen
Dass KI-Firmen ihre Scraper-Bots mittlerweile tarnen, ist kein Zufall. Das Image dieser Datensammler ist angekratzt, viele Websites sperren sie gezielt aus. In der sogenannten robots.txt können Betreiberinnen und Betreiber festlegen, welche automatisierten Zugriffe erlaubt sind.
Wenn sich ein Bot aber nicht mehr als solcher zu erkennen gibt, wird er auch nicht blockiert. Das bewegt sich rechtlich in einer Grauzone und ist ethisch fragwürdig. Im Prinzip handelt es sich um einen digitalen Einbruch: jemand betritt ein Archiv mit gefälschtem Ausweis, um sich heimlich Notizen zu machen.
Der Grund für diese Tarnung liegt auf der Hand. Firmen wollen weiterhin an die besten Trainingsdaten gelangen, ohne dafür zahlen oder Einschränkungen in Kauf nehmen zu müssen.

Ein schleichender Wandel
Das Internet war lange ein Ort, an dem Informationen frei geteilt wurden – in der stillen Annahme, dass Menschen sie lesen. Heute werden immer mehr Inhalte für Maschinen produziert oder von Maschinen konsumiert.
Das hat Folgen:
- Transparenzverlust: Oft ist unklar, welche Daten in KI-Systeme eingeflossen sind und ob sie korrekt waren.
- Abhängigkeit: Wenn Wikipedia und Reddit weniger besucht werden, verlieren auch KIs ihre wichtigsten Datenquellen.
- Ungleichgewicht: Ehrenamtliche Autorinnen und Autoren schaffen Wissen, das große Konzerne anschließend gewinnbringend weiterverwenden.
Was jetzt passieren müsste
Die Wikimedia Foundation appelliert an Betreiber von KI-Systemen, offen mit ihren Datenquellen umzugehen und ihre Nutzerinnen und Nutzer dazu zu ermutigen, wieder selbst Wikipedia zu besuchen. Nur so kann die Basis für freies Wissen erhalten bleiben.
Zugleich fordern viele Fachleute, die Nutzung öffentlicher Daten gerechter zu gestalten. Wer vom offenen Wissen anderer profitiert, sollte etwas zurückgeben – etwa durch Spenden, Partnerschaften oder technische Unterstützung für gemeinnützige Projekte.
Bis dahin gilt: Wer Antworten von ChatGPT, Gemini oder anderen KI-Systemen liest, sollte sich immer fragen, woher diese Informationen stammen. Hinter jeder Antwort stehen nicht nur Rechenzentren, sondern unzählige freiwillige Autorinnen und Autoren – und eine wachsende Zahl verdeckter Bots, die ihnen still über die Schulter schauen.
Eure Rookies,
Niklas & Jan
