
Giant Language Fashions (LLMs) wie ChatGPT trainieren mit mehreren Informationsquellen, einschließlich Webinhalten. Diese Daten bilden die Grundlage für Zusammenfassungen dieser Inhalte in Type von Artikeln, die ohne Zuschreibung oder Nutzen für diejenigen erstellt werden, die die ursprünglichen Inhalte veröffentlicht haben, die für das Coaching von ChatGPT verwendet wurden.
Suchmaschinen laden Web site-Inhalte herunter (Crawling und Indexierung genannt), um Antworten in Type von Hyperlinks zu den Web sites bereitzustellen.
Web site-Writer haben die Möglichkeit, das Crawlen und Indizieren ihrer Inhalte durch Suchmaschinen über das Robots Exclusion Protocol, allgemein als Robots.txt bezeichnet, abzulehnen.
Das Robots Exclusions Protocol ist kein offizieller Internetstandard, aber einer, dem seriöse Webcrawler gehorchen.
Sollten Internet-Writer in der Lage sein, das Robots.txt-Protokoll zu verwenden, um zu verhindern, dass große Sprachmodelle ihre Web site-Inhalte verwenden?
Große Sprachmodelle verwenden Web site-Inhalte ohne Namensnennung
Einigen, die mit Suchmaschinenmarketing zu tun haben, ist es unangenehm, wie Web site-Daten zum Trainieren von Maschinen verwendet werden, ohne etwas zurückzugeben, wie eine Bestätigung oder Verkehr.
Hans Petter Blindheim (LinkedIn-Profil), Senior Skilled bei Curamando, teilte mir seine Meinung mit.
Hans kommentierte:
„Wenn ein Autor etwas schreibt, nachdem er etwas aus einem Artikel auf Ihrer Web site gelernt hat, wird er meistens auf Ihr Originalwerk verlinken, weil es Glaubwürdigkeit und professionelle Höflichkeit bietet.
Nennt sich Zitat.
Aber das Ausmaß, in dem ChatGPT Inhalte assimiliert und nichts zurückgibt, unterscheidet es sowohl von Google als auch von Menschen.
Eine Web site wird im Allgemeinen unter Berücksichtigung einer Geschäftsrichtlinie erstellt.
Google hilft den Menschen, den Inhalt zu finden, indem es Visitors bereitstellt, was für beide Seiten von Vorteil ist.
Aber es ist nicht so, dass große Sprachmodelle Sie um Erlaubnis gebeten haben, Ihre Inhalte zu verwenden, sie verwenden sie nur in einem breiteren Sinne als erwartet, als Ihre Inhalte veröffentlicht wurden.
Und wenn die KI-Sprachmodelle keinen Gegenwert bieten – warum sollten Verlage ihnen erlauben, die Inhalte zu crawlen und zu nutzen?
Entspricht die Nutzung Ihrer Inhalte den Requirements der fairen Nutzung?
Wenn ChatGPT und Googles eigene ML/AI-Modelle unerlaubt an Ihren Inhalten trainieren, das Gelernte dort weiterspinnen und nutzen, während die Leute von Ihren Web sites ferngehalten werden – sollte die Industrie und auch der Gesetzgeber nicht versuchen, die Kontrolle über das Web zurückzuerobern, indem Sie sie erzwingen sie auf ein „Choose-in“-Modell umzustellen?“
Die Bedenken, die Hans äußert, sind berechtigt.
Sollten angesichts der rasanten technologischen Entwicklung Gesetze zur fairen Nutzung überdacht und aktualisiert werden?
Ich habe John Rizvi, einen eingetragenen Patentanwalt (LinkedIn-Profil), der für geistiges Eigentum zugelassen ist, gefragt, ob die Urheberrechtsgesetze im Web veraltet sind.
Johannes antwortete:
„Ja, ohne Zweifel.
Ein großer Streitpunkt in solchen Fällen ist die Tatsache, dass sich das Recht zwangsläufig viel langsamer entwickelt als die Technologie.
Im 18. Jahrhundert warfare dies vielleicht nicht so wichtig, weil die Fortschritte relativ langsam waren und die Rechtsmaschinerie mehr oder weniger darauf abgestimmt warfare.
Heute jedoch haben außer Kontrolle geratene technologische Fortschritte die Fähigkeit des Gesetzes, Schritt zu halten, bei weitem übertroffen.
Es gibt einfach zu viele Fortschritte und zu viele bewegliche Teile, als dass das Gesetz mithalten könnte.
Da es derzeit größtenteils von Leuten gebildet und verwaltet wird, die kaum Experten in den hier diskutierten Technologiebereichen sind, ist das Gesetz schlecht ausgestattet oder strukturiert, um mit der Technologie Schritt zu halten … und wir müssen bedenken, dass dies nicht vollständig ist schlechte Sache.
In einer Hinsicht muss sich das Recht des geistigen Eigentums additionally weiterentwickeln, wenn es überhaupt vorgibt, geschweige denn hofft, mit dem technologischen Fortschritt Schritt zu halten.
Das Hauptproblem besteht darin, ein Gleichgewicht zu finden zwischen dem Schritt halten mit der Artwork und Weise, wie verschiedene Formen von Technologie eingesetzt werden können, und dem Zurückhalten von offensichtlicher Übertreibung oder offener Zensur für politischen Gewinn, der in wohlwollenden Absichten getarnt ist.
Das Gesetz muss auch darauf achten, mögliche Nutzungen von Technologie nicht so umfassend zu regulieren, dass potenzielle Vorteile, die sich daraus ergeben können, erstickt werden.
Sie könnten leicht mit dem First Modification und einer Reihe von abgeschlossenen Fällen in Konflikt geraten, in denen beschrieben wird, wie, warum und in welchem Umfang geistiges Eigentum verwendet werden kann und von wem.
Und der Versuch, sich jede erdenkliche Verwendung von Technologie Jahre oder Jahrzehnte vor dem Bestehen des Rahmens vorzustellen, um sie rentabel oder überhaupt möglich zu machen, wäre ein äußerst gefährlicher Irrweg.
In Situationen wie dieser kann das Gesetz wirklich nicht anders, als darauf zu reagieren, wie Technologie verwendet wird … nicht unbedingt so, wie sie beabsichtigt warfare.
Das wird sich wahrscheinlich nicht so schnell ändern, es sei denn, wir erreichen ein massives und unerwartetes Technologieplateau, das dem Gesetz Zeit gibt, die aktuellen Ereignisse aufzuholen.“
Es scheint additionally, dass die Frage der Urheberrechtsgesetze viele Überlegungen zu berücksichtigen hat, wenn es darum geht, wie KI trainiert wird, es gibt keine einfache Antwort.
OpenAI und Microsoft Sued
Ein interessanter Fall, der kürzlich eingereicht wurde, ist einer, in dem OpenAI und Microsoft Open-Supply-Code verwendet haben, um ihr CoPilot-Produkt zu erstellen.
Das Downside bei der Verwendung von Open-Supply-Code besteht darin, dass die Inventive Commons-Lizenz eine Namensnennung erfordert.
Laut einem Artikel, der in einer wissenschaftlichen Zeitschrift veröffentlicht wurde:
„Die Kläger behaupten, dass OpenAI und GitHub ein kommerzielles Produkt namens Copilot zusammengestellt und vertrieben haben, um generativen Code unter Verwendung von öffentlich zugänglichem Code zu erstellen, der ursprünglich unter verschiedenen Lizenzen im „Open Supply“-Stil verfügbar gemacht wurde, von denen viele eine Zuordnungsanforderung enthalten.
Wie GitHub sagt: „…[t]auf Milliarden von Codezeilen geregnet, verwandelt GitHub Copilot Eingabeaufforderungen in natürlicher Sprache in Codierungsvorschläge für Dutzende von Sprachen.“
Das resultierende Produkt ließ angeblich jegliche Anerkennung für die ursprünglichen Schöpfer aus.“
Der Autor dieses Artikels, der ein Rechtsexperte zum Thema Urheberrecht ist, schrieb, dass viele Open-Supply-Inventive-Commons-Lizenzen als „kostenlos“ betrachten.
Einige mögen den Ausdruck Free-for-all auch als eine angemessene Beschreibung der aus Internetinhalten bestehenden Datensätze betrachten, die geschabt und verwendet werden, um KI-Produkte wie ChatGPT zu generieren.
Hintergrundinformationen zu LLMs und Datensätzen
Große Sprachmodelle trainieren mit mehreren Inhaltsdatensätzen. Datensätze können aus E-Mails, Büchern, Regierungsdaten, Wikipedia-Artikeln und sogar Datensätzen bestehen, die aus Web sites erstellt wurden, die mit Beiträgen auf Reddit verlinkt sind und mindestens drei Upvotes haben.
Viele der Datensätze, die sich auf den Inhalt des Internets beziehen, haben ihren Ursprung im Crawling, das von einer gemeinnützigen Organisation namens Frequent Crawl erstellt wurde.
Ihr Datensatz, der Frequent Crawl-Datensatz, steht kostenlos zum Obtain und zur Verwendung zur Verfügung.
Der Frequent Crawl-Datensatz ist der Ausgangspunkt für viele andere Datensätze, die daraus erstellt wurden.
Beispielsweise verwendete GPT-3 eine gefilterte Model von Frequent Crawl (Sprachmodelle sind Few-Shot Learners PDF).
So verwendeten GPT-3-Forscher die im Frequent Crawl-Datensatz enthaltenen Web site-Daten:
„Datensätze für Sprachmodelle sind schnell gewachsen und haben ihren Höhepunkt im Frequent Crawl-Datensatz gefunden, der quick eine Billion Wörter umfasst.
Diese Datensatzgröße reicht aus, um unsere größten Modelle zu trainieren, ohne jemals zweimal dieselbe Sequenz zu aktualisieren.
Wir haben jedoch festgestellt, dass ungefilterte oder leicht gefilterte Versionen von Frequent Crawl tendenziell eine geringere Qualität aufweisen als stärker kuratierte Datensätze.
Daher haben wir 3 Schritte unternommen, um die durchschnittliche Qualität unserer Datensätze zu verbessern:
(1) wir haben eine Model von CommonCrawl heruntergeladen und gefiltert, basierend auf der Ähnlichkeit mit einer Reihe hochwertiger Referenzkorpora,
(2) Wir haben Fuzzy-Deduplizierung auf Dokumentebene innerhalb und zwischen Datensätzen durchgeführt, um Redundanzen zu vermeiden und die Integrität unseres zurückgehaltenen Validierungssatzes als genaues Maß für Überanpassung zu bewahren, und
(3) Wir haben dem Trainingsmix auch bekannte Referenzkorpora von hoher Qualität hinzugefügt, um CommonCrawl zu erweitern und seine Vielfalt zu erhöhen.“
Auch der C4-Datensatz von Google (Colossal, Cleaned Crawl Corpus), mit dem der Textual content-to-Textual content Switch Transformer (T5) erstellt wurde, hat seine Wurzeln im Frequent Crawl-Datensatz.
Ihr Forschungspapier (Exploring the Limits of Switch Studying with a Unified Textual content-to-Textual content Transformer PDF) erklärt:
„Bevor wir die Ergebnisse unserer groß angelegten empirischen Studie präsentieren, überprüfen wir die notwendigen Hintergrundthemen, die zum Verständnis unserer Ergebnisse erforderlich sind, einschließlich der Transformer-Modellarchitektur und der nachgelagerten Aufgaben, die wir bewerten.
Wir stellen auch unseren Ansatz zur Behandlung jedes Issues als Textual content-zu-Textual content-Aufgabe vor und beschreiben unseren „Colossal Clear Crawled Corpus“ (C4), den Frequent Crawl-basierten Datensatz, den wir als Quelle für unbeschriftete Textdaten erstellt haben.
Wir bezeichnen unser Modell und Framework als ‚Textual content-to-Textual content Switch Transformer‘ (T5).“
Google hat einen Artikel in seinem KI-Weblog veröffentlicht, der weiter erklärt, wie Frequent Crawl-Daten (die aus dem Web gekratzte Inhalte enthalten) zur Erstellung von C4 verwendet wurden.
Sie schrieben:
„Eine wichtige Zutat für das Transferlernen ist der unbeschriftete Datensatz, der für das Vortraining verwendet wird.
Um den Effekt der Skalierung des Vortrainings genau zu messen, benötigt man einen Datensatz, der nicht nur qualitativ hochwertig und vielfältig, sondern auch umfangreich ist.
Vorhandene Pre-Coaching-Datensätze erfüllen nicht alle drei Kriterien – zum Beispiel ist Textual content aus Wikipedia von hoher Qualität, aber einheitlich im Stil und für unsere Zwecke relativ klein, während die Frequent Crawl-Internet-Scrapes riesig und sehr vielfältig, aber truthful sind geringe Qualität.
Um diese Anforderungen zu erfüllen, haben wir den Colossal Clear Crawled Corpus (C4) entwickelt, eine bereinigte Model von Frequent Crawl, die zwei Größenordnungen größer ist als Wikipedia.
Unser Bereinigungsprozess umfasste die Deduplizierung, das Verwerfen unvollständiger Sätze und das Entfernen anstößiger oder lauter Inhalte.
Diese Filterung führte zu besseren Ergebnissen bei nachgelagerten Aufgaben, während die zusätzliche Größe es ermöglichte, die Modellgröße ohne Überanpassung während des Vortrainings zu erhöhen.“
Google, OpenAI und sogar Open Information von Oracle verwenden Internetinhalte, Ihre Inhalte, um Datensätze zu erstellen, die dann zur Erstellung von KI-Anwendungen wie ChatGPT verwendet werden.
Frequent Crawl kann blockiert werden
Es ist möglich, Frequent Crawl zu blockieren und sich anschließend von allen Datensätzen abzumelden, die auf Frequent Crawl basieren.
Wenn die Web site jedoch bereits gecrawlt wurde, befinden sich die Web site-Daten bereits in Datensätzen. Es gibt keine Möglichkeit, Ihre Inhalte aus dem Frequent Crawl-Datensatz und einem der anderen abgeleiteten Datensätze wie C4 und .
Die Verwendung des Robots.txt-Protokolls blockiert nur zukünftige Crawls durch Frequent Crawl, es hindert Forscher nicht daran, bereits im Datensatz enthaltene Inhalte zu verwenden.
So blockieren Sie Frequent Crawl aus Ihren Daten
Das Blockieren von Frequent Crawl ist durch die Verwendung des Robots.txt-Protokolls innerhalb der oben beschriebenen Einschränkungen möglich.
Der Frequent Crawl-Bot heißt CCBot.
Er wird anhand der aktuellsten CCBot Consumer-Agent-Zeichenfolge identifiziert: CCBot/2.0
Das Blockieren von CCBot mit Robots.txt erfolgt genauso wie mit jedem anderen Bot.
Hier ist der Code zum Blockieren von CCBot mit Robots.txt.
Benutzeragent: CCBot Disallow: /
CCBot crawlt von Amazon AWS-IP-Adressen.
CCBot folgt auch dem nofollow Robots-Meta-Tag:
Was ist, wenn Sie Frequent Crawl nicht blockieren?
Webinhalte können ohne Erlaubnis heruntergeladen werden, so funktionieren Browser, sie laden Inhalte herunter.
Google oder andere benötigen keine Genehmigung, um öffentlich veröffentlichte Inhalte herunterzuladen und zu verwenden.
Web site-Writer haben begrenzte Möglichkeiten
Die Überlegung, ob es ethisch vertretbar ist, KI für Webinhalte zu trainieren, scheint nicht Teil eines Gesprächs über die Ethik der Entwicklung von KI-Technologie zu sein.
Es scheint selbstverständlich, dass Internetinhalte heruntergeladen, zusammengefasst und in ein Produkt namens ChatGPT umgewandelt werden können.
Scheint das gerecht zu sein? Die Antwort ist kompliziert.
Vorgestelltes Bild von Shutterstock/Krakenimages.com