Die neue Version von GPT-3 verhält sich besser (und sollte weniger giftig sein)

0 Comments

große Sprachmodelle Wie GPT-3 werden sie mit Dateien trainiert riesige Texte, wird viel aus dem Internet übernommen, wo sie mit dem Besten und Schlechtesten konfrontiert werden, was die Menschen in Worten beschreiben. Dies ist heute ein Problem für Chatbots und Textgenerierungstools. Modelle absorbieren giftige Sprache – aus Texten, die rassistisch und frauenfeindlich sind oder böswillige, böswillige Vorurteile enthalten – sowie Lügen.

OpenAI hat IntructGPT zum Standardmodell für Benutzer einer Anwendungsprogrammierschnittstelle (API) gemacht – einem Dienst, der gegen eine Gebühr Zugriff auf Unternehmenssprachmodelle bietet. GPT-3 wird weiterhin verfügbar sein, aber OpenAI empfiehlt seine Verwendung nicht. „Es ist das erste Mal, dass diese Alignment-Techniken auf ein echtes Produkt angewendet wurden“, sagt Jan Leike, Co-Leiter des OpenAI-Alignment-Teams.

Frühere Versuche, das Problem anzugehen, umfassten das Ausschließen anstößiger Sprache aus dem Trainingssatz. Dies kann jedoch dazu führen, dass die Modelle weniger gut funktionieren, insbesondere in Fällen, in denen Trainingsdaten bereits verstreut sind, wie z. B. Texte von Minderheitengruppen.

OpenAI-Forscher umgingen dieses Problem, indem sie mit einem vollständig trainierten GPT-3-Modell begannen. Dann fügten sie eine weitere Trainingsrunde hinzu, indem sie dem Modell mithilfe von Verstärkungslernen beibrachten, was es wann sagen sollte, basierend auf den Vorlieben menschlicher Benutzer.

Für die InstructGPT-Schulung stellte OpenAI 40 Personen ein, um GPT-3-Antworten auf eine Reihe vorgefertigter Aufforderungen zu bewerten, z. B. „Schreiben Sie eine Geschichte über einen weisen Frosch namens Julius“ oder „Schreiben Sie eine kreative Anzeige für das nächste Produkt, auf dem ausgeführt werden soll Facebook.“ Antworten, die sie für am ehesten hielten mit Die offensichtliche Absicht des unmittelbaren Verfassers ist höher. Antworten, die sexuelle oder gewalttätige Sprache enthalten, eine bestimmte Personengruppe diffamieren, eine Meinung äußern usw. werden gekennzeichnet. Dieses Feedback wurde dann als Belohnung in einem Reinforcement-Learning-Algorithmus verwendet, der InstructGPT trainierte, Antworten auf die Eingabeaufforderungen so abzugleichen, wie es die Jury bevorzugte.

OpenAI hat festgestellt, dass Benutzer seiner API in mehr als 70 % der Fälle InstructGPT gegenüber GPT-3 bevorzugen. „Wir sehen keine grammatikalischen Fehler mehr in der Sprachbildung“, sagt Ben Roe, Hauptprodukt von Yabble, einem Marktforschungsunternehmen, das OpenAI-Modelle verwendet, um Zusammenfassungen der Geschäftsdaten seiner Kunden in natürlicher Sprache zu erstellen. “Es gibt auch deutliche Fortschritte bei der Fähigkeit neuer Modelle, Anweisungen zu verstehen und zu befolgen.”

„Es ist aufregend, dass Kunden diese kompatiblen Modelle so viel mehr bevorzugen“, sagt Ilya Sotskever, Chief Scientist bei OpenAI. “Das bedeutet, dass es viele Anreize gibt, es zu bauen.”

Die Forscher verglichen auch unterschiedlich große Versionen von InstructGPT und stellten fest, dass Benutzer Antworten auf ein InstructGPT-Modell mit 1,3 Milliarden Variablen gegenüber denen mit 175 Milliarden GPT-3-Variablen bevorzugten, obwohl das Modell mehr als 100-mal kleiner war. Das bedeutet, dass die Ausrichtung eine einfache Möglichkeit sein könnte, Sprachmodelle besser zu machen, anstatt nur ihre Größe zu erhöhen, sagt Laiki.

Tags: , , , , , , , , , , , ,

Leave a Reply

Your email address will not be published. Required fields are marked *