Neues Sprachmodell für KI’s

Link: https://www.heise.de/news/KI-Sprachmodell-Meta-schickt-den-naechsten-GPT-3-Herausforderer-ins-Rennen-7072968.html

Website: heise.de

Autor: Rainald Menge-Sonnentag

Bild: Pixabay


Die KI-Abteilung von Meta hat mit Open Pre-trained Transformer (OPT) Language Models große Sprachmodelle (Large Language Models, LLM) angekündigt. Das ehemals als Facebook geführte Unternehmen will acht Modelle veröffentlichen, die zwischen 125 Millionen und 175 Milliarden Parameter aufweisen.
In einer Abhandlung auf arXiv stellen 19 Forscherinnen und Forscher von Meta AI das Konzept und die Modelle vor, die sie mit GPT-3 (Generative Pre-trained Transformer) vergleichen. OpenAI hat das derzeit wohl bekannteste Sprachmodell, das ebenfalls auf 175 Milliarden Parameter kommt, zwar bereits im Sommer 2020 vorgestellt, aber den Zugriff anfangs nicht öffentlich freigegeben.
Meta macht keinen Hehl daraus, dass GPT-3 als Vorbild dient: In dem Fazit der Abhandlung heißt es „unser Ziel war es, die Performance und die Größe der GPT-3-Modellklasse nachzubilden und dabei die jüngsten Best Practices beim Kuratieren der Daten und bei der Effizienz des Trainings umzusetzen“.
Als Texte für das Pre-Training nutzt das Team unter anderem einen Teil des noch zu Facebook-Zeiten veröffentlichten RoBERTa-Korpus, der auf Googles Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) aufbaut.
Laut der Abhandlung soll das Entwickeln von OPT-175B nur ein Siebtel des CO2-Fußabdrucks des gleich großen GPT-3 Modells aufweisen, wobei der Text darauf hinweist, dass die geschätzten Zahlen keine festen Fakten und die Methoden zum Schätzen nicht standardisiert sind. Das soll unter anderem dazu dienen, einerseits die Robustheit und andererseits den Bias und die vergiftete Sprache der Modelle zu erforschen.
Das kleinste der acht Modelle hat „lediglich“ 125 Millionen Parameter und 12 Ebenen, während das größte die Parameter mehr als vertausendfacht und auf 175 Milliarden Parameter bei 96 Layers kommt. Vollständig veröffentlichen will Meta die Modelle bis zu einer Größe von 30 Milliarden Parametern. Die Abhandlung verweist zudem auf ein GitHub-Repository mit der Codebasis metaseq, die aber beim Schreiben dieser Meldung nicht erreichbar war. Das Sprachmodell hat 540 Milliarden Parameter, also dreimal so viele wie die größte OPT-Ausführung.

Nähere Infos finden Sie unter dem oben genannten Link.

Hinterlasse einen Kommentar