Auf ChatGPT folgt eine verbesserte Version GPT-4 – wiederum beeindruckend. Die Diskussion über die Folgen im Bildungskontext (Fokus Prüfungen) muss erweitert werden. Ko-Kreation mit ‘Smart Machines’ wird zum Standard im Arbeitsalltag werden. Wie kann uns Bildung / Personalentwicklung darauf vorbereiten?
Diese Woche wurde GPT-4 veröffentlicht, der Generalized Pretrained Transformer von OpenAI. GPT-4 ist eine Weiterentwicklung der bisherigen Sprachmodelle GPT-3.5 und ChatGPT.
GPT-4: Was ist neu bzw. anders / besser?
Auf seinen Webseiten erläutert das Unternehmen OpenAI die Besonderheiten von GPT-4 und die Unterschiede zu den bisherigen Modellen: https://openai.com/research/gpt-4. Die folgenden Punkte scheinen mir zentral zu sein:
- GPT-4 kann einen grösseren Kontext bei den Prompts berücksichtigen.
Die Rede ist hier von zwei Versionen: GPT-4-8K mit 8’192 und GPT-4-32K mit 32’768 Tokens an Stelle von bisher 4’096. Dadurch können längere Texte analysiert und auch erzeugt werden. Auf Techcrunch wird dies wie folgt kommentiert:
“Previously, the model didn’t have any knowledge of who you are, what you’re interested in and so on. Having that kind of history [with the larger context window] is definitely going to make it more able … It’ll turbocharge what people can do.” (https://neoteric.eu/blog/gpt-4-vs-gpt-3-openai-models-comparison/). - GPT-4 kann neu Grafiken und Bilder verarbeiten.
Auf der Webseite von OpenAI werden verschiedene Beispiele dafür gezeigt. Unter anderem dieses:
- Bei GPT-4 kann die Modalität der Aufgabenbearbeitung bzw. der Ausgabe besser gesteuert werden.
Auch hierzu werden verschiedene Beispiele gezeigt, unter anderem das folgende:
Insgesamt bewerten die Macher von GPT die Weiterentwicklung wie folgt und sichern sich gleichzeitig gegen überzogene Erwartungen ab:
GPT-4 is more reliable, creative, and able to handle much more nuanced instructions than GPT-3.5. (…)
https://openai.com/research/gpt-4
GPT-4 poses similar risks as previous models, such as generating harmful advice, buggy code, or inaccurate information.
Vergleich der Leistungsfähigkeit
Im Artikel wird auch auf Ergebnisse von Vergleichstests bzw. Benchmarking verwiesen. Unter anderem werden die Ergebnisse von GPT-3.5 und GPT-4 bei verschiedenen standardisierten Tests bzw. Prüfungen verglichen:
Einen der auf der Webseite angeführten Tests, MMLU, habe ich mir etwas genauer angeschaut. MMLU steht für Massive Multitask Language Understanding und ist ein Test, der in 2021 entwickelt wurde, um die immer leistungsfähiger werdenden Sprachmodelle zu testen und herauszufordern. Hier eine kurze Erläuterung zu diesem Test:
We design the benchmark to measure knowledge acquired during pretraining by evaluating models exclusively in zero-shot and few-shot settings. This makes the benchmark more challenging and more similar to how we evaluate humans. The benchmark covers 57 subjects across STEM, the humanities, the social sciences, and more. It ranges in difficulty from an elementary level to an advanced professional level, and it tests both world knowledge and problem solving ability. Subjects range from traditional areas, such as mathematics and history, to more specialized areas like law and ethics.
Hendrycks et al. (2021): Measuring massive multitask language understanding. ICLR 2021.
GPT-3.5 erreicht bei diesem Test eine Quote von 70% richtigen Antworten, GPT-4 eine Quote von 86.4%. Wenn ich mir die Testfragen anschaue, die Bestandteil des Tests sind, so muss ich sagen, dass ich selbst vermutlich deutlich schlechter abgeschnitten hätte…
Auf dem Weg in eine Lern- & Arbeitswelt mit Smart Machines
Die Veröffentlichung von ChatGPT Ende November 2022 hat für viel Unruhe und Diskussion geführt – insbesondere unter Bildungsverantwortlichen an Schulen und Hochschulen. Im Vordergrund steht bisher die Diskussion darüber, ob diese Art von Werkzeugen zugelassen werden sollen und wie gegebenenfalls Prüfungen und Reglemente angepasst werden müssen.
Ich denke, dass wir die den Blickwinkel etwas weiter fassen müssen. Die schnelle Verbreitung von ChatGPT liefert einen Vorgeschmack dessen, was auf uns zukommt. Wir bewegen uns in eine Welt, die mit ‘smarten Maschinen’ angereichert ist (Arbeitswelt 5.0). Microsoft hat ja bereits die Integration von ChatGPT / GPT-4 in die eigene Suchmaschine Bing und in die Office-365-Suite angekündigt. Über kurz oder lang werden wir also im Arbeitsalltag (und beim Lernen) ständig solche und ähnliche Werkzeuge an unserer Seite haben. Damit wird Ko-Kreation mit ‘Smart Machines’ zum Standard werden.
Ähnlich wie beim Aufkommen des Taschenrechners oder des Internets macht dies eine Diskussion darüber erforderlich, auf welche Handlungssituationen uns Bildungsinstitutionen (oder auch die betriebliche Personalentwicklung) vorbereiten sollen, welche Kompetenzen künftig zentral sind und welche (Personal-)Entwicklungsstrategien sinnvoll sind. Augmentation, Augmentationsstrategien und Integrationskompetenzen sind hier ebenso relevante Stichworte wie beispielsweise Prompt Design / Prompt Engineering und die 4K (Kommunikation, Kollaboration, Kreativität und kritisches Denken).
Die Möglichkeiten, GPT-4, ChatGPT und ähnliche Lösungen im Rahmen der Arbeit von Bildungsverantwortlichen bzw. im Kontext von Lehren und Lernen einzusetzen, vertiefen wir im Rahmen unseres Weiterbildungsmoduls “Dialogorientierte Lern- & Assistenzsysteme”.