Perspektiven der Technikphilosophie
Nachwort 2023
In: tu. Zeitschrift für Technik im Unterricht, 192, 2. Quartal 2024, S. 20-23.
Abstract
Hatten wir die Technikphilosophie, die wir gebraucht hätten? So stellt sich die Frage angesichts der ‚Deep-Learning-Technologien‘, die vor kurzem auf den Plan traten und deren bekanntestes und aktuellstes Beispiel Chat GTP ist. Wie bei jeder neuen Technologie überschlagen sich auch nun wieder die Formulierungen von Journalisten und Expertinnen, die die angeblich revolutionäre Neuartigkeit der Technologie ebenso euphorisch feiern wie sie ihre angeblich katastrophischen Potentiale unheilverheißend verkünden (interessanterweise in diesem Fall im Chor mit interessierten Playern im Feld). Dieser zweifache Reflex ist nicht neu und auch im Essay von 2008 beschrieben. Doch – die Frage drängt sich auf – ist nun nicht tatsächlich etwas Neues geschehen, etwas, das alle vorherigen technologischen Brüche in den Schatten stellt? Ist die Tatsache, dass Technologien nun Texte erzeugen können, die den menschengemachten bis zur Ununterschiedbarkeit gleichen, nicht wirklich eine ungeheuerliche Erscheinung? Und hätten wir darauf besser konzeptuell vorbereitet sein müssen?
„Eine basale Unterscheidung, um die Deep-Learning-Technologie jenseits von Alarmismus und Euphorie in den Blick zu bekommen, ist die Unterscheidung von symbolischer und subsymbolischer KI. Sie verhilft dazu, einige Implikationen zu sehen. […]
Ist damit nun ein Durchbruch der künstlichen Intelligenz erreicht? Im Sinne des ursprünglichen Anspruchs: offenbar nein. Denn die Intelligenzleistung, die wir in Produkten der Deep-Learning-Technologien wahrnehmen, ist unsere eigene. Wir Menschen haben die Texte verfasst und die technischen Bilder erzeugt, deren Imitationen wir als Produkte von Intelligenz wahrnehmen. Deep-L-Technologien sind Meister der Imitation, keine Meister der Sprache oder gar des Denkens.“
Leseprobe
Eine basale Unterscheidung, um die Deep-Learning-Technologie jenseits von Alarmismus und Euphorie in den Blick zu bekommen, ist die Unterscheidung von symbolischer und subsymbolischer KI. Sie verhilft dazu, einige Implikationen zu sehen.[1] Symbolische KI war mit einem dezidierten Versprechen angetreten. Menschliche Intelligenz sollte technisch so rekonstruiert werden, dass auf der einen Seite die technisch realisierte Intelligenz von der natürlichen Intelligenz nicht kategorial unterscheidbar wäre (lediglich im gleichen Typus steigerbar, so dass stets vorstellbar bleibt, dass es die Leistung eines weit überdurchschnittlich intelligenten Menschen wäre), auf der anderen Seite sollte sie (im Unterschied zur natürlichen) in ihrem Aufbau beherrschbar sein. Denn Künstlichkeit meinte genau dieses: kontrolliert herstellbar. Das Projekt der künstlichen Intelligenz trat also im Rahmen des Kontrollparadigmas auf den Plan. Was sich auf dem Weg von symbolischer zu subsymbolischer KI geändert hat, ist nicht der Begriff der Intelligenz (der stets im Fokus steht), sondern der scheinbar problemlose Begriffs-Bestandteil der Künstlichkeit bzw. Artifizialität. Denn subsymbolische KI bricht an entscheidender Stelle mit dem Versprechen der künstlichen Intelligenz. Die künstlichen neuronalen Netzwerke mit ihren kontinuierlichen und vielfach parallel veränderlichen Zuständen sind zwar in ihren Strukturen künstlich angelegt, in ihren Prozessformen allerdings nicht mehr kontrollier-, ja nicht einmal mehr beobachtbar (Black Box subsymbolische KI).
Diese realtechnische Entwicklung wurde in vielen Aspekten in den inzwischen selbst schon klassischen philosophischen Konzeptualisierungen des phänomenologisch-hermeneutischen Denkens vorgezeichnet.[2]Ein Konzept der Intelligenz, gedacht als ein Operieren mit distinkten Elementen nach einem vorgegebenen und explizierbaren Regelsystem, sei ein sehr reduziertes, gewissen rationalistischen Vorannahmen geschuldetes Konzept. Intelligenz in einem anspruchsvolleren Sinne müsse in Kategorien der Verkörperung (Embodiment), der Situierung und des Sich-Ausrichtens (Intentionalität) in der Welt verstanden werden. In mancherlei Hinsicht haben sich diese Konzepte in den künstlichen neuronalen Netzwerken realisiert.
Und doch liegt, blickt man auf die jüngsten Deep-Learning-Technologien, etwas Eigentümliches in ihnen in Hinblick auf diese Thesen. Die technischen Phänomene, die ich im Essay von 2008 als zukunftsweisend beschrieb, haben allesamt den Charakter der Durchdringung von Informatischem und Materie. In der Verkörperung und Situierung weisen solche Technologien auf Fähigkeiten der Anpassung und Einpassung in Naturvorgänge hin, so dass das technische Artefakt selbst in seinen Wirkungen immer passgenauer, in seiner Eigenpräsenz immer zurückgenommener erscheint (Stichwort: ‚minimal invasiv‘).
Auch die Deep-Learning-Technologien vollziehen eine Art Mimikry. Doch ihr Referenzsystem ist nicht mehr das Gleiche: Ihre automatisierten ‚Lern-‚ und Produktionsprozesse richten sich nicht in ein physikalisches System ein, sondern zielen auf die symbolische Welt von Text- und Bildstrukturen. Ihr Bezugssystem ist nicht Natur, sondern Kultur: kulturelle Artefakte menschlicher Kreativität. Hier lohnt es sich hinzusehen, um was für ein System es sich genauer handelt und exakt welche Leistung die Technologie hervorbringt.
Diese Leistung kann nicht als Adaption an Sprache im Sinne von Langue betrachtet werden.[3] Languebezeichnet Sprache als System aus Zeichenelementen und Regeln (dies entspräche einer Technologie im Sinne des Chinese-Room-Gedankenexperiments Searles); sie kann aber – das wäre der klassische Gegenbegriff – auch nicht als Anpassung an Sprache als Parole, die konkret realisierte Sprachhandlung, angesehen werden. Denn sie imitiert nicht die je individuelle Kompetenz und das Verhalten einzelner Sprechender. Sie beherrscht weder die Sprache im Sinne von langue, noch das Sprechen im Sinne von parole. Ihre Optimierung ist überhaupt keine Anpassung an ein System sprachtheoretisch fassbarer Art, vielmehr ist sie eine Angleichung an einen kontingenten Textkörper. Dabei ist nicht nur die Auswahl der Texte, an denen die Technologie geschult wird, kontingent (ein Thema, das mit Recht derzeit viel diskutiert wird), sondern der Textkörper als Ganzer verändert sich ständig unvorhersehbar durch weitere und veränderte menschliche Textproduktion. Dass so etwas wie ein ‚lebendiger‘ Korpus menschlicher Texte überhaupt existiert, verdanken wir dem Internet. Denn dieses erst manifestiert eine die Gesamtheit menschlichen Sprechens so weit repräsentativ abbildende Textmenge, dass eine Imitation dort manifestierter Textvorkommnisse als Akt natürlichen Sprechens und Schreibens erscheinen kann.
Ist damit nun ein Durchbruch der künstlichen Intelligenz erreicht? Im Sinne des ursprünglichen Anspruchs: offenbar nein. Denn die Intelligenzleistung, die wir in Produkten der Deep-Learning-Technologien wahrnehmen, ist unsere eigene. Wir Menschen haben die Texte verfasst und die technischen Bilder erzeugt, deren Imitationen wir als Produkte von Intelligenz wahrnehmen. Deep-L-Technologien sind Meister der Imitation, keine Meister der Sprache oder gar des Denkens. Sofort sichtbar wird dies, wenn wir andere mögliche Applikationen derselben Technologien betrachten. Würde die Technologie anstelle von menschlichen Text- und Bildartefakten an Tausenden von Vogelstimmen trainiert, um diese zu erkennen und – täuschend echt und situationsadäquat – zu reproduzieren, dann würde uns dies zwar als ausgeklügelte Technologie erscheinen, aber nicht als eine, die zu unserer menschlichen Intelligenz an sich in Konkurrenz tritt.
Die Verwirrung in Bezug auf die Frage nach dem Durchbruch ist verständlich, denn sie resultiert aus einer eigentümlichen Verknüpfung in den Deep-Learning-Technologien: Die künstlichen neuronalen Netzwerke in ihrer subsymbolischen Funktionsweise sind bekanntlich dem Funktionieren biologischer Gehirne nachempfunden. Nun scheint es so, als ob solche Systeme sich so weit dem menschlichen Gehirn anverwandelt hätten, dass sie nun zur Produktion menschlicher geistiger Leistungen imstande wäre. Das kann aber nur so erscheinen, macht man die Rechnung – hier einmal wörtlich verstanden – ohne den Wirt: das künstliche neuronale Netzwerk kann nur deshalb Texte produzieren, weil ihm die menschlich produzierten Texte als rekombinierbare Muster vorgelegt werden. Setzen wir ihr Unsinnstexte vor, produziert sie Unsinn.
Kurz und knapp: Wir tun gut daran, den Geniestreich der Deep-L-Technologien als bahnbrechende neue Technologie anzusehen, ohne uns in den Bann der Hype-Diskurse ziehen zu lassen. Lassen wir uns von sensationalistischen Reflexen nicht ablenken und konzentrieren wir uns auf die wahren Herausforderungen in diesem Zusammenhang. Und das sind Fragen politischer und ethischer Implikationen.
[1] Einige der folgenden Überlegungen konnte ich in Auseinandersetzung mit den prägnanten Ausführungen zur KI-Ethik von Helene Winiger präzisieren. Ihre Arbeit ist einsehbar unter: http://www.mi.fu-berlin.de/inf/groups/ag-ki/Theses/Completed-theses/Master_Diploma-theses/2022/Winiger/index.html
[2] Vorausschauend: Dreyfus, Hubert L. (1985; zuerst veröffentlicht 1972): What Computers Can’t Do: The Limits of Artificial Intelligence, Harper & Row, New York. Deutsch: Die Grenzen künstlicher Intelligenz: Was Computer nicht können. Königstein: Athenäum; Dreyfus, Hubert L. (1992): What Computers Still Can’t Do: A Critique of Artificial Reason. Cambridge, Mass.: MIT Press; Dreyfus, Hubert L. (1993): Was Computer noch immer nicht können, Deutsche Zeitschrift für Philosophie, No. 4 (1993).
[3] Die hier verwendete Unterscheidung von Langue und Parole geht auf den Cours de linguistique générale (1916) des Sprachtheoretikers Ferdinand de Saussure zurück.