Die (künstliche) Stimme als Subjektivitätsträger in Werbe-Spots
von Flora Marie Angerer
Im Rahmen meiner Ausbildung zur TV-, Radio- und Werbesprecherin an der Schule des Sprechens in Wien beschäftige ich mich in diesem Essay mit der Frage, welche Merkmale die menschliche Sprecher*innenstimme in der Werbung im Vergleich zu KI-generierten Stimmen unverwechselbar machen. Der Fokus liegt auf dem Einfluss von KI auf das Berufsfeld professioneller Sprecher*innen. KI-Stimmen werden bereits in Werbung, Nachrichtensendungen oder Podcasts eingesetzt und lassen sich technisch in Tonhöhe, Tempo und Klangfarbe anpassen. Auf Grundlage von Mladen Dolars Theorie in The Linguistics of the Voice, die Stimme als Ausdruck von Identität und Körper beschreibt, analysiere ich einen von mir eingesprochenen Werbespot und dessen KI-generierte Version.
Für die Analyse wählte ich den Werbespot zur Dr. Oetker Weihnachtstortenmischung, da Werbung viel Emotion transportiert und kulinarische Produkte wie Torten sinnliche Erfahrungen ansprechen – eine Herausforderung für KI-Stimmen ohne Bewusstsein. Dieser Werbespot ist in der unten angeführten Abbildung zu sehen. Als KI-Stimme nutzte ich ein weibliches Modell von „Murf.ai“, das meinem Alter und meiner Klangfarbe ähnelt. Die Aufnahme wurde auf 27 Sekunden festgelegt, da Dr. Oetker-Werbespots meist 20–30 Sekunden dauern. Die Tonhöhe der KI-Stimme erhöhte ich um 10%, um eine warme Klangfarbe zu erzielen, die meiner Stimme nahekommt. Methodisch nahm ich zuerst meine Stimme auf, bevor ich die KI-Stimme generieren ließ, um die Authentizität meiner menschlichen Stimme zu bewahren und sie nicht unbewusst an die KI anzupassen.
Ziel ist es, die besonderen Qualitäten der menschlichen Stimme nach Dolar herauszuarbeiten und zu untersuchen, inwieweit KI-Stimmen im professionellen Sprechen als Alternative dienen können – und wo ihre Grenzen liegen.

Was die menschliche Stimme unersetzlich macht
In The Linguistics of the Voice aus Voice and Nothing More sieht Mladen Dolar die Stimme nicht nur als akustisches Signal oder Träger sprachlicher Zeichen, sondern als zentrales Element menschlicher Kommunikation, das eng mit Körper, Identität und Subjektivität verbunden ist. Für ihn ist die Stimme mehr als ein Werkzeug zur Bedeutungsübertragung. [1]
Dolar unterscheidet zwischen der sprachlichen Ebene (dem Signifikanten) und der Stimme als körperlich gebundenem, nuancenreichem Ereignis, das sich nicht vollständig systematisieren lässt. Während sprachliche Zeichen beliebig reproduzierbar sind, bleibt die Stimme individuell und physisch verankert. [2] Auch in einer Zeit, in der schriftbasierte Kommunikation über digitale Medien dominiert und technische Entwicklungen wie KI-generierte Stimmen immer überzeugender klingen, bleibt die menschliche Stimme ein zentrales Moment authentischer Kommunikation. Sie unterscheidet sich von natürlichen Geräuschen und Maschinenklängen, auch wenn die Grenzen durch KI-Stimmen zunehmend verschwimmen. [3]
Bedeutungsebene / Signifikant
Während der Signifikant die analysierbare sprachliche Form eines Zeichen bildet, bezeichnet Mladen Dolar die Stimme als einen Überschuss zur reinen Bedeutungsebene. Signifikanten sind sprachliche Zeichen, die beliebig wiederholbar und reproduzierbar sind; sie gehören einem strukturierten System an. Die Stimme jedoch entzieht sich dieser Ordnung: Zwar kann sie Bedeutung transportieren, indem sie als Träger fungiert, doch ist sie selbst kein reines Zeichen und besitzt keine eigene Bedeutung. Sie befindet sich zwischen Körper und Sprache – sie ist sinnlich, körperlich und flüchtig. [4] Die KI-Stimme in der Aufnahme des Werbespots entspricht für Dolar vermutlich dem rein sprachlichen Signifikanten: Sie ist laut ihm ein technisch perfektes, programmierbares und reproduzierbares Lautbild, das klare Wörter und Bedeutungen transportiert, jedoch keine affektive oder körperliche Dimension besitzt. Somit bleibt die KI-Stimme auf der Ebene des Signifikanten verhaftet – ohne die subjektive, emotionale Tiefe, die menschliche Stimmen durch ihren „Überschuss“ mitbringen.
Körperlichkeit und Subjektivität
Dolar zufolge ist die Stimme ein körperlich gebundenes Ereignis, das Subjektivität, Identität und Begehren ausdrückt. Sie ist mehr als ein bloßes akustisches Signal, da sie auf den Körper und das Unbewusste verweist – also auf das, was sich nicht vollständig sagen oder kontrollieren lässt. [5] Dolar kritisiert, dass die klassische Linguistik die Stimme meist nur in technischen Kategorien wie „stimmhaft oder stimmlos“ oder „nasal oder oral“ betrachtet und dabei ihre klanglichen und subjektiven Qualitäten wie Timbre, Akzent oder emotionale Nuancen übersieht. Diese Sicht nennt er die „Theologie der Stimme“, da sie die Stimme lediglich als Trägerin des Wortes begreift und nicht als eigenständiges, vielschichtiges Phänomen. [6] Stattdessen fordert Dolar, die Stimme als singuläres, körperliches Ereignis zu verstehen, das sich nicht wiederholen oder vollständig analysieren lässt. Klangliche Merkmale wie Akzent, Intonation und Timbre machen die Stimme einzigartig und binden sie an den Körper und den Moment des Sprechens. Während die Sprache auf Wiederholbarkeit basiert, ist die Stimme für Dolar ein unverwechselbarer, körperlicher Laut, der weit über die rein sprachliche Bedeutung hinausgeht. [7] Dolar würde vermutlich sagen, dass die Aufnahme der menschlichen Stimme durch ihren bestimmten Akzent, die Intonation mit Pausen und Betonungen sowie durch das individuelle Timbre, das durch Atmung und Resonanzräume geprägt ist, lebendig und emotional wirkt. Die Aufnahme der KI-Stimme hingegen wirkt funktional [8], glatt [9] und entkörpert. Sie erfüllt nur die Bedeutungsebene des Signifikanten, ohne affektive Tiefe oder leibliche Spuren – ein reiner Träger von Sinn, aber ohne Subjekt. Auch ihr gleichförmiges Timing, bei dem alles ohne Pausen in einem Fluss gesprochen wird, verweist auf den Mangel an natürlicher menschlicher Zeitlichkeit, wie sie durch körperlich empfundene Pausen und Rhythmus in der menschlichen Stimme hörbar wird.
Akzent und soziale Bedeutung
Der Akzent verweist auf die regionale oder soziale Herkunft einer Stimme und macht damit die körperliche Basis des Sprechens sichtbar. Er kann den Sprachfluss unterbrechen, wenn er von der reinen Bedeutung ablenkt. Dennoch lässt sich der Akzent beschreiben und normieren, da er als eine Form der Aussprache gilt, die von der standardisierten oder allgemein anerkannten sprachlichen Norm abweicht. Die Unterscheidung zwischen Akzent und sprachlicher Norm verdeutlicht, dass Sprache stets auch soziale und politische Dimensionen trägt, in denen Stimme und Akzent eine zentrale Rolle spielen. [10] Dolar betont, dass die menschliche Stimme durch Akzent soziale Identität und Körperlichkeit ausdrückt und somit Subjektivität sichtbar macht. In meiner Aufnahme zeigt sich ein individueller Akzent, der die Sprecherin als soziales Subjekt verortet. Im Gegensatz dazu wirkt die KI-Stimme monoton, standardisiert und akzentfrei. Ihr fehlt es an sozialer Verortung und körperlicher Präsenz, wodurch persönliche Tiefe und Subjektivität, wie von Dolar beschrieben, verloren gehen. Damit bestätigt meine Analyse Dolars These, dass der Akzent mehr ist als nur eine sprachliche Abweichung. Er ist Ausdruck von sozialer Herkunft, Identität und Körperlichkeit.
Intonation und emotionale Wirkung
Die Intonation verändert Tonfall und Melodie der Sprache und kann die Bedeutung einer Aussage stark beeinflussen – etwa durch Ironie, Empörung oder Traurigkeit – und das ganz ohne Änderung des sprachlichen Inhalts. Sie umfasst Modulation, Kadenz und Betonung und verleiht der Stimme Lebendigkeit sowie Vieldeutigkeit. [11] Die menschliche Aufnahme in meiner Untersuchung zeigt eine lebendige Intonation mit Betonungen und Pausen, die emotionale Tiefe und innere Beteiligung vermitteln. Im Gegensatz dazu wirkt die KI-Stimme kontrolliert, gleichmäßig und monoton. Es fehlen sinnerfüllte Pausen und Betonungen, beispielsweise auf das Werbeprodukt „Dr. Oetker“. Der Fluss bleibt ununterbrochen, sodass keine Emotionen transportiert werden. Auch die Modulation bleibt oberflächlich – zentrale Wörter wie der Produktname werden nicht hervorgehoben, wodurch Bedeutungsebene und Gefühlsebene nicht miteinander verschränkt sind, wie es Dolar zufolge für Subjektivität wesentlich wäre.
Timbre und Individualität
Das Timbre ist die individuelle Klangfarbe der Stimme, vergleichbar mit einem Fingerabdruck, und ermöglicht die Identifikation unabhängig vom sprachlichen Inhalt. Es ist kein Teil der bedeutungstragenden Struktur, sondern Ausdruck des Körpers und der Affekte. Daher ist es nicht sprachlich fassbar, sondern das Resultat von Atmung, Resonanz und Körperspannung. Es entzieht sich der Systematisierung und trägt emotionale sowie leibliche Spuren. [12] Die menschliche Stimme in meiner Vergleichsanalyse zeigt natürliche Atmung und Resonanz, was zu einer lebendigen, individuellen Klangfarbe führt. Das Timbre wirkt warm und dynamisch, wie Dolar es als Ausdruck körperlicher Präsenz beschreibt. Der KI-Stimme fehlt diese natürliche Atmung und Resonanz; sie klingt monoton, glatt und metallisch [13]. Dadurch wirkt sie distanziert und leblos, was Dolars Kritik bestätigt: Es fehlt die körperliche Dimension und Subjektivität. Die Abwesenheit hörbarer Luftbewegungen verstärkt diesen Eindruck – die KI bleibt atemlos und damit entkörpert, während der menschliche Atem das Timbre lebendig und situationsgebunden macht.
Die Stimme außerhalb des Signifikanten
Nachdem Dolar den Unterschied zwischen Signifikant und Stimme sowie deren Besonderheiten in Akzent, Intonation und Timbre herausgearbeitet hat, greift er auf Jacques Lacans Konzept des „Objekts a“ [14] zurück, um die Stimme als etwas zu fassen, das zwischen Körper und Sprache steht. Sie gehört weder ganz zum Inneren noch zum Äußeren und verweist auf ein Begehren, das sich nicht vollständig sprachlich fassen lässt. Als „Objekt a“ ist die Stimme Ausdruck eines Überschusses, eines sinnlich-körperlichen Moments, das die Sprache begleitet, aber nicht vollständig in ihr aufgeht. [15] Spezielle Erscheinungsformen der Stimme, die zwischen körperlicher und sprachlicher Ebene liegen, sind prälinguistische Laute [16] wie Husten oder Schluckauf – unwillkürliche Geräusche außerhalb der Sprache, die dennoch kommunikative Funktionen übernehmen, etwa um Aufmerksamkeit zu wecken. Sie entwickeln eine eigene Bedeutung, da das Körperliche durch seinen Gegensatz zum Symbolischen Sinn erhält. So eröffnen diese Laute eine Bedeutungsebene jenseits des sprachlichen Inhalts und zeigen die enge Verbindung von Körper, Stimme und Sprache. [17] In der Dr.-Oetker-Werbung erscheint das „mmmm“ in der menschlichen Stimme als spontaner, sinnlich erlebbarer Ausdruck von Genuss – ein Moment, der laut Dolar das Objekt a hörbar macht. Die KI-Stimme hingegen wirkt hier glatt und funktional; das „mmmm“ klingt uneindeutig und künstlich, eher wie ein undeutlich gesprochenes Wort. Es fehlt die affektive Tiefe und Verkörperung. Auch körperliche Laute wie natürliche Atmung, Pausen oder Resonanz fehlen der KI-Stimme – sie klingt gleichförmig und distanziert, ohne jene Unschärfen und Signifikantüberschüsse, die Dolar als das „Andere“ der Sprache beschreibt.
Erkenntnisse der Vergleichsanalyse nach Mladen Dolar
Nach Dolars Theorie und anhand der Vergleichsanalyse wird klar, welche Merkmale die menschliche Stimme in der Werbung unverwechselbar machen: Ihre Körperlichkeit, soziale Identität, lebendige Intonation und individuelles Timbre verleihen ihr eine emotionale und authentische Tiefe, die KI-Stimmen (standardisiert, monoton und körperlos) nicht erreichen können. Gerade diese unverwechselbaren Eigenschaften machen die menschliche Stimme im Werbekontext besonders wirkungsvoll und persönlich – Aspekte, die laut Dolar nicht programmierbar sind und von KI nicht reproduziert werden können.
Endnoten
[1] Vgl. Dolar, Mladen, „The Linguistics of the Voice“, A Voice and Nothing More, Cambridge/ London: MIT Press, 2006, S. 12-32, hier S. 14 f.
[2] Vgl. ebd., S. 14 f.
[3] Vgl. ebd., S. 13.
[4] Vgl. ebd., S. 16 f.
[5] Vgl. ebd., S. 17 f.
[6] Vgl. ebd., S. 19.
[7] Vgl. ebd., S. 20.
[8] „Funktional“ bezeichnet hier eine Stimme, die klar verständlich ist und ihre semantische Aufgabe erfüllt, jedoch nicht lebendig oder verkörpert wirkt.
[9] „Glatt“ bezeichnet eine klangliche Gleichförmigkeit, ohne hörbare Unebenheiten, Atempausen oder emotionale Brüche. Es handelt sich um eine Gleichförmigkeit ohne das Unvorhersehbare und Menschliche.
[10] Vgl. ebd., S. 20.
[11] Vgl. ebd., S. 20 f.
[12] Vgl. ebd., S. 22.
[13] „Metallisch“ bezeichnet hier eine unnatürliche, technisch klingende Stimmfarbe, wie sie häufig bei synthetischen Stimmen auftritt. Sie wirkt hart, kühl und wenig resonant.
[14] „Objekt a“ von Lacan bezeichnet das unerreichbare Objekt des Begehrens, das zwischen Subjekt und Sprache vermittelt. Vgl. ebd., S. 31.
[15] Vgl. ebd., S. 31.
[16] „Prälinguistische Laute“ bezeichnet Laute wie Husten, Seufzen oder Schluckauf, die nicht Teil des Sprachsystems sind, aber dennoch eine kommunikative Funktion erfüllen können. Sie liegen außerhalb der Sprache, bleiben jedoch körperlich bedeutsam.
[17] Vgl. ebd., S. 23 f.