Cowan bekommt eine echte Stimme
Was ist das Voice-Upgrade?
Cowan kann sprechen. Aber ehrlich gesagt: Die Browser-Stimme klingt wie ein Navigationsgerät aus 2008. Besonders auf Android. Auf iPhones mit "Anna" oder "Helena" etwas besser, aber immer noch deutlich kuenstlich.
Das Voice-Upgrade aendert das. Dein eigener OpenClaw-Server uebernimmt die Sprachausgabe und nutzt dafuer Edge TTS von Microsoft. Das sind Neural Voices, also Stimmen die mit neuronalen Netzen trainiert wurden. Der Unterschied ist sofort hoerbar.
Was brauchst du?
Deinen eigenen OpenClaw-Server
Einen VPS, zum Beispiel bei Hostinger. Darauf laeuft dein OpenClaw. Das Buch fuehrt dich Schritt fuer Schritt durch die Installation. Wenn du das Buch bis zum Server-Kapitel durchgearbeitet hast, steht der Server schon.
Wichtig: Du brauchst keinen zweiten API-Key. Edge TTS ist ein kostenloser Dienst von Microsoft. Kein Account, keine Registrierung, keine versteckten Kosten.
Drei Schritte, fertig
Im OpenClaw-Dashboard den Skill "Cowan Companion" suchen und installieren. Ein Klick. Der Skill richtet TTS, System-Prompt und die Wissensbasis automatisch ein.
Dashboard zeigt einen QR-Code. Handy scannen. Cowan verbindet sich automatisch mit deinem Server. Kein URL-Eintippen, keine Konfiguration.
Sprich mit Cowan. Die naechste Antwort kommt mit der neuen Stimme. Du hoerst den Unterschied sofort.
Kostet das was?
Nein. Komplett kostenlos.
Edge TTS laeuft ueber deinen Server und verursacht keine Zusatzkosten. Kein Freemium-Modell, kein Limit, kein Ablaufdatum. Solange dein Server laeuft, laeuft die Stimme.
Du hast bereits fuer den VPS bezahlt, der sowieso fuer OpenClaw noetig ist. Edge TTS ist ein Bonus obendrauf.
Der Voice-Upgrade-Skill wird bald auf ClawHub verfuegbar sein – dem Skill-Marktplatz fuer OpenClaw.
Noch bessere Stimmen?
Edge TTS klingt gut. Aber wenn du noch mehr willst, kannst du optional auf andere Anbieter wechseln:
OpenAI TTS liefert extrem natuerliche Stimmen. Braucht einen OpenAI API-Key und kostet ca. 0,015 Dollar pro 1.000 Zeichen. Fuer den gelegentlichen Einsatz ein paar Cent am Tag.
ElevenLabs bietet die vielleicht realistischsten Stimmen am Markt. Free-Tier mit 10.000 Zeichen pro Monat, danach ab 5 Dollar.
Aber das ist Kuer, keine Pflicht. Edge TTS reicht fuer die allermeisten voellig aus. In openclaw.json kannst du den Provider jederzeit wechseln, wenn du experimentieren willst.
Schritt fuer Schritt im Buch
Alles, was hier beschrieben ist, wird im Buch ausfuehrlich erklaert. Von der Server-Installation ueber den ClawHub-Skill bis zum ersten gesprochenen Satz. Mit Screenshots, Befehlen zum Kopieren und ehrlichen Hinweisen, wenn etwas schiefgehen kann.
Cowan funktioniert auch ohne Server, mit der Browser-Stimme. Aber wenn du einmal die Server-Stimme gehoert hast, willst du nicht mehr zurueck.
Bereit fuer die natuerliche Stimme? Alles beginnt mit dem Buch.