Version 12 der Spracherkennung Dragon Naturally Speaking / Mac bringt Diktierfunktion von Hause aus mit
Neuer Termin mit Martin nächste Woche Dienstag 12 Uhr": Schon dieser eine
Satz demonstriert beispielhaft die Leistungsfähigkeit einer modernen
Spracherkennung. Er ist in weniger als fünf Sekunden diktiert und führt nahezu
unmittelbar zu einem Eintrag im elektronischen Kalender. Ohne Spracherkennung
dauert es immer länger: Das Starten des Terminkalenders, die Suche des passenden
Datums und das Eintippen der Details ist viel mühseliger, als seinem Smartphone
neun Wörter vorzusprechen. Ihre frappierende Leichtigkeit hat Apples
Sprachassistentin Siri so populär gemacht. Aber sie ist ja auch mehr als eine
Spracherkennung, die Gesprochenes in Schriftliches überführt. Siri nimmt
zusätzlich eine semantische Analyse des Inhalts vor, und anhand bestimmter
Schlüsselbegriffe wie "Termin" erfolgt automatisch die Umsetzung in Aktionen,
wie der Eintrag im Terminkalender oder das Abrufen des Wetterberichts.
Siri läuft derzeit nur auf dem iPhone 4S. Wer jedoch das iPad 3 oder auf dem
Mac-Rechner das aktuelle Apple-Betriebssystem Mountain Lion einsetzt, kann
zumindest die Diktatfunktion, also die reine Spracherkennung, ebenfalls
verwenden. Wo immer der Cursor gerade steht: Man diktiert, der Audio-Schnipsel
wird via Internet auf Server von Apple übertragen, dort transkribiert, und der
Text kommt retour. Apple verwendet für seine Spracherkennung die Technik des
amerikanischen Herstellers Nuance, der hier seit mehr als zehn Jahren
Marktführer ist. Der Charme dieser Lösung besteht darin, dass sie geradezu
unmittelbar zur Verfügung steht. Man muss keine Software installieren, kein
Benutzerprofil anlegen, nichts neu lernen, sondern kann einfach loslegen. Die
Erkennungsrate ist sehr hoch, die Ergebnisse sind verblüffend gut.
Vergleicht man die drei Apple-Plattformen, ist die Performance nahezu identisch.
Der Mac-Rechner mit flinken Prozessoren ist dem iPad 3 keineswegs überlegen. Auf
allen drei Systemen sind auch ähnliche Fehler und Einschränkungen zu beobachten.
Zum Beispiel die falsche Großschreibung, wenn man im Satz innegehalten hat. Und
die Restriktionen sind ebenfalls nicht zu übersehen: Der Erkenner erlaubt nicht
das Anlernen oder Training ihm unbekannter Begriffe, er versteht kein
Fachvokabular, und man kann nur abschnittweise diktieren, weil ja jeder Satz
oder Halbsatz nach Amerika geschickt wird, was nicht jeder goutiert.
Für professionelles Diktieren längerer Texte oder die Umsetzung von Diktaten,
die zuvor aufgenommen wurden, ist das Apple-System ungeeignet. Es wird nur dann
besser, wenn Apple die Algorithmen auf seinen Servern verbessert. In Amerika
beklagen sich sogar viele Nutzer, dass Siri in den vergangenen Monaten
schlechter geworden sei. Man wird also mit diesem semiprofessionellen System auf
den Geschmack gebracht. Schnell gibt es Appetit auf mehr, und dann ist eine
Software gefragt, die auf dem eigenen PC läuft, ein umfangreiches und
ergänzbares Wörterbuch mitbringt, für bestimmte Berufsgruppen ein Fachvokabular
und vieles andere mehr.
Wer jedoch nach ein paar Runden im Porsche 911 die Leistung eines
Formel-1-Boliden sucht, kommt um ein Fahrertraining nicht herum. Zum Glück hat
Nuance bei seiner Windows-Software Dragon Naturally Speaking in den vergangenen
Jahren viel getan, um die Hürden des Einstiegs zu senken. Dragon ist der Maßstab
und die Referenz, es gibt keine andere Software mit vergleichbarer
Leistungsfähigkeit, man mag diese Monopolstellung bedauern.
Mit der neuen Version 12, die seit Ende August im Handel ist, beschränkt sich
die Inbetriebnahme nach der Installation auf ein fünfminütiges Diktat, mit dem
der Erkenner den individuellen Sprachstil analysiert. Die viel größere Hürde im
Alltagseinsatz ist die Fülle der Möglichkeiten und Optionen. Mit dem Drachen
kann man ein Windows-System durchgängig mit Sprache steuern, eine Outlook-E-Mail
verfassen oder Word-Kommandos aufrufen. Das alles will aber geübt sein -
ungeachtet der zahlreichen Hilfestellungen.
Der neue Drachen bringt ein abermals verbessertes akustisches Modell mit, das
nun Best Match V heißt. Dieses verlangt einen Mehrkernprozessor und mindestens 4
Gigabyte Arbeitsspeicher. Wir probierten Dragon 12 mit einem älteren
Core-2-Duo-PC und zwei Gigabyte Speicher. Hier wurde uns Best Match IV
empfohlen, wir nahmen trotzdem das neue Akustikmodell - und die
Arbeitsgeschwindigkeit brach deutlich ein. Wer Höchstleistungen sucht, benötigt
also einen aktuellen Rechner. Mit dem Core-i5 und 8 Gigabyte Arbeitsspeicher
hatten wir keine Probleme. Das neue Best-Match-Modell soll um bis zu 18 Prozent
verbesserte Erkennungsleistung bieten, sagt das Marketing von Nuance, eine
saloppe Formulierung, die man jedoch so nicht stehen lassen kann.
Berücksichtigt man, dass eine Spracherkennung nur jene Begriffe fehlerfrei
umsetzen kann, die in ihrem Vokabular gespeichert sind, hängt die Beurteilung
von den Texten und den Inhalten ab. Eine prägnante Zusammenfassung der Art "98
Prozent Genauigkeit" ist also unsinnig. Ein Arzt, Anwalt oder Gutachter, der für
seine Diktate ein begrenztes Fachvokabular verwendet und dies sinnvollerweise
gleich mit Dragon dazukauft, erreicht spielend 99 Prozent und mehr. Ein
Dragon-Nutzer mit einem reichhaltigen und ungewohnten Vokabular, sagen wir ein
Schriftsteller oder Journalist, wird darunter liegen. Er wird vermutlich eigene
Ad-hoc-Begriffe (wie diesen hier) verwenden und vielleicht nur einmal und dann
nie wieder. Kein Wörterbuch kann da mithalten.