PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Sprachgeneratoren: kaum noch von menschlicher Stimme zu unterscheiden?


Gast
2009-03-14, 13:28:51
Habe mir gerade ein Video online angeguckt und zweifle jetzt wirklich: echt oder nicht...
jedenfalls klingt es fast perfekt!
http://www.ftd.de/_components/mediaplayer/player.html?id=487206

Haben die Sprachgeneratoren so große Fortschritte gemacht?

Tiamat
2009-03-14, 13:38:42
;D Nene das ist ne menschliche Sprecherin.
Auch wenn´s wirklich so monoton wie n Bot klingt, des hört man am Akzent und desöfteren das Pusten ins Mikro.

Also unter MacOS X 10.5 gibt´s ne Stimme, die ich wirklich beeindruckend finde. Ist natürlich auf die englische Sprache abgerichtet, aber schon im Vergleich zu 10.4 n guter Fortschritt.

Spasstiger
2009-03-14, 13:43:15
Das hier ist computergeneriert und wird kommerziell vertrieben:
http://www.neospeech.com/audios/NeoSpeech_Paul.wav

http://www.neospeech.com/

looking glass
2009-03-14, 14:35:02
Dazu braucht man nur mal bei heise.de einen Newsartikel aufrufen, ganz oben gibt es einen Button, der einem die News vorliest - probieren geht vor studieren.

Gast
2009-03-14, 15:42:55
Selbst den in WindowsXP (2001) eingebauten Voice-Kommentar finde ich nicht schlecht, der redet zwar in Stücken, ist aber sehr verständlich.
Angeblich solls möglich sein, weitere Stimmen zu saugen, kA wo :)

Als negativbeispiel muss ich aber mal google nennen. Wenn ihr euch die Captchas vorlesen lasst, finde ich die sprachqualität ziemlich mies.

Gast
2009-03-14, 16:22:09
das ist bestimmt absicht

Spasstiger
2009-03-14, 17:25:42
Dazu braucht man nur mal bei heise.de einen Newsartikel aufrufen, ganz oben gibt es einen Button, der einem die News vorliest - probieren geht vor studieren.
Stellenweise ein bischen holprig und die Betonung ist manchmal übertrieben. Im Allgemeinen aber recht gut und besser als das, was WinXP mitliefert. Dennoch finde ich die Sprecher von Neospeech um Einiges besser. Dummerweise hat Neospeech bislang aber keinen deutsche Sprecher im Angebot.

Einen Computersprecher, der absolut natürlich klingt und von einem echten Menschen nicht unterscheidbar ist, habe ich bislang noch nicht gehört. Die besten Lösungen sind momentan wohl im Uncanny-Valley angelangt:
http://de.wikipedia.org/wiki/Uncanny_Valley

http://upload.wikimedia.org/wikipedia/de/b/b4/Uncanny_valley_deu.png

looking glass
2009-03-14, 18:09:33
Ich weiß was das uncanny valley ist ;), wobei auch dahingehend schon Sachen laufen, wie z.B. "ähhen", "hüsteln", "pausensetzung" usw. - hat doch letztens erst einer der big player patent für bekommen :).

e.v.o
2009-03-14, 18:11:07
Gab letztens bei Chaosradio Express einen Bericht darüber. Hab auf der CeBIT mit einem gesprochen der für die Hypo Vereinsbank so ein System aufgestellt hat. Der meinte das man das am Telefon nicht mehr unterscheiden könnte von einem Menschen. Auch wird auf Stress in der Stimme reagiert.

looking glass
2009-03-14, 18:21:01
Sry, wage ich zu bezweifeln, einen Automaten wird man erkennen, bis man das wirklich nicht mehr kann, dauert das noch Jahre - zumindest sabbeln die aber nicht mehr so, das man sie am liebsten treten möchte.

Wobei es bei solchen Systemen nicht an der Sprache liegt, das sie hängen, sondern an der Spracherkennung und Menüführung (aka Benutzbarkeit).

e.v.o
2009-03-14, 19:41:27
Die reagieren mittlerweile dynamisch auf den Nutzer. Du wirst also nicht zweimal die gleiche Antwort hören. Das diese Systeme nur vereinzelt im Einsatz sind, dürfte klar sein. Kostet alles viel Geld, da viel Leistung benötigt wird. Es gibt diese Systeme aber. Seit mind. 2 Jahren.

Die Spracherkennung und Menüführung ist mittlerweile vorbildlich. Ich weiss ehrlich gesagt nicht welche Systeme du kennst. Mittlerweile ist es möglich Zusammenhänge zu erkennen und ganze Sätze zu verstehen. Ruf mal bei der Bahn an,...

huha
2009-03-14, 20:23:20
Vocaloid klingt eigentlich jetzt schon ganz ordentlich--und das, obwohl's nur eine Rumspiellösung ist.

-huha

Ringwald
2009-03-14, 21:39:51
Vocaloid klingt eigentlich jetzt schon ganz ordentlich--und das, obwohl's nur eine Rumspiellösung ist.

-huha

Und es gibt dazu auch ein älteren Thread von Avalox ;)

http://www.forum-3dcenter.org/vbulletin/showthread.php?t=434919&highlight=vocaloid

Controller Khan
2009-03-15, 01:52:30
Selbst den in WindowsXP (2001) eingebauten Voice-Kommentar finde ich nicht schlecht, der redet zwar in Stücken, ist aber sehr verständlich.
Angeblich solls möglich sein, weitere Stimmen zu saugen, kA wo :)

Als negativbeispiel muss ich aber mal google nennen. Wenn ihr euch die Captchas vorlesen lasst, finde ich die sprachqualität ziemlich mies.


Speech Synthesis läuft unter Windows über Speech Application Programming Interface.

2 Stimmen sind bei Office 2000 & XP, 2 weitere sind in Speech SDK 5.1 dabei.

Die Vista Stimme ist bei irgendeinen MS-Product dabei.

Gast
2009-03-15, 08:00:26
Bis jezt das beste was ich von sprach generatoren gehört habe

http://www.acapela.tv/Cartoon-bcc4355f44889-bcc4365f30b9-bcc4369e4c80-5-4-4

Dicker Igel
2012-11-12, 12:15:37
*ausgrab, hust, Staub wegblas*

Gibt es auch brauchbare deutsche Sprachgeneratoren?

TheGoD
2012-11-14, 12:57:02
Würde mich auch interessieren. Hatte mich vor ein paar Monaten mal mit dem Thema beschäftigt, konnte jedoch außer ein paar Demos nichts wirklich nutzbares finden.

BigKid
2012-11-14, 15:22:21
Also Navigon (ich kenne nur die iOS Version) nutzt IMHO z.B. eine Text-To-Speech Engine und von ab und zu seltsamer Aussprache bei Eigennamen von Strassen in Hintertupfingen weiß das durchaus zu überzeugen.
Klingt IMHO sogar besser als Siri - wobei - hat auch weniger "Variation" im Text und Satzbau.

m.sch
2012-11-14, 15:35:59
klick (http://ttssamples.syntheticspeech.de/deutsch/index.html)


z.B.: Ultraschnelle Sprachsynthese wie sie zum Teil von Blinden verwendet wird, mit 14 Silben pro Sekunde :eek:
Unglaublich :confused:

Mars007
2012-11-14, 16:56:02
Ich hab mir vor einem Jahr ein Sprachpaket bei Ivona gekauft, weil es relativ günstig war.
Wenn ich mich recht erinnere: 50 Dollar für Deutsch, Englisch, Französisch und Spanisch.
Seit dem lasse ich mir die meisten Artikel im Internet vorlesen. (Faulheit siegt)

Finch
2012-11-14, 18:54:16
klick (http://ttssamples.syntheticspeech.de/deutsch/index.html)


z.B.: Ultraschnelle Sprachsynthese wie sie zum Teil von Blinden verwendet wird, mit 14 Silben pro Sekunde :eek:
Unglaublich :confused:


Also bei 14 Silben pro Sekunde höre nichts mehr raus.

kevsti
2012-11-15, 00:14:36
Wenn man es ein paar mal sich anhört, kann man schon viele der Wörter gut verständlich hören (wobei ich nirgends wo was von "playstation" gehört habe)... aber um diese Schnelligkeit im realen Leben zu verstehen, muss man wahrscheinlich wirklich lange, lange trainieren...

Coda
2012-11-15, 11:07:18
Bayrische Sprachsynthese: http://ttssamples.syntheticspeech.de/ttsSamples/binsteiner.mp3

Das hat die Welt gebraucht!

Wolfram
2012-11-15, 11:43:43
Bayrische Sprachsynthese: http://ttssamples.syntheticspeech.de/ttsSamples/binsteiner.mp3

Das hat die Welt gebraucht!

Qualitativ unterirdisch. Ich versteh jedenfalls kein Wort!!! :biggrin:

JaDz
2012-11-15, 12:31:24
Bayrisch versteht ja auch kein normaler Deutscher, also alles ok.

PHuV
2012-11-15, 14:28:35
Qualitativ unterirdisch. Ich versteh jedenfalls kein Wort!!! :biggrin:
Bayrisch versteht ja auch kein normaler Deutscher, also alles ok.
Muß ich mich schämen, weil ich das ungefähr verstehe? Gut, ich habe auch eine Zeitlang in Bayern gewohnt.

Flusher
2012-11-15, 14:51:39
klick (http://ttssamples.syntheticspeech.de/deutsch/index.html)


z.B.: Ultraschnelle Sprachsynthese wie sie zum Teil von Blinden verwendet wird, mit 14 Silben pro Sekunde :eek:
Unglaublich :confused:

Hmm habe jetzt ein wenig rumgeklickt und mir einige Beispiele angehört. Mich haut jetz ehrlich gesagt keins der aktuellen Beispiele um - klingen teilweise schlechter als Beispiele die ein Jahrzehnt alt sind. :confused:

moBi
2012-11-15, 17:27:14
Video (http://www.youtube.com/watch?v=Nu-nlQqFCKg&feature=player_embedded)

Übersetzung von gesprochener Sprache nach Chinesisch und Wiedergabe in der Stimme des Sprechers in quasi Echtzeit. :freak: Ab 7:30 ist die Demonstration.

Flusher
2012-11-16, 14:45:15
Video (http://www.youtube.com/watch?v=Nu-nlQqFCKg&feature=player_embedded)

Übersetzung von gesprochener Sprache nach Chinesisch und Wiedergabe in der Stimme des Sprechers in quasi Echtzeit. :freak: Ab 7:30 ist die Demonstration.

Sieht durchaus interessant aus - aber naja...ob das irgendwie abgehackt klingt oder richtig ist kann ich natürlich nicht beurteilen. ;D

looking glass
2012-11-16, 17:20:01
Ist es nicht, es hapert schon an der Spracherkennung für das Transkript in der eigenen Sprache ;), mal drauf achten *hust* - Echtzeit ist sowieso kaum machbar, sofern die Sprachen nicht gerade beide den gleichen Satzbau aufweisen (wisst schon, Subjekt-Prädikat-Objekt) und selbst dann müssten Doppelbedeutungen und Inhaltsabgleich abgefragt werden, schon dabei scheitert im Grunde jede automatische Übersetzung.

Allerdings würde ich das jetzt nicht als völlig überflüssig ansehen, den ein Text zu Sprache im eigenen Zungenschlag wäre vielleicht gar nicht verkehrt - z.B. auf Reisen, wirkt irgendwie höflicher.

-/\-CruNcher-/\-
2012-11-18, 23:43:15
Cereproc (Irländer) Neospech (Japaner) und Ivona (Polen) sind meine klaren favoriten :)

In unserer Lokalen Straßenbahn wird leider nur Acapella Julia eingesetzt (nicht echtzeit) ;)

Was Microsoft Research da zeigt geht aber weit darüber hinaus was die machen und das sollte es auch immerhin is Microsoft Research die größte IT Research Organisation der Welt was die auf Siggraph und Co demonstrieren seit Jahren haut einen immer wieder um, allerdings is es interessant das Kinect nicht von Microsoft Research kam sondern aus der Israelischen (Militär) Forschung aber die Micrsoft Researcher nutzen es sehr effizient das full augmented Room Scanning was sie präsentiert haben ist schon genial wer brauch da noch die Grünen Nachtsichtgeräte wenn wir das volle Kampfterain in 3D mit beliebiegen Wetterbedinungen sehen können ;)

Kinect ist aber schon toll und wenn Microsoft die Technologie nicht gekauft hätte hätten wir sicherlich nicht die Möglichkeit von extreme genialem Home Made tiefen Motion and Face Capturing :)