Organizing controlling/tagging of german audio material

German

Flat

Re: Bzgl. Fehlerrate

User: guenter
Date: 2/19/2014 6:09 pm

Views: 66
Rating: 0

> - Sprachmodell: wir haben eine für Pocketsphinx formatierte Version des

> German Parole Corpus (siehe http://ota.ahds.ac.uk/desc/2467 ).

ist das eine (semi-)manuell nach saetzen aufgesplittete version des parole corpus? wenn ja, haette ich daran grosses interesse - bin gerade dabei zu versuchen, einen nltk sentence segmenter zu trainieren fuer meine plaene, librivox audiobooks zu zerlegen, dafuer koennte ich sowas gut gebrauchen.

Re: Organizing controlling/tagging of german audio material

User: Icarus
Date: 1/27/2014 3:19 am

Views: 82
Rating: 0

Was für ein System und Setup benutzt du eigentlich gerade für deine Spracherkennungs-Tests?

Re: Organizing controlling/tagging of german audio material

User: guenter
Date: 2/3/2014 12:29 pm

Views: 26
Rating: 0

Aktuell verwende ich HTK, um das Audiomodell zu rechnen und SRILM fuer das Sprachmodell - fuer die Erkennung dann Julius.

Der Rest ist ein Berg von Python-Skripten, fuer's Reviewen habe ich ein Webinterface in JavaScript/Jquery. Den kompletten Code hoste ich auf github:

https://github.com/gooofy/voxforge

ich hatte uerspruenglich mal mit Sphinx angefangen, war dann aber zu HTK/Julius uebergegangen weil ich dachte, dass diese Tools auf Voxforge populaerer waeren - war aber nur mein oberflaechlicher Eindruck, weil ich auf Anhieb mehr Doku zu diesen Tools hier gefunden habe.

Inzwischen habe ich aber den Eindruck, dass zumindest hier im deutschen Forum Sphinx deutlich verbreiteter ist - stimmt dieser Eindruck?

Ich will bald versuchen, zumindest zusaetzlich auch Sphinx-Modelle zu rechnen - waere vielleicht auch fuer Vergleiche und Fehlersuche interessant.

Re: Organizing controlling/tagging of german audio material

User: Dr_Grilli
Date: 2/3/2014 4:40 pm

Views: 4
Rating: 0

Zumindest ich für meinen Teil nutze PocketSphinx. Für meine Anwendung allerdings zunächst mit den englischen Modellen, weil die deutschen von Voxforge ja derzeit nicht so prall sind und mir die Zeit zum Reviewen und selberbauen der Modelle gerade fehlt.

Re: Organizing controlling/tagging of german audio material

User: guenter
Date: 2/7/2014 7:14 am

Views: 234
Rating: 0

Sphinx-Modelle rechnen steht bei mir nun sehr weit oben auf der TODO-Liste, bin sehr gespannt, was dabei rauskommt.

Ich kann derweil berichten, dass ich mit meinem Review nun fertig bin :) :

total     27622 files, total    length:  2237.66min
reviewed  27622 files, reviewed length:  2237.66min (100% done)
good      25848 files, good     length:  2100.46min ( 93% good)

bevor sich jemand wundert, ich habe, um in endlicher Zeit fertig zu werden, einige Abkuerzungen gewaehlt:

- wenn offensichtlich war, dass ein Nutzer technische Probleme hatte (z.B. voellig verrauschte Aufnahmen abliefert und viel zu leise), habe ich nur Stichproben gemacht und dann saemtliche Submissions aus dem Set oder gar von dem Benutzer entsprechend markiert, ohne sie einzeln durchzuhoeren und z.B. genauer auf Lesefehler zu untersuchen

- ich habe das Modell swoeit ich es hatte immer mal wieder gegen die noch ausstehenden Submissions laufen lassen - solche, die das Modell 100% erkannt hat, habe ich dann automatisiert als in Ordnung abgehakt

das Modell rechnet nun ohne Probleme durch - die aktuellen Daten habe ich wie immer auf

http://goofy.zamia.org/voxforge/de/

hochgeladen. Damit gibt es nun auch wieder ein aktuelles deutsches Voxforge Julius-Modell - ich will das im Moment aber noch nicht allzu sehr an die grosse Glocke haengen, weil ich erstmal den Vergleich mit Sphinx abwarten und ggf versuchen will, Parameter zu tunen - von solchen Dingen wie dem Phoneme Set ganz zu schweigen.

BTW: inzwischen kamen ja hier aus dem Forum auch schon wieder wertvolle Hinweise, ist alles in meiner Inbox und ist nicht vergessen, Antoworten kommen noch.

Noch kurz einige Erkenntnisse aus dem Review-Prozess:

- ich habe noch ein zusaetzliches Kriterium eingefuehrt, naemlich "continous" - damit unterscheide ich Submissions, in denen Leute fluessig lesen und solche, in denen jemand Pausen zwischen den einzelnen Woertern macht (oder sonstwie unnatuerlich langsam im Diktierstil liesst). Mein Eindruck von meinen Modellrechnungen war, dass diese Submissions sehr grossen Einfluss auf die Erkennungsraten des Modells haben: rechne ich sie mit ein, kommen solche Submissions auf sehr gute Erkennungsraten (habe Fehlerraten um die 15% gesehen) - dafuer versinkt der Rest im Rauschen. Weil ich fuer meine Anwendungen eher auf die Erkennung fluessiger, natuerlicher Aeusserungen aus bin, habe diese Submissions vorlaeufig ausgeschlossen - ich koennte mir aber vorstellen, dass man sie spaeter, wenn man deutlich mehr Audio-Material hat, wieder problemlos dazunehmen kann - verstaendlich und technisch in Ordnung sind sie allemal.

- wuerde ich nochmal von Null anfangen, wuerde ich die Kriterien ein wenig veraendern: statt "Noise" wuerde ich eher sowas wie "SNR" bewerten - also Signal-to-Noise-Ratio oder Speech-to-Noise-Ratio - das absolute Rauschen ist eigentlich nicht so relevant, eher, in welchem Verhaeltnis es zum Nutzsignal steht.

Beim Audiolevel wuerde ich die Stufe "low" rauslassen - ob "good" oder "low" ist, so mein Eindruck, fuer das Modell irrelevant. Ich wuerde also nur drei Stufen vorsehen: "OK", "too low", "distorted"

- man koennte noch ueberlegen, ob man unterscheiden will, wie stark eine Aufnahme verhallt ist - also wie gross der Abstand des Sprechers vom MIkrofon war - es gab aber nicht genug solcher verhallter Aufnahmen als dass ich den Einfluss auf das Modell wirklich haette messen koennen

Material für Sphinx

User: Icarus
Date: 2/4/2014 3:22 am

Views: 529
Rating: 0

Wie gesagt, wir benutzen hier PocketSphinx und könnten viel von unserem Material zur Verfügung stellen. Dazu gehören Sprachmodell, Akustikmodell und Konfiguration. Allerdings wäre das Grundmaterial dann nicht komplett identisch zu deinem Julius-Material, das macht die Vergleiche etwas ungenau.

Re: Material fÃ¼r Sphinx

User: Dr_Grilli
Date: 2/5/2014 9:44 am

Views: 123
Rating: 0

Hm, also an dem PocketSphinx-Modell wäre ich prinzipiell auch interessiert. Es geht mir im wesentlichen um eine Sprachsteuerung mit einer geringen Anzahl an Befehlen und ich komme auch mit der englischen Version aus. Aber grundsätzlich wäre ein Vergleich der beiden vielleicht nicht schlecht.

Re: Material fÃÂ¼r Sphinx

User: guenter
Date: 2/10/2014 1:58 pm

Views: 94
Rating: 0

Habe am Wochenende nun endlich Zeit gehabt, mich mit sphinxtrain und pocketsphinx zu befassen - und muss sagen: ich bin total begeistert!

die Erkennungsraten sind extrem gut:

SENTENCE ERROR: 25.9% (295/1141) WORD ERROR RATE: 10.3% (765/7422)

dabei habe ich 10% der guten Submissions fuer das Testen reserviert und die restlichen 90% der guten Submissions in das Modell eingerechnet. Auch Live-Tests mit Mikrofon und selbst mit dem Modell unbekannten Sprechern lieferten sehr ermutigende Ergebnisse.

Ich habe das Modell (wie immer) hier hochgeladen:

http://goofy.zamia.org/voxforge/de/

damit ist klar, dass mit meinem HTK/Julius Modell irgendwas ganz grundlegendes nicht in Ordnung war - die Sphinx-Ergebnisse sind aber so gut, dass ich vermutlich fuer die naechste Zeit einfach ausschliesslich darauf umsteigen werde (zumal hier im Forum das Interesse fuer Sphinx eh viel groesser zu sein scheint)

Ich bin gerade noch ein wenig am experimentieren, u.a. will ich sehen, ob das Modell immer noch so gut oder gar besser wird, wenn ich die Submissions, in denen Leute mit Pausen zwischen den Woertern sprechen, auch mit reinrechne.

Anschliessend wuerde ich hier einen neuen Thread aufmachen und bekanntgeben, dass es nun ein aktuelles (wenn auch irgendwie nicht-offizielles) deutsches Modell gibt.

Re: Material fÃÂÃÂ¼r Sphinx

User: Dr_Grilli
Date: 2/10/2014 5:00 pm

Views: 50
Rating: 0

Das hört sich ja großartig an. Dateien, in denen die Worte nicht kontinuierlich, mit Pausen, hintereinander gesprochen werden, würde ich empfehlen die Pausen mit <sil> zu transkribieren. Dann rafft SphinxTrain vielleicht noch eher, dass es sich um separat gesprochene Wörter handelt.

Die Sache mit dem qq-Phonem würde mich auch noch brennend interessieren. Aber mir fehlt leider die Erfahrung beim Aufbau eines neuen Modells von null. Werde mir mal Gedanken zu einer automatisierten Überarbeitung des Wörterbuchs machen.

Re: Material fÃÂÃÂÃÂÃÂ¼r Sphinx

User: guenter
Date: 2/10/2014 6:54 pm

Views: 125
Rating: 0

> Das hört sich ja großartig an. Dateien, in denen die Worte nicht > kontinuierlich, mit Pausen, hintereinander gesprochen werden, würde ich > empfehlen die Pausen mit zu transkribieren. Dann rafft SphinxTrain > vielleicht noch eher, dass es sich um separat gesprochene Wörter handelt. habe es jetzt einfach mal so gerechnet und die ergebnisse sind sehr ermutigend: SENTENCE ERROR: 22.2% (601/2713) WORD ERROR RATE: 9.1% (1523/16837) will aber noch mein statistik-script an pocketsphinx anpassen so, dass ich die wortfehlerraten pro benutzer ausrechnen kann, dann kann ich genaueres sagen. es ist aber denkbar, dass die leute noch immer schnell genug lesen, als dass ein zwischen den woertern nicht noetig ist - die idee behalte ich aber im hinterkopf. > Die Sache mit dem qq-Phonem würde mich auch noch brennend interessieren. also ich verwende ja ganz eigene phoneme, qq oder QQ gibt es bei mir nicht - welchem IPA symbol entspricht das denn bzw. gibt es irgendwo einer uebersicht, ueber die voxforge-phoneme? meine phoneme kann man hier aus dem quelltext entnehmen - ich kann aber auch mal versuchen, eine HTML-tabelle draus zu basteln: https://github.com/gooofy/voxforge/blob/master/phonetic_alphabets.py grundsaetzlich lege ich in der datenbank immer UTF8 codiertes IPA ab - halte ich fuer lesbar und das allgemeinste. mein lex-edit tool versteht neben IPA auch X-SAMPA, was die eingabe auf herkoemmlichen tastaturen deutlich vereinfacht ;) fuer die modelle ust xsampa aber immer noch zu "kompliziert", weil es ja gross/kleinschreibung braucht - daher verwende ich an der stelle dann eine eigenkreation, die auf ARPABET basiert, aber erweitert ist um die phoneme, die man fuer's deutsche braucht - ich bezeichne das als 'X-ARPABET' xs2xa_table zeigt das mapping von X-SAMPA nach X-ARPABET. > Werde mir mal Gedanken zu einer automatisierten Überarbeitung des Wörterbuchs machen. was muesste man hier tun bzw. was ist hier das problem? ich fuer mich werde jetzt erst nochmal ein paar mehr audio-submissions meiner eigenen stimme aufnehmen, ich will versuchen, auf die von sphinx empfohlenen 10h zu kommen. dabei will ich auch versuchen, den "aktiven wortschatz" meines modells ein wenig zu erweitern, dazu habe ich mir das lm-topwords tool geschrieben das aus dem parole-corpus die top-n woerter auszaehlt und dann prompts raussucht, die diese woerter enthalten - auf die weise kann ich dann schrittweise sicherstellen, dass z.B. die haeufigsten 5000 oder spaeter 10000 deutschen woerter im modell drin sind. eine andere idee waere dann noch, (halb-) automatisiert freie audiobooks von librivox zu zerteilen mit hilfe von forced alignment, da wollte ich versuchen, ein entsprechendes tool zu bauen. ich denke, das modell soweit ich es bisher habe ist gut genug, um hier nuetzlich zu sein - auf die weise koennte man dann recht zuegig zu sehr viel weiterem, freien audiomaterial mit verschiedenen sprechern kommen (und lexikon/wortschatz wachsen ganz automatisch weiter). librivox listet aktuell 1477 deutsche audiobuecher - waere ein traum, die alle mit im modell drin zu haben :)

[ «Previous Page | 1 2 3 4 5 6 | Next Page» ]

Previous • Next •


Username	Password