German

Flat
Re: Organizing controlling/tagging of german audio material
User: guenter
Date: 2/3/2014 6:04 am
Views: 49
Rating: 0

willkommen zurueck :)

> Exisitiert schon eine Webseite wo man sehen kann, welche Audio Datein kontrolliert wurden ?

eine Webseite nicht, aber ich lade meine aktuellen daten immer auf

http://goofy.zamia.org/voxforge/de/

hoch. die datei audio-transcripts.csv enthaelt meine aktuellen reviews - daneben gibt es auch einen kompletten sql-dump meiner datenbanl. wenn ich in anderen formaten exportieren soll, einfach bescheid geben, das sollte leicht zu implementieren sein.

http://goofy.zamia.org/voxforge/de/audio-stats.txt

ist vielleicht auch ganz interessant, es gibt einen ueberblick ueber das aktuelle modell samt wortfehlerrate, aufgeschluesselt nach voxforge-usernamen.

ist derzeit alles noch baustelle - bei der statistik will ich noch informationen zum umfang des lexikons aufnehmen, ausserdem habe ich noch ein zweites, grammatik-basiertes sprachmodell neben dem statistischen, die ergebnisser dieser auswertung werde ich auch noch mit aufnehmen in die uebersicht.

ein anderes "problem" ist aktuell, dass ich momentan mehr audio aufnehme als reviewe, aber noch nicht die zeit gefunden habe, meine neuen aufnahmen zusammenzupacken und auf den voxforge-ftp hochzuladen (sind etwa 4h neues material aktuell), entsprechend referenzieren meine reviews momentan viele submissions, die es bei voxforge noch gar nicht gibt.

 

Re: Organizing controlling/tagging of german audio material
User: Dr_Grilli
Date: 2/5/2014 8:54 am
Views: 8
Rating: 0

@Guenter: Sag mal hast du schonmal ausprobiert, ob sich die Erkennungsrate drastisch verändert, wenn man diese Q-Phoneme (qq beim VoxForge-PocketSphinx-Modell) aus dem Dictionary entfernt? Ich hatte schonmal in einem anderen Thread danach gefragt: Ich könnte mir vorstellen, dass die Modellierung eines glottalen Verschlusslautes, der vielleicht nicht mal von allen Sprechern so deutlich gesprochen wird, eher negative Auswirkungen auf das akustische Modell haben könnte.

Hast du vllt ne einfache Möglichkeit das mal zu überprüfen, wo du grad eh die Modelle baust und ggf. durch ne Testbatterie jagst?

 

Re: Organizing controlling/tagging of german audio material
User: guenter
Date: 2/11/2014 3:36 pm
Views: 107
Rating: 0

habe inzwischen auf jeden fall mal nachgesehen - die glottal stops habe ich bei meinen phonemen mit drin - siehe phonetic_alphabets.py. in X-SAMPA waere das das Zeichen '?' und in meinem X-ARPABET dann 'Q'

so ein modelllauf dauert inzwischen stunden - und weil ich staendig neues material aufnehme bin ich dauern am rechnen momentan, weil ich neugierig bin, wie sich meine neuen aufnahmen auf die fehlerraten auswirken, das macht echt spass :) - entsprechend dauert es ein wenig, bis ich CPU power frei habe fuer andere experimente, wie eben mit den phonemen.

kurz die aktuellen statistiken:

Found 11015 words using 59 phones
Estimated Total Hours Training: 32.9549333333333
SENTENCE ERROR: 21.3% (584/2743) WORD ERROR RATE: 8.6% (1456/17021)
muss noch einige kleinere fehler korrigieren und mein stastikskript umbauen so, dass ich die fehlerraten nach benutzern aufgeschluesselt bekomme (vor allem meine eigene interessiert mich und wie sie sich entwickelt, wenn ich mehr lese) - dann wuerde ich hier im forum einen neuen thread aufmachen und bekanntgeben, dass es nun ein aktuelleres deutsches sphinx modell gibt
Re: Organizing controlling/tagging of german audio material
User: Binh
Date: 2/11/2014 4:44 am
Views: 12
Rating: 0

Danke für das CSV File. Ich versuch gerade einen Parser zu schreiben damit wir das für unsere Zwecke auf unsere Seite  bringen können und eventuell mit einer HTML Webseite darstellen können.

Allerdings war ich ja eine Weile nicht da und ihr müßt mir mal eine Zeile im Detail erklären. Ich nehm mal die erste im CSV.

120396,"timobaumann-20080516-nfe","de5-020","timobaumann-20080516-nfe_de5-020",1,False,0,0,True,"","DAS COMPUTERNETZWERK BESTEHT NICHT NUR AUSSCHLIEßLICH AUS KABELLOSEN ELEMENTEN","'das kÉ”m-'pjuː-tɐ-nÉ›ts-vɛɐk bÉ™-'ʃteːt 'nɪçt 'nuːɐ 'aÊŠs-ʃliːs-lɪç 'aÊŠs 'kaː-bÉ™l-loː-zÉ™n Ê”eː-lÉ™-'mÉ›n-tÉ™n",468

120396 = ID. Soweit klar

timobaumann-20080516-nfe = Name des Pakets. 

de5-020 = audiofn. Name des waves im Paket

timobaumann-20080516-nfe_de5-020 = cfn Name im Trainingsfile

1 = noiselevel. OK

False = truncated. Also nicht abgeschnitten. Ok

0 = audiolevel. Was hiess hier nochmal 0?

0 = pcn. hm?

True = continous. Das versteh ich wieder

"" = commentar. ok auch klar

DAS COMPUTERNETZWERK BESTEHT NICHT NUR AUSSCHLIEßLICH AUS KABELLOSEN ELEMENTEN = das transcript. auch klar.

das kÉ”m-'pjuː-tɐ-nÉ›ts-vɛɐk bÉ™-'ʃteːt 'nɪçt 'nuːɐ 'aÊŠs-ʃliːs-lɪç 'aÊŠs 'kaː-bÉ™l-loː-zÉ™n Ê”eː-lÉ™-'mÉ›n-tÉ™n = hm. IPA. ok nachdem ich das hier aufschreibe versteh ich das. Kleines Zeichensatz Problem beim export allerdings.

468 = numsamples. Was war das nochmal?


erklärungssuchender

Binh

Re: Organizing controlling/tagging of german audio material
User: guenter
Date: 2/11/2014 5:20 am
Views: 45
Rating: 0

> 0 = audiolevel. Was hiess hier nochmal 0?

 0=low, 1=noticable, 2=high

> 0 = pcn. hm?

"pronounciation" :)

 0=clean, 1=accent, 2=dialect, 3=error

> hm. IPA. ok nachdem ich das hier aufschreibe versteh ich das. Kleines
> Zeichensatz Problem beim export allerdings.
eher beim Import - habe die Datei eben nochmal geprueft, die Zeichen sind OK. Die Datei ist utf-8 codiert, ich vermute, dass musst Du deinem Anzeigegeraet sagen.
> 468 = numsamples. Was war das nochmal?
das ist die Laenge der MFCC Datei in Samples, Einheit ist 1/100 Sekunden.
Re: Organizing controlling/tagging of german audio material
User: Binh
Date: 2/11/2014 9:23 am
Views: 16
Rating: 0

Ah supi. Danke danke. Ich hab schonmal einen Parser um es auf eine HTML Webseite in Tabellen Form darzustellen. Allerdings kann ich immer nur 5000 Ergebnisse auf einmal darstellen.

Aber ich hätte noch eine kleinere Frage. Welche der Voxforge Audio Datein hast du zum kontrollieren genommen?

Es gibt ja einen "original" Folder und einen "main" Folder. Die Originale werden dann auf 16khz bzw 8khz für Trainingszwecke runter gerechnet und dann im main gespeichert. Allerdings hatte das Kovertierungsscript auch eine oder zwei Macken.

Wenn du nur die Files im "original" Folder kontrolliert hast, könntest du diese übersehen haben.

Ich möchte vor allem für unser System erstmal die aussortieren wo die Transkription nicht mit dem Audio übereinstimmt,weil diese das Training garantiert verschlechtern. Sind diese als "truncated" gekennzeichnet oder hast du den Prompt einfach nachgebessert?


binh

 

 

Re: Organizing controlling/tagging of german audio material
User: guenter
Date: 2/11/2014 3:29 pm
Views: 16
Rating: 0

> Aber ich hätte noch eine kleinere Frage. Welche der Voxforge Audio Datein

> hast du zum kontrollieren genommen?

>

> Es gibt ja einen "original" Folder und einen "main" Folder. Die Originale

> werden dann auf 16khz bzw 8khz für Trainingszwecke runter gerechnet und dann

> im main gespeichert. Allerdings hatte das Kovertierungsscript auch eine oder

> zwei Macken.

 

bin mir nicht sicher, ob ich immer die gleiche quelle genommen habe ueber die monate/jahre. inzwischen nehme ich aber diese URL als quelle (siehe audio-update.sh):

 

http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/

 

welche macken hat das konvertierungsskript denn?

 

> Ich möchte vor allem für unser System erstmal die aussortieren wo die

> Transkription nicht mit dem Audio übereinstimmt,weil diese das Training

> garantiert verschlechtern. Sind diese als "truncated" gekennzeichnet oder

> hast du den Prompt einfach nachgebessert?

 

wenn sich eine submission durch korrektur des prompts hat retten lassen, dann habe ich das auch getan, also den prompt editiert - das gilt vor allem dann, wenn die leute einfach was anderes gelesen haben, als im prompt stand. nur, wenn wirklich vorne/hinten was abgeschnitten war habe ich die submission als "truncated" markiert.

 

ansonsten ist auch noch "error" bei pcn wichtig - das sind andere lesefehler, die sich nicht ueber den prompt korrigieren lassen - "aehms" und "aehs" zum beispiel oder auch, wenn leute mitten im wort stocken und das wort dann nochmals von vorne beginnen

Re: Organizing controlling/tagging of german audio material
User: Binh
Date: 2/12/2014 3:38 am
Views: 164
Rating: 0

>welche macken hat das konvertierungsskript denn?

Es gab bei einigen Files einen plötzlichen Abfall der Lautstärke.

Bei Original File war alles normal. Aber bei der konvertierten 16khz Version in main war plötzlich nichts mehr zu hören.

Bin mir nicht sicher ob das bereits behoben wurde ^_^

Re: Organizing controlling/tagging of german audio material
User: Dr_Grilli
Date: 2/3/2014 4:44 pm
Views: 129
Rating: 0

@Binh, zum Thema Ordnung: Ich schätze bis hier so etwas wie ein DokuWiki o.ä. steht ist der anfängliche Elan schon längst wieder verebbt.

Meiner Meinung am einfachsten: Für jede Teilaufgabe einen neuen Thread hier im Voxforge-Forum. Den Titel dann mit nem Kürzel wie [TGAM] für "tagging german audio material" versehen. So sieht man, dass die zusammengehören.

Re: Organizing controlling/tagging of german audio material
User: Binh
Date: 2/10/2014 3:15 am
Views: 23
Rating: 0

Nunja Wenn ihr wollt könnt ich bei Forumprofi mit einigen Knopfdrücken zumindest ein anderes Forum aus dem Boden stampfen.

Das voxforge Forum ist eher zum benutzen mit einer Mailingliste gedacht und dementsprechenden unübersichtlich.

Allerdings bräuchtet ihr alle dann firefox und adblock plus oder so was ähnliches. Weil es spammt ständig Werbung.


Ich kann aber auch auf unseren Server vielleicht ein Forum aufsetzen, allerdings dauert das etwas länger


Binh

PreviousNext