German

Flat
Re: adapt the german modelnsh
User: Binh
Date: 10/18/2013 2:25 am
Views: 126
Rating: 1

Nun gut. Wenn Nickolay nicht etwas anderes meinte, nehme ich jetzt mal an, das er einfach nicht alles gelesen hat. Falls er etwas anderes meinte, kann er sich gerne hier einmischen. Ich lerne gerne etwas dazu.

Zurück zu deinem Fall. Vielleicht sollten wir noch einmal zurück treten und uns überlegen ob Sphinx wirklich das richtige an dieser Stelle ist.

Zunächst must du dir überlegen wieviel Zeit du hast um den Transcriber zu schreiben. Wenn es unter 1 Monat ist und du nicht auf Sphinx( Als Aufgabenstellung) angewiesen bist, dann würde ich dir vielleicht Google Voice Api nahe legen. Man zerlegt die Audio Datei dabei und schickt sie an Google, welche dann eine Erkennung zurückschickt. Es ist deutlich einfacher, auch wenn man hier allerdings nicht die Möglichkeit hat irgendetwas zu tunen.

Als nächstes must du die überlegen was auf der Audiodatei genau drauf ist. Wie du vermutlich bereites gelesen hast, ist es deutlich einfach eine beschränkte Reihe von Befehlen zu erkennen wie: "Gehe rechts, Gehe links, Wähle 662" als fließenden gesprochenen Text.

Re: adapt the german modelnsh
User: Visitor
Date: 10/21/2013 3:32 am
Views: 20
Rating: 0

Vielen Danke erstmal. Leider ist es nicht möglich mit Google Voice api zu arbeiten, da der Proxy dies nicht zulässt :(. Ich finde das pocketsphinx genau das ist was ich suche. Nur habe ich das Problem das viele Errors beim Training auftreten(tutorialam). Ich arbeite gerade daran dies zum laufen zu bringen.

Es werden bei mir keine mfc.Dateien generiert! 

Ich weis noch nicht was ich falsch mache, aber vielleicht hättest du einen tip.

Ich möchte mich bei dir nochmals bedanken, du bist eine sehr große hilfe.

 

Re: adapt the german modelnsh
User: Visitor
Date: 10/21/2013 4:19 am
Views: 12
Rating: 0

Die MFC Dateien werden im Schritt comp_feat erzeugt.

Wenn du Tutorialalarm gefolgt bist, guckt doch bitte einmal in deinen Trainingsfolder unter dem verzeichnist /logdir/000.comp_feat. Da müßten zwei Dokumente sein. Schau in die beiden rein, ob eines einen Error enthält. Meistens findet er in solchen Fällen die Datei nicht.

Wenn da gar nichts drin steht, kann es sein, das die entsprechenden Systeme, nicht richtig installiert is.

Was mir noch einfällt, ist das viele die falsche Ane Datenbank herunterladen. Im Tutorial steht das man eine Datenbank mit wavs runterladen soll. Das erste was einen aber entgegen schlägt ist eine Datenbank mit sph Datein.

Re: adapt the german modelnsh
User: Visitor
Date: 10/21/2013 4:27 am
Views: 48
Rating: 0

Vielen dank für die schnellen antworten einfach nur super. Die wav dateien sind meine eigenen dateien die ich selbst eingesprochen habe. es sind zwar nur zwei kurze Aufzeichnungen aber es ist nur ein test ob dieser weg zielführend ist für meine Arbeit.

Tatsächlich ist es so, dass er die mfc.Dateien nicht findet (does not exist or is empty). Aber auch nur weil die mfc.Dateien nicht erzeugt werden.  

Im logfile steht

INFO: sphinx_fe.c(1043): Processing all remaining utterances at position 0
sphinx_fe: symbol lookup error: sphinx_fe: undefined symbol: path2dirname

Danke nochmals

Re: adapt the german modelnsh
User: Binh
Date: 10/21/2013 4:53 am
Views: 25
Rating: 0

Die mfc Datein werden nicht erzeugt , weil er die wav Datein nicht findet.

sphinx_fe: symbol lookup error: sphinx_fe: undefined symbol: path2dirname

Da scheint das Problem irgendwo zu sein. Die Position der wav Datein wird in der *.train.fileids festgelegt.

Gibs du da nur den Filenamen an, musss die wav im Hauptfolder unter wav liegen. Wenn ich mehr dazu sagen soll, müsste ich mal den gesamten Trainingsfolder sehen und außerdem wissen auf welchem System du trainierst.

Re: adapt the german modelnsh
User: shasirl
Date: 10/21/2013 8:19 am
Views: 29
Rating: 0

Ich trainiere auf einer virtuellen Maschine (Kubuntu). Meine fileids (test_train.fileids) sieht wie folgt aus.

speaker_1/mercedes
speaker_2/lenkrad

Meine wav.Dateien sind in

../wav/speaker_1/mercedes.wav

../wav/speaker_2/lenkrad.wav

also rein theoretisch müsste es doch stimmen.

Neuinstallation von Sphinxtrain hat auch nicht geholfen :(

Vielen dank

 

Re: adapt the german modelnsh
User: Binh
Date: 10/21/2013 10:52 am
Views: 85
Rating: 0

Sieht eigentlich gut aus.

Der Visitor meinte das du zwei Versionen von sphinxbase ( nicht sphinxtrain. Oder meintest sphinxbase bei der neuinstallation? ) hast. Die zweite Version könnte mit der kubuntu Installation gekomment sein. Das bedeutet du must erstmal jegliche sphinxbase installation entfernen, allerdings bin ich mir nicht sicher wie das auf kbuntu funktioniert.

Ein Schuss in blaue wäre:

sudo apt-get purge sphinxbase-utils

Re: adapt the german modelnsh
User: shasirl
Date: 10/22/2013 3:28 am
Views: 80
Rating: 0

Es war tatsächlich so dass sphinxbase doppelt vorhanden war. dies hat leider mein problem nicht gelöst, oder zumindest wird in logdir keine neue datei erzeugt mit einem error. mein jetziger stand vllt ist für euch ersichtlich was falsch ist.

Phase 1: Checking to see if the dict and filler dict agrees with the phonelist file.
Found 17 words using 26 phones
passed
Phase 2: Checking to make sure there are not duplicate entries in the dictionary
passed
Phase 3: Check general format for the fileids file; utterance length (must be positive); files exist
WARNING: Error in '/home/siha/Documents/sphinx/train/etc/test_train.fileids', the feature file '/home/siha/Documents/sphinx/train/feat/speaker_1/mercedes.mfc' does not exist, or is empty
WARNING: Error in '/home/siha/Documents/sphinx/train/etc/test_train.fileids', the feature file '/home/siha/Documents/sphinx/train/feat/speaker_2/lenkrad.mfc' does not exist, or is empty
WARNING: Error in '/home/siha/Documents/sphinx/train/etc/test_train.fileids'. Can not parse the line ''
FAILED
Phase 4: Checking number of lines in the transcript file should match lines in fileids file
passed
Phase 5: Determine amount of training data, see if n_tied_states seems reasonable.
Estimated Total Hours Training: -4.27350427350427e-07
This is a small amount of data, no comment at this time
WARNING
Phase 6: Checking that all the words in the transcript are in the dictionary
Words in dictionary: 13
Words in filler dictionary: 4
WARNING: Bad line in transcript:

Ich kann mich bei euch nicht genug bedanken.

Vielen dank

Re: adapt the german modelnsh
User: Binh
Date: 10/22/2013 3:53 am
Views: 22
Rating: 0

Das ist der generelle Output. Sieh bitte nochmal in die beiden logfiles unter /logdir/000.comp_feat und guck nach, ob sich der Fehler geändert hat. Es werden immer noch keine mfcs erzeugt, aber wenn das den letzten Fehler behoben hat, sollte ein neuer Fehler im Log zu sehen sein. Eine Kleinigkeit nebenbei.

WARNING: Error in '/home/siha/Documents/sphinx/train/etc/test_train.fileids'. Can not parse the line ''

Das heißt du hast am Ende einmal zuviel Enter gedrückt.

Setzt bitte sowhl in der fileid file als auch im transcript file genau EINE Leerzeile am Ende. (damit hinter dem letzten Eintrag ein newline Zeichen ist)

Re: adapt the german modelnsh
User: Visitor
Date: 10/22/2013 7:39 am
Views: 82
Rating: 0

Soweit so gut. Jetzt schon der nächste Error der mir alle nerven raubt.

ERROR: "main.c", line 841: Too few observations for kmeans
ERROR: "main.c", line 1399: Unable to do k-means for state 0; skipping...

Ist es vielleicht bekannt?

PreviousNext