Click here to register.

Russian

Flat
Sequitur G2P
User: eramart
Date: 2/24/2011 11:23 am
Views: 771
Rating: 1

Вопрос ко всем, кто имел дело с этим замечательным продуктом. Можно ли указать при обучении, что русский язык в словаре идет в кодировке Utf-8, используя таким образом по два символа для буквы? Возможно, макрос MULTIGRAM_SIZE, задающийся при компиляции, имеет какое-то отношение к количеству символов в букве?

Reply
Re: Sequitur G2P
User: nsh
Date: 2/24/2011 12:04 pm
Views: 31
Rating: 1

> Можно ли указать при обучении, что русский язык в словаре идет в кодировке Utf-8, используя таким образом по два символа для буквы?

Чтобы указать кодировку в g2p.py нужно использовать параметр encoding:
        '-e', '--encoding', default='ISO-8859-15',
        help='use character set encoding ENC', metavar='ENC')
Соответственно, нужно указать utf-8

> Возможно, макрос MULTIGRAM_SIZE, задающийся при компиляции, имеет какое-то отношение к количеству символов в букве?

Не имеет

 

 

Reply
Re: Sequitur G2P
User: eramart
Date: 2/24/2011 12:11 pm
Views: 23
Rating: 1

Спасибо! А за что отвечает MULTIGRAM_SIZE?

Reply
Re: Sequitur G2P
User: nsh
Date: 2/24/2011 12:13 pm
Views: 31
Rating: 1

Число байт, используемых для хранения единицы данных во внутреннем представлении модели.

Reply
Re: Sequitur G2P
User: eramart
Date: 2/24/2011 12:54 pm
Views: 262
Rating: 1

Спасибо, Николай!

Reply
PreviousNextAdd