VoxForge
hier ist noch ein Sprachkorpus mit Material für ein deutsches Language Model:
http://www.statmt.org/europarl/
Enthält Reden des Europaparlaments, umfang etwa 47 Millionen Worte.