Jazykové zdroje a jazykové služby |
|
|||||||||||
Prvním mým oficiálním zdrojem jsou TMX z JRC EC ve formátu TMX. | ||||||||||||
V dubnu 2021 ještě nejsou TMX za rok 2020 k dispozici ke stažení. | ||||||||||||
Aktuální TMX si vytvářím z HTML souborů EuroLexu | pomocí programu LF-Aligner, který stáhne vybrané jazykové verze, pokud jsou do nich dokumenty přeloženy. | |||||||||||
První službou EC, kterou používám je eTranslation Nyní služba podporuje 30 jazyků. | ||||||||||||
Druhou službou EC, kterou používám je CEF Speech Nyní služba podporuje 3 jazyky: angličtinu, francouzštinu a němčinu. |
||||||||||||
Jinými zdroji jsou tématické TMX | Vytváří je na zakázku z dat EurLexu Farkas András, autor programů LF Aligner a TMLookup. | |||||||||||
Nejvíce zdrojů TMX je na webu Opus | Data zde nepravidelně přibývají po různých konferencích, kdy jsou představeny nové sady dat a jsou publikovány referáty o vědecké práci. | |||||||||||
Originál PDF
2020.lrec-1.467_EN a automatické překlady |
OpusTools and Parallel Corpus Diagnostics
|
|||||||||||
Originál PDF
W19-5435_EN a automatické překlady |
Low-Resource Corpus Filtering using Multilingual Sentence Embeddings
|