Statisticky extrahované slovníky z databáze DGT
Milan Condak Identity VerifiedLocal time: 22:31
English to CzechJul 14
V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/existuje i možnost si slovníky stáhnout
http://www.taas-project.eu/index.php?page=alias-3Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN). Kromě zdrojových dat je k dispozici 6 statisticky vyčištěných slovníků.
čistící metoda počet slovních dvojic EN-CS
LLR 157 tisícV jednom sloupci je zdrojový termín, jeho pravděpodobný překlad a koeficient pravděpodobnosti. Mezi výrazy je vždy mezera. Hlavní nevýhodou je, že jde o párování jednoslovných výrazů, takže jedno anglické slovo je přeloženo do více českých tokenů (gramatických tvarů) a anglické slovo je bez kontextu (předložek, členů apod.).
Podle přiloženého referátu ve formátu PDF existují i jazykové páry FR-XX a DE-XX. Budou ke stažení později. Referát uvádí jako nejúčinnější metodu čištění "ruční čištění", to ale vyžaduje jazykové znalosti a je časově náročné.
Stáhnout je možné také ověřenou terminologii = IATE, pro češtinu v ní je pouze 26.202 výrazů http://iate.europa.eu/tbxPageDownload.dodiskuze k tématu je zde
http://www.proz.com/forum/translator_resources/271879-iate_database_tbx.htmla také v jných jazycích.