First/první Previous/předcházející Home Next/další Last/poslední

      Statisticky extrahované slovníky z databáze DGT
 01  Příspěvek na ProZ.com




http://www.proz.com/forum/czech/271969

Statisticky extrahované slovníky z databáze DGT

Milan Condak Identity Verified

Local time: 22:31

English to Czech

Jul 14

V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN). Kromě zdrojových dat je k dispozici 6 statisticky vyčištěných slovníků.

čistící metoda počet slovních dvojic EN-CS

LLR 157 tisíc
Pivot 349 tisíc
Transliteration 267 tisíc

V jednom sloupci je zdrojový termín, jeho pravděpodobný překlad a koeficient pravděpodobnosti. Mezi výrazy je vždy mezera. Hlavní nevýhodou je, že jde o párování jednoslovných výrazů, takže jedno anglické slovo je přeloženo do více českých tokenů (gramatických tvarů) a anglické slovo je bez kontextu (předložek, členů apod.).

Podle přiloženého referátu ve formátu PDF existují i jazykové páry FR-XX a DE-XX. Budou ke stažení později. Referát uvádí jako nejúčinnější metodu čištění "ruční čištění", to ale vyžaduje jazykové znalosti a je časově náročné.

Stáhnout je možné také ověřenou terminologii = IATE, pro češtinu v ní je pouze 26.202 výrazů http://iate.europa.eu/tbxPageDownload.do

diskuze k tématu je zde

http://www.proz.com/forum/translator_resources/271879-iate_database_tbx.html

a také v jných jazycích.


First/první Previous/předcházející Home Next/další Last/poslední

Copyright Ing. Milan Čondák 25.07.2014