First/první Previous/předcházející Home Next/další Last/poslední

Dvojjazyčné CC TMX s češtinou
 03  MultiCCAligned v1




Kopie textu webové stránky   Strojový překlad do češtiny



https://opus.nlpl.eu/MultiCCAligned.php https://opus.nlpl.eu/multiccaligned.php
MultiCCAligned v1 MulticCaligned v1.
This corpus was created from 68 Commoncrawl Snapshots (up until March 2020). Tento korpus byl vytvořen z 68 společných snímků (až do 2020).
The documents are split into sentences based on punctuations and deduplication is performed. Dokumenty jsou rozděleny do vět založených na intercepci a deduplikaci.
No claims of intellectual property are made on the work of preparation of the corpus. Žádné tvrzení o duševním vlastnictví nejsou prováděny v práci přípravy korpusu.
The original distribution is available from Původní distribuce je k dispozici od
http://www.statmt.org/cc-aligned/ http://www.statmt.org/cc-aligned/
CCAligned consists of parallel or comparable web-document pairs in 137 languages aligned with English. CCALIGNED se skládá z paralelních nebo srovnatelných párů webového dokumentu v 137 jazycích zarovnané s angličtinou.
These web-document pairs were constructed by performing language identification on raw web-documents, and ensuring corresponding language codes were corresponding in the URLs of web documents. Tyto páry webového dokumentu byly konstruovány prováděním jazykového identifikace na surových webových dokumentů a zajišťování odpovídajících jazykových kódů odpovídají v adresách URL webových dokumentů.
This pattern matching approach yielded more than 100 million aligned documents paired with English. Tento přístup vzorku odpovídal více než 100 milionů zarovnaných dokumentů spárovaných s angličtinou.
Recognizing that each English document was often aligned to mulitple documents in different target language, we can join on English documents to obtain aligned documents that directly pair two non-English documents (e.g., Arabic-French). Uznáváme, že každý anglický dokument byl často zarovnán na mulitple dokumenty v jiném cílovém jazyce, můžeme se připojit k anglickým dokumentům, abychom získali zarovnané dokumenty, které přímo spárují dva neanglické dokumenty (např. arabština-francouzština).
Sentence pairs were extracted using similarity scores of LASER embeddings from the document pairs (minimum similarity 1.04, sorted based on decreasing similarity score). Dvojice vět byly extrahovány pomocí výsledků podobnosti laserových vložek z dvojic dokumentu (minimální podobnost 1.04, tříděná na základě snižování skóre podobnosti).
It misses some languages not covered by LASER. Chybí některé jazyky, které nejsou pokryty laserem.
This collection has been further processed for making it a multi-parallel corpus by pivoting via English. Tato sbírka byla dále zpracována za to, že je to více paralelní korpusy otočením přes angličtinu.
The original bitexts for English-centric data are available from the CCAligned release. Originální bitexts pro anglická-centrická data jsou k dispozici od CCALIGNED vydání.
113 languages, 6,187 bitexts 113 jazyky, 6,187 bitextů
total number of files: 113 Celkový počet souborů: 113
total number of tokens: 16.85G Celkový počet tokenů: 16,85g
total number of sentence fragments: 1.24G Celkový počet fragmentů věty: 1,24G
If you use the dataset or code, please cite (pdf): Pokud používáte DataSet nebo kód, uveďte prosím (PDF):
@inproceedings{elkishky_ccaligned_2020, @inprozeings {elkishky_ccaligned_2020,
author = {El-Kishky, Ahmed and Chaudhary, Vishrav and Guzmán, Francisco and Koehn, Philipp}, Autor = {El-Kishky, Ahmed a Chaudhary, Vishrav a Guzmán, Francisco a Koehn, Philipp},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020)}, Booktitle = {Sborníky konference 2020 o empirických metodách při přirozeném jazykovém zpracování (EMNLP 2020)},
month = {November}, měsíc = {listopad},
title = {{CCAligned}: A Massive Collection of Cross-lingual Web-Document Pairs}, název = {{CCAAligned}: Masivní sbírka cross-lingválního webového dokumentu páry},
year = {2020} Rok = {2020}
address = "Online", Adresa = "Online",
publisher = "Association for Computational Linguistics", vydavatel = "asociace pro výpočetní lingvistiku",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.480", URL = "https://www.aclweb.org/antology/2020.emnlp-main.480",
doi = "10.18653/v1/2020.emnlp-main.480", doi = "10.18653/v1/2020.emnlp-main.480",
pages = "5960--5969" Stránky = "5960--5969"
} }
and, please, acknowledge OPUS (bib, pdf) as well for this service. A prosím, potvrzte OPUS (Bib, PDF) i pro tuto službu.
For more information on the sentence pair mining method, see Chaudhary et al., WMT 2019 (bib, pdf). Pro více informací o metodě dolování věty, viz Chaudhary et al., WMT 2019 (Bib, PDF).
Pivoting is done using OpusTools, see Aulamo et al., LREC 2020 (bib, pdf) Otočení se provádí pomocí OpusTools, viz Aulamo et al., LREC 2020 (Bib, PDF)

First/první Previous/předcházející Články / Articles Next/další Last/poslední

Copyright Ing. Milan Čondák 21.04.2021