https://opus.nlpl.eu/MultiCCAligned.php |
https://opus.nlpl.eu/multiccaligned.php |
MultiCCAligned
v1 |
MulticCaligned v1. |
This
corpus was created from 68 Commoncrawl Snapshots (up until March 2020). |
Tento korpus byl vytvořen z
68 společných snímků (až do 2020). |
The
documents are split into sentences based on punctuations and deduplication is
performed. |
Dokumenty jsou rozděleny do
vět založených na intercepci a deduplikaci. |
No
claims of intellectual property are made on the work of preparation of the
corpus. |
Žádné tvrzení o duševním
vlastnictví nejsou prováděny v práci přípravy korpusu. |
The
original distribution is available from |
Původní distribuce je k
dispozici od |
http://www.statmt.org/cc-aligned/ |
http://www.statmt.org/cc-aligned/ |
CCAligned
consists of parallel or comparable web-document pairs in 137 languages
aligned with English. |
CCALIGNED se skládá z
paralelních nebo srovnatelných párů webového dokumentu v 137 jazycích
zarovnané s angličtinou. |
These
web-document pairs were constructed by performing language identification on
raw web-documents, and ensuring corresponding language codes were
corresponding in the URLs of web documents. |
Tyto páry webového
dokumentu byly konstruovány prováděním jazykového identifikace na surových
webových dokumentů a zajišťování odpovídajících jazykových kódů odpovídají v
adresách URL webových dokumentů. |
This
pattern matching approach yielded more than 100 million aligned documents
paired with English. |
Tento přístup vzorku
odpovídal více než 100 milionů zarovnaných dokumentů spárovaných s
angličtinou. |
Recognizing
that each English document was often aligned to mulitple documents in
different target language, we can join on English documents to obtain aligned
documents that directly pair two non-English documents (e.g., Arabic-French). |
Uznáváme, že každý anglický
dokument byl často zarovnán na mulitple dokumenty v jiném cílovém jazyce,
můžeme se připojit k anglickým dokumentům, abychom získali zarovnané
dokumenty, které přímo spárují dva neanglické dokumenty (např.
arabština-francouzština). |
Sentence
pairs were extracted using similarity scores of LASER embeddings from the
document pairs (minimum similarity 1.04, sorted based on decreasing
similarity score). |
Dvojice vět byly
extrahovány pomocí výsledků podobnosti laserových vložek z dvojic dokumentu
(minimální podobnost 1.04, tříděná na základě snižování skóre podobnosti). |
It
misses some languages not covered by LASER. |
Chybí některé jazyky, které
nejsou pokryty laserem. |
This
collection has been further processed for making it a multi-parallel corpus
by pivoting via English. |
Tato sbírka byla dále
zpracována za to, že je to více paralelní korpusy otočením přes angličtinu. |
The
original bitexts for English-centric data are available from the CCAligned
release. |
Originální bitexts pro
anglická-centrická data jsou k dispozici od CCALIGNED vydání. |
113
languages, 6,187 bitexts |
113 jazyky, 6,187 bitextů |
total
number of files: 113 |
Celkový počet souborů: 113 |
total
number of tokens: 16.85G |
Celkový počet tokenů:
16,85g |
total
number of sentence fragments: 1.24G |
Celkový počet fragmentů
věty: 1,24G |
If
you use the dataset or code, please cite (pdf): |
Pokud používáte DataSet
nebo kód, uveďte prosím (PDF): |
@inproceedings{elkishky_ccaligned_2020, |
@inprozeings
{elkishky_ccaligned_2020, |
author
= {El-Kishky, Ahmed and Chaudhary, Vishrav and Guzmán, Francisco and Koehn,
Philipp}, |
Autor = {El-Kishky, Ahmed a
Chaudhary, Vishrav a Guzmán, Francisco a Koehn, Philipp}, |
booktitle
= {Proceedings of the 2020 Conference on Empirical Methods in Natural
Language Processing (EMNLP 2020)}, |
Booktitle = {Sborníky
konference 2020 o empirických metodách při přirozeném jazykovém zpracování
(EMNLP 2020)}, |
month
= {November}, |
měsíc = {listopad}, |
title
= {{CCAligned}: A Massive Collection of Cross-lingual Web-Document Pairs}, |
název = {{CCAAligned}:
Masivní sbírka cross-lingválního webového dokumentu páry}, |
year
= {2020} |
Rok = {2020} |
address
= "Online", |
Adresa =
"Online", |
publisher
= "Association for Computational Linguistics", |
vydavatel = "asociace
pro výpočetní lingvistiku", |
url
= "https://www.aclweb.org/anthology/2020.emnlp-main.480", |
URL =
"https://www.aclweb.org/antology/2020.emnlp-main.480", |
doi
= "10.18653/v1/2020.emnlp-main.480", |
doi =
"10.18653/v1/2020.emnlp-main.480", |
pages
= "5960--5969" |
Stránky =
"5960--5969" |
} |
} |
and,
please, acknowledge OPUS (bib, pdf) as well for this service. |
A prosím, potvrzte OPUS
(Bib, PDF) i pro tuto službu. |
For
more information on the sentence pair mining method, see Chaudhary et al.,
WMT 2019 (bib, pdf). |
Pro více informací o metodě
dolování věty, viz Chaudhary et al., WMT 2019 (Bib, PDF). |
Pivoting
is done using OpusTools, see Aulamo et al., LREC 2020 (bib, pdf) |
Otočení se provádí pomocí
OpusTools, viz Aulamo et al., LREC 2020 (Bib, PDF) |
|
|