OPUS

Z Multimediaexpo.cz

OPUS (Open Source Parallel Corpus) je projekt, zabývající se zpracováním vícejazyčných textů za účelem získání dat, která lze následně využít například při rozšiřování slovníků či strojovém překladu.

Náplň projektu

K samotnému zpracování dochází výhradně strojově, za použití několika open source nástrojů. OPUS sám o sobě je balík pod licencí open source. Při zpracování v podstatě dochází především k přiřazení odpovídajících si vět v různých jazycích k sobě. Podle povahy dokumentů je tak získáno velké množství dat, ve kterých je několik vět mezi stejnými jazyky překládáno často mnoha způsoby, nezřídka je vyhodnocována i situace, kdy je jediná věta v jednom jazyce přeložena několika větami jazyka druhého. K dosažení kýženého výsledku je využíváno různých heuristik, v závislosti mimo jiné i na povaze zpracovávaných dokumentů. Lingvisté vzorky výsledků ohodnotili ve valné většině správností přesahující 80%, často je výsledek i 100%, a to dokonce i při srovnávání jazyků, jako jsou bulharština a holandština.[zdroj ?]

Příklady již zpracovaných dat

Součástí projektu se stalo zpracování několika zdrojů dokumentů, dostupných ve více jazycích. Výsledky zpracování, jakož i mnoho dalších informací a dokumentů, jsou dostupné na serveru projektu. Například při zpracování databáze filmových titulků, poskytnuté serverem opensubtitles.org, bylo získáno 361 souborů, obsahujících dvojjazyčné zarovnané texty. Zpracovávané texty byly ve 30 různých jazycích a celkem bylo zpracováno 20400 filmových titulků, obsahujících 22268624 větných fragmentů.

Externí odkazy