Statisticky extrahované slovníky z databáze DGT
Thread poster: Milan Condak
Milan Condak
Milan Condak  Identity Verified
Local time: 23:47
English to Czech
Jul 14, 2014

V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jeno
... See more
V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN). Kromě zdrojových dat je k dispozici 6 statisticky vyčištěných slovníků.

čistící metoda počet slovních dvojic EN-CS

LLR 157 tisíc
Pivot 349 tisíc
Transliteration 267 tisíc

V jednom sloupci je zdrojový termín, jeho pravděpodobný překlad a koeficient pravděpodobnosti. Mezi výrazy je vždy mezera. Hlavní nevýhodou je, že jde o párování jednoslovných výrazů, takže jedno anglické slovo je přeloženo do více českých tokenů (gramatických tvarů) a anglické slovo je bez kontextu (předložek, členů apod.).

Podle přiloženého referátu ve formátu PDF existují i jazykové páry FR-XX a DE-XX. Budou ke stažení později. Referát uvádí jako nejúčinnější metodu čištění "ruční čištění", to ale vyžaduje jazykové znalosti a je časově náročné.

Stáhnout je možné také ověřenou terminologii = IATE, pro češtinu v ní je pouze 26.202 výrazů

http://iate.europa.eu/tbxPageDownload.do

diskuze k tématu je zde

http://www.proz.com/forum/translator_resources/271879-part_of_the_iate_database_can_now_be_downloaded_as_a_massive_tbx.html

a také v jných jazycích.

Milan

[Upraveno: 2014-07-14 19:42 GMT]
Collapse


 
Milan Condak
Milan Condak  Identity Verified
Local time: 23:47
English to Czech
TOPIC STARTER
Prezentace o využití dat Jul 27, 2014

Milan Condak wrote:

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN).



Udělal jsem prezentaci

www.condak.cz/archiv-net/2014-07/25/cs/00.html

Ukazuje jak je možno využít bezplatně stažená data, zatím ale pouze v kombinaci s angličtinou.

Jedna stránka je věnovaná křížovému importu.

http://www.condak.cz/archiv-net/2014-07/25/cs/03.html

Toto téma není nyní dále rozpracováno.

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Statisticky extrahované slovníky z databáze DGT






Anycount & Translation Office 3000
Translation Office 3000

Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.

More info »
Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »