Centrum komputační lingvistiky ****************************************************************************************** * Centrum komputační lingvistiky ****************************************************************************************** Matematicko-fyzikální fakulta Univerzita Karlova v Praze Vedoucí: Prof. PhDr. Eva Hajičová, DrSc. [ URL "http://ckl.mff.cuni.cz/hp/hajicova.html"] Centrum komputační lingvistiky [ URL "http://ckl.mff.cuni.cz/?a=home"] bylo založeno v rám Národních center v roce 2000. Ke společnému výzkumu se spojila pracoviště Karlovy univerzi jazyk český Akademie věd a Západočeské univerzity Plzeň. Centrum je součástí Matematicko-f UK v Praze. Pracuje v něm v současné době 41 pracovníků, z toho 70% mladých pracovníků do Centrum se zabývá teoretickým i aplikovaným výzkumem v oblasti komputační lingvistiky, zam kombinování empirických a stochastických metod studia přirozených jazyků s důrazem na češt zabývá psaným i mluveným jazykem. Centrum má 4 oddělení: 1.komputační a teoretická analýza češtiny na základě Pražského závislostního korpusu 2.matematické základy a metody 3.analýza české mluvené řeči 4.vícejazyčný výzkum a aplikace CKL je unikátním výzkumným pracovištěm v ČR v oblasti komputační lingvistiky a automatické přirozeného jazyka, a to především tím, že • je v něm integrován a vzájemně posilován výzkum jak jazyka psaného, tak mluveného • výzkum má pevné a originální teoretické základy v oblasti grmatiky i lexika, ale neztrác ani aspekty aplikační • ve vzájemné rovnováze jsou lingvistické i informatické aspekty tohoto výzkumu. V tomto smyslu se dá říci, že v této integraci má CKL i významné postavení mezi předními s výzkumu v komputační lingvistice, o čemž svědčí i zájem o naše výsledky. ****************************************************************************************** * Hlavní oblasti výzkumu ****************************************************************************************** *========================================================================================= * 1.Teoretické aspekty komputační lingvistiky *========================================================================================= Teoretické aspekty komputační lingvistiky se zaměřením na výzkum psané i mluvené češtiny a možné aplikace. Používání Pražského závislostního korpusu (dále PZK), který obsahuje poloa stovek tisíc českých vět, umožňuje výzkum na vyšší úrovni než dříve. *========================================================================================= * 2.Jazykové zdroje *========================================================================================= Zaměřujeme se na využívání bohatých jazykových zdrojů pro češtinu, zejména proto, že češti jazyk s bohatou morfologií, který byl analyzován v podobné míře. *========================================================================================= * 3.Vývoj statistických i strukturních metod pro češtinu *========================================================================================= Metodologie je založena na prohloubeném studiu, porovnávání a kvalifikovaném využití postu i statistických metod strojového učení, s ohledem na specifické typologické vlastnosti češ flexivního jazyka. V tomto ohledu vyvíjíme originální metodologii, neboť dosud navrhované ze zdrojů v angličtině a v jiných jazycích s nízkým stupněm flexe. *========================================================================================= * 4.Matematické základy a metody *========================================================================================= Pozornost je věnována matematickým a výpočetním základům vyvíjených metod, algoritmů a pos přirozeného jazyka. *========================================================================================= * 5.Rozpoznávání řeči *========================================================================================= Výzkum v oblasti systémů rozpoznávání mluvené řeči je založený na statistických metodách. kladen na studium suprasegmentálních jevů, jako je význam větné prozodie, a jazykového mod přihlédnutím k tomu, že čeština je jazyk s vysokou inflexí. V průběhu řešení projektu bylo spoluřešící (a pro evropskou oblasti koordinující) pracoviště mezinárodního projektu MALAC www.clsp.jhu.edu/research/malach/"] (Multilingual Access to Large Spoken Archives), jehož systémů pro automatický přepis svěděckých výpovědí lidí, kteří přežili holocaust. Svědecké pořízeny ve více než 30 různých jazycích a česká strana je spoluzodpovědná za zpracování j východní Evropy. Na projektu participují Visual History Foundation v Hollywoodu, Johns Hop Baltimore, University of Maryland, IBM, MFF UK v Praze a ZČU v Plzni. Anotační práce na zp výpovědí jsou podporovány National Science Foundation v USA. *========================================================================================= * 6.Vícejazyčný výzkum *========================================================================================= Využití vícejazyčných zdrojů umožňuje získat znalosti o češtině srovnatelné s výsledky zpr jazyků. Pozornost se zaměřuje na studium a použití paralelních korpusů se zaměřením na šir aplikací, například získávání informací z vícejazyčných textů, automatický či strojově pod nebo základní výzkum multimediální interakce. ****************************************************************************************** * Mezinárodní spolupráce ****************************************************************************************** Centrum využívá mezinárodních kontasktů zakládajících institucí a je zapojeno do intenzivn spolupráce s podobnými výzkumnými centry a univerzitami v zahraničí. Aktivně spolupracuje institucemi: Department of Computer Science, Johns Hopkins University, Baltimore, USA; Ist Computazionale, C.N.R. Pisa, Itálie; Natural Language Systems Intitute, Fachbereich Inform Hamburg; Institut für Übersetzen und Dolmetschen, Universität des Saarlandes, Německo; Ins des langues et civilisations orientales (INALCO), Paris, Francie; Xerox Research Center Eu Research Group, Grenoble, Francie. Vedle toho probíhá dlouhodobá intenzivní spolupráce s dalšími předními pracovišti na Unive ve Philadelphii a University of Massachussets v Amherstu v USA a na univerzitách v Uppsale Pracovnící Centra se pravidelně účastní hlavních mezinárodních konferencí v oboru (COLING, IJCAI, TSD apod.).