Centrum komputační lingvistiky

Prof. PhDr. Eva Hajičová, DrSc. • 13. ledna 2004

Centrum komputační lingvistiky

Matematicko-fyzikální fakulta

Univerzita Karlova v Praze

Vedoucí: Prof. PhDr. Eva Hajičová, DrSc.

Centrum komputační lingvistiky bylo založeno v rámci vědeckého programu Národních center v roce 2000. Ke společnému výzkumu se spojila pracoviště Karlovy univerzity, Ústavu pro jazyk český Akademie věd a Západočeské univerzity Plzeň. Centrum je součástí Matematicko-fyzikální fakulty UK v Praze. Pracuje v něm v současné době 41 pracovníků, z toho 70% mladých pracovníků do 35 let.

Centrum se zabývá teoretickým i aplikovaným výzkumem v oblasti komputační lingvistiky, zaměřuje se na kombinování empirických a stochastických metod studia přirozených jazyků s důrazem na češtinu. Výzkum se zabývá psaným i mluveným jazykem.

Centrum má 4 oddělení:

komputační a teoretická analýza češtiny na základě Pražského závislostního korpusu
matematické základy a metody
analýza české mluvené řeči
vícejazyčný výzkum a aplikace

CKL je unikátním výzkumným pracovištěm v ČR v oblasti komputační lingvistiky a automatického zpracování přirozeného jazyka, a to především tím, že

je v něm integrován a vzájemně posilován výzkum jak jazyka psaného, tak mluveného
výzkum má pevné a originální teoretické základy v oblasti grmatiky i lexika, ale neztrácí ze zřetele ani aspekty aplikační
ve vzájemné rovnováze jsou lingvistické i informatické aspekty tohoto výzkumu.

V tomto smyslu se dá říci, že v této integraci má CKL i významné postavení mezi předními světovými centry výzkumu v komputační lingvistice, o čemž svědčí i zájem o naše výsledky.

Hlavní oblasti výzkumu

1.Teoretické aspekty komputační lingvistiky

Teoretické aspekty komputační lingvistiky se zaměřením na výzkum psané i mluvené češtiny a s ohledem na možné aplikace. Používání Pražského závislostního korpusu (dále PZK), který obsahuje poloautomatickou analýzu stovek tisíc českých vět, umožňuje výzkum na vyšší úrovni než dříve.

2.Jazykové zdroje

Zaměřujeme se na využívání bohatých jazykových zdrojů pro češtinu, zejména proto, že čeština je je jediný jazyk s bohatou morfologií, který byl analyzován v podobné míře.

3.Vývoj statistických i strukturních metod pro češtinu

Metodologie je založena na prohloubeném studiu, porovnávání a kvalifikovaném využití postupů strukturních i statistických metod strojového učení, s ohledem na specifické typologické vlastnosti češtiny jako vysoce flexivního jazyka. V tomto ohledu vyvíjíme originální metodologii, neboť dosud navrhované přístupy čerpají ze zdrojů v angličtině a v jiných jazycích s nízkým stupněm flexe.

4.Matematické základy a metody

Pozornost je věnována matematickým a výpočetním základům vyvíjených metod, algoritmů a postupů zpracování přirozeného jazyka.

5.Rozpoznávání řeči

Výzkum v oblasti systémů rozpoznávání mluvené řeči je založený na statistických metodách. Zvláštní důraz je kladen na studium suprasegmentálních jevů, jako je význam větné prozodie, a jazykového modfelování, opět s přihlédnutím k tomu, že čeština je jazyk s vysokou inflexí. V průběhu řešení projektu bylo Centrum pozváno jako spoluřešící (a pro evropskou oblasti koordinující) pracoviště mezinárodního projektu MALACH (Multilingual Access to Large Spoken Archives), jehož cílem je vývoj systémů pro automatický přepis svěděckých výpovědí lidí, kteří přežili holocaust. Svědecké výpovědi byly pořízeny ve více než 30 různých jazycích a česká strana je spoluzodpovědná za zpracování jazyků střední a východní Evropy. Na projektu participují Visual History Foundation v Hollywoodu, Johns Hopkins University v Baltimore, University of Maryland, IBM, MFF UK v Praze a ZČU v Plzni. Anotační práce na zpracování svědeckých výpovědí jsou podporovány National Science Foundation v USA.

6.Vícejazyčný výzkum

Využití vícejazyčných zdrojů umožňuje získat znalosti o češtině srovnatelné s výsledky zpracování jiných jazyků. Pozornost se zaměřuje na studium a použití paralelních korpusů se zaměřením na široké spektrum aplikací, například získávání informací z vícejazyčných textů, automatický či strojově podporovaný překlad nebo základní výzkum multimediální interakce.

Mezinárodní spolupráce

Centrum využívá mezinárodních kontasktů zakládajících institucí a je zapojeno do intenzivní a vysoce plodné spolupráce s podobnými výzkumnými centry a univerzitami v zahraničí. Aktivně spolupracuje mj. s těmito institucemi: Department of Computer Science, Johns Hopkins University, Baltimore, USA; Istituto di Linguistica Computazionale, C.N.R. Pisa, Itálie; Natural Language Systems Intitute, Fachbereich Informatik, Universität Hamburg; Institut für Übersetzen und Dolmetschen, Universität des Saarlandes, Německo; Institut national des langues et civilisations orientales (INALCO), Paris, Francie; Xerox Research Center Europe, Language Research Group, Grenoble, Francie.

Vedle toho probíhá dlouhodobá intenzivní spolupráce s dalšími předními pracovišti na University of Pennsylvania ve Philadelphii a University of Massachussets v Amherstu v USA a na univerzitách v Uppsale a v Edinburghu.

Pracovnící Centra se pravidelně účastní hlavních mezinárodních konferencí v oboru (COLING, ACL, EACL, ECAI, IJCAI, TSD apod.).