Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK












            ******************************************************************************************

            * Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK
            ******************************************************************************************
            Název mezinárodního projektu Malach vznikl zkrácením spojení Multilingual Access to Large 

            Slovo malach má ale v hebrejštině i poetičtější význam, a to kraloval či ustanovil za král
            bylo otestovat možnosti automatické indexace multimediálního archivu videonahrávek pamětní
            jednoho z největších digitálních archivů na světě. České nahrávky měl na starosti tým z Ús

            a aplikované lingvistiky MFF UK. Projekt Malach nám představili jeho tvůrci prof. RNDr. Ja
            Mgr. Pavel Pecina, Ph.D., za fakultní knihovnu hovořila PhDr. Petra Hoffmannová.
            Malach je mezinárodní projekt. Jak se do něj podařilo zapojit vašemu týmu?

            JH: Já jsem měl dobré kontakty na univerzitu Johns Hopkins v Baltimoru, kde jsem tři semes
            Univerzitu oslovila někdy kolem roku 1999 nadace Survivors of the Shoah – Visual History F

            Tato nadace byla založena v roce 1993 Stevenem Spielbergem, který chtěl natočit vzpomínky 
            přežili holokaust. Což se také zrealizovalo. Zjistilo se ale, že ruční indexace nahrávek b
            let, a zkoušelo se, jestli by to nebylo možné automatizovat. Tak sepsali grant a obrátili 

            instituce – jednou z nich byl i jmenovaný Johns Hopkins – aby jim s tím pomohly. IBM, kter
            přizváno, řeklo, že by si vzalo na starosti jen anglické nahrávky, a tak hledali někoho, k
            s ostatními jazyky. A na Johns Hopkins Univerzity věděli, že my se této oblasti věnujeme, 

            My se specializujeme spíše na textovou podobu, a proto byla ještě navázána spolupráce se Z
            univerzitou v Plzni, skupinou profesora Josefa Psutky, která se věnuje audiu.
            Ředitel Ústavu formální a aplikované lingvistiky prof. RNDr. Jan Hajič, Dr.

            Nahrávání výpovědí 52 000 svědků z 56 zemí ve 32 jazycích trvalo pět let. V roce 1999 byl 
            interview téměř dokončen. Jak probíhala práce s materiálem v rámci projektu Malach, a jak 
            jednotlivé instituce podělily?

            JH: Firma IBM pracovala nezávisle na nás na anglických nahrávkách, východoevropské jazyky 
            v Johns Hopkins (a tedy i my). Univerzita v Marylandu se podílela na samotném systému vyhl
            připravovali seznam témat, která sloužila k testování a vyhodnocování. My jsme měli za úko

            rozpoznávání českých nahrávek, později i dalších jazyků.
            Kolem roku 2005 začala práce na druhé části projektu. Již jsme měli převedenu řeč do textů
            potřebovali vyhledávat. Požadavky na vyhledávání nebyly ale standardní, protože v dotazech

            jen klíčová slova, ale i popis situace v rozsahu zhruba jednoho odstavce. Přijde třeba his
            všechny nahrávky, v nichž se mluví o tom, jak lidé přišli do ghetta a obstarávali si tam j
            transportu. A zajímá ho to jen pro lidi z jižní Moravy. V původním návrhu bylo, že slova z

            k jednotlivým pasážím přiřazovat ručně, a nejenom klíčová slova, ale i hodnotící shrnutí. 
            anglických nahrávek a zjistili se, že by to byla práce na desítky let.
            PP: Indexace těch pouhých 10 % trvala 4 roky, stálo to 8 milionů dolarů a zpracování jedné

            trvalo 35 hodin.
            „Mohli jsme konstatovat – umíme i v takto obtížných nahrávkách vyhledávat relevantní úseky
            Pavel Pecina, Ph.D.

            JH: Proto se objevil požadavek na automatizaci celého procesu. Systém byl zjednodušen tak,
            poslouchal bez zastavení hodinu nahrávky a při tom ji rovnou označoval slovy z tezauru. Ce
            trvat déle než hodinu a pět minut. A takto jednoduše byl nakonec označen celý archiv.

            Co konkrétně bylo úkolem českého týmu?
            JH: Prvním úkolem bylo převést audio do textové podoby. To dělali tři lidé tady v Praze a 
            Dále se musel zajistit překlad tezauru z angličtiny do dalších jazyků. A pak proces vlastn

            Co šlo využít ze systému připraveného pro angličtinu?
            JH: Teorii, ta je všude stejná. Systémy, co jsme měli, ale nešly příliš na tuto specificko
            PP: Téma holokaustu a 2. světové války má totiž velice speciální slovník, který se liší od

            posloucháme v televizi nebo je na internetu. Jde o geografické názvy, jména lidí...
            JH: Software a zejména slovníky a jazyková data musely vzniknout nově, aby se systém vylep
            chybovost.

            Jak konkrétně systém převodu audiostopy do textové podoby funguje?
            JH: My víme, že jazykový systém jsou poskládané frekvence. Existují základní a přídavné fr
            z toho dokážeme přibližně poznat, o jaké písmeno jde. Každý signál se převede do seznamu č

            znamenají, jak v tom signálu byly určité frekvence přítomny. To jde dnes docela rychle. Sí
            se pak začnou porovnávat s fonémy, které předem někdo nahrál, a hledá se, čemu se nejvíce 
            výsledkem jsou jen pravděpodobnosti, čeká se, až těchto fonémů bude celá řada. Pak se použ

            který výskyt fonémů omezuje. Například máme slovo, které se přepíše jako l-e-f, s menší pr
            může být r-e-f nebo c-e-f. Ve slovníku pak systém vyhledává, jaké podobné české slovo exis
            stále jen s určitou pravděpodobností. Tato slova jsou výsledkem akustického modelování. Tí

            Plzni. Pak musí přijít na řadu jazykové modelování, které řekne, jaké jsou možnosti řazení
            a v dané doméně. Na tom už jsme dělali i my. My jsme tedy hledali nejlepší posloupnost těc
            všech možností a snažili se spočítat pravděpodobnost pro celou posloupnost. Protože i ta n

            mohou tvořit naprostý nesmysl. Mám-li to shrnout, tak jazykový model nám říká, jakou pravd
            posloupnosti slov v češtině.
            S jakými problémy jste se potýkali?

            JH: My jsme už nějaké jazykové a Plzeňáci akustické modely měli. Ale když jsme je pustili 
            texty, tak jsme zjistili, že to nefunguje dobře. Bylo to tím, že nahrané texty byly napros
            Jednalo se o spontánní řeč, byla tam nová slova nebo jejich kombinace. Takže v rámci tohot

            museli najít správná data pro předělání jazykového modelu, aby lépe vyhovoval našim textům
            PP: Já jsem tedy musel s kolegou na internetu vyhledat texty, které by byly těm původním p
            zdesetinásobili počet původních dat v systému.

            JH: Chybovost ale byla okolo 35 %, což byl nejlepší výsledek, jakého jsme dosáhli.
            PP: To je sice každé třetí slovo, ale ještě před tím byl udělán průzkum, že pokud bude poč
            %, tak je v takto převedených rozhovorech možno úspěšně vyhledávat. V angličtině dosáhli c

            několik procent nižších. Například náš systém rozpoznal větu jako „doktor Jařab napsal sku
            tam mělo být „neschopenku“. Nebo „upytlačila jsem“ bylo vysloveno tak, že my jsme to zazna
            „upekla jsem“.

            PH: Nejzajímavější chybou bylo asi slovo „hypermangan“, které systém rozpoznal jako „Hitle
            PhDr. Petra Hoffmannová v serverovně, která ukrývá všechna zpracovaná data
            JH: Problémem je, že rozpoznávání normálně probíhá v reálném čase. Pokud by bylo na rozpoz

            byl by výsledek o něco lepší. Ale nikdy ne perfektní.
            Jak jste „naučili“ systém vyhledávat podle zadaných kritérií?
            PP: Nejprve v Marylandu vytvořili přes sto témat. Ta vznikla tak, že pozvali na univerzitu

            historiky, dokumentaristy, prostě lidi, kterým je tato problematika blízká, a poskytli jim
            hodin přístup k archivu. Oni pak měli specifikovat témata, která je zajímala. Tato témata 
            do všech používaných jazyků a pak se vyhledávala v nahrávkách. My jsme zkoumali, jak dobře

            pracovat a s jakou úspěšností dokáže úseky dokumentu požadované uživateli najít. Proto jsm
            studentů, kteří nám ručně v nahrávkách vyhledávali příslušná témata. To trvalo od roku 200
            Studenti pomocí vyhledávacích metod našli úseky, které odpovídají vyhledávaným tématům. My

            data aplikovali náš vyhledávací systém a porovnávali jsme, jak dobře umí napodobit práci l
            vyhodnotili a mohli jsme konstatovat – umíme i v takto obtížných nahrávkách vyhledávat rel
            V čem se vyhledávání liší od toho běžného třeba na internetu?

            PP: Systém nehledal jen dokument, ale i příslušnou pasáž. Pokud někoho zajímalo téma pocho
            tak my mu nevyhledáme jen sedm nahrávek, kde je o tom zmínka, ale i konkrétní místo, kde s
            Dalším rozdílem je, že k vyhledávání se nepoužívají jen přepisy textů, ale i automaticky p

            slova tezauru. Existovaly tedy dva druhy informací. My jsme také zjistili, že jednomu téma
            většinou věnuje dvě až tři minuty. Proto jsme celou výpověď rozdělili do 2,5minutových úse
            systém procházel a hledal, zda obsahují či neobsahují požadované téma. Tím jsme lépe defin

            konec úseku, kde se o tématu hovoří.
            Systém je tedy hotový. Co bude s projektem dál?
            PP: Doposud byl projekt ve výzkumné fázi. Nyní přijde na řadu jeho zpřístupnění uživatelům

            PH: V září by se měl v naší knihovně otevřít přístupový bod k digitálnímu archivu USC Shoa
            (archiv interview shromážděných nadací Survivors of the Shoah se mezitím totiž přestěhoval
            Jižní Kalifornie, USC), umožňující prohledávání všech 52 000 interview za použití klíčovýc

            všech 32 jazycích, v nichž jsou nahrávky zaznamenány. Podobná centra jsou zatím ještě v Ně
            JH: Část nahrávek bude uložena v kopii přímo u nás, to budou ty, o něž budou mít lidé nejv
            část v Kalifornii, protože nahrávky jsou opravdu rozsáhlé a my bychom tu neměli odpovídají

            tak bude potřeba vybudovat poměrně rozsáhlý počítačový systém, aby se tam alespoň malá čás
            S ukládáním dat máme vůbec veselé historky. V roce 2000 jsme řešili problém, jak do Česka 
            vlastně dostat. Zjistili jsme, že po internetu to nejde, to by trvalo léta. Nejjednodušší 

            nakonec bylo nakoupit disky, doletět do Ameriky, nahrát je tam a dovézt zpátky. Nelítalo s
            jen kvůli tomu, ale kopírovalo se to během nějaké porady, které jsme mívali. Jednou jsme m
            kontrole na letišti, protože tašku plnou disků jsme převáželi krátce po 11. září 2001...

            Komu bude nově zprovozněné centrum zejména sloužit?
            JH: V Americe se ukázalo, že o přístup k archivu je velký zájem. Zajímá dokumentaristy a f
            ale cenným zdrojem informací a materiálů také pro pedagogy, historiky, psychology, lékaře,

            profese. Pro nás je zajímavé, že budeme mít přístup ke všem datům, což je pro další vývoj 
            systémů důležité. Tolik desítek tisíc nahrávek bychom sami nikdy nesebrali. My je budeme d
            náš jazykový výzkum.

            Přístupový bod k digitálnímu archivu USC Shoah Foundation bude v nové studovně na ochoze
            (Lucie Kettnerová)