Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK ****************************************************************************************** * Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK ****************************************************************************************** Název mezinárodního projektu Malach vznikl zkrácením spojení Multilingual Access to Large Slovo malach má ale v hebrejštině i poetičtější význam, a to kraloval či ustanovil za král bylo otestovat možnosti automatické indexace multimediálního archivu videonahrávek pamětní jednoho z největších digitálních archivů na světě. České nahrávky měl na starosti tým z Ús a aplikované lingvistiky MFF UK. Projekt Malach nám představili jeho tvůrci prof. RNDr. Ja Mgr. Pavel Pecina, Ph.D., za fakultní knihovnu hovořila PhDr. Petra Hoffmannová. Malach je mezinárodní projekt. Jak se do něj podařilo zapojit vašemu týmu? JH: Já jsem měl dobré kontakty na univerzitu Johns Hopkins v Baltimoru, kde jsem tři semes Univerzitu oslovila někdy kolem roku 1999 nadace Survivors of the Shoah – Visual History F Tato nadace byla založena v roce 1993 Stevenem Spielbergem, který chtěl natočit vzpomínky přežili holokaust. Což se také zrealizovalo. Zjistilo se ale, že ruční indexace nahrávek b let, a zkoušelo se, jestli by to nebylo možné automatizovat. Tak sepsali grant a obrátili instituce – jednou z nich byl i jmenovaný Johns Hopkins – aby jim s tím pomohly. IBM, kter přizváno, řeklo, že by si vzalo na starosti jen anglické nahrávky, a tak hledali někoho, k s ostatními jazyky. A na Johns Hopkins Univerzity věděli, že my se této oblasti věnujeme, My se specializujeme spíše na textovou podobu, a proto byla ještě navázána spolupráce se Z univerzitou v Plzni, skupinou profesora Josefa Psutky, která se věnuje audiu. Ředitel Ústavu formální a aplikované lingvistiky prof. RNDr. Jan Hajič, Dr. Nahrávání výpovědí 52 000 svědků z 56 zemí ve 32 jazycích trvalo pět let. V roce 1999 byl interview téměř dokončen. Jak probíhala práce s materiálem v rámci projektu Malach, a jak jednotlivé instituce podělily? JH: Firma IBM pracovala nezávisle na nás na anglických nahrávkách, východoevropské jazyky v Johns Hopkins (a tedy i my). Univerzita v Marylandu se podílela na samotném systému vyhl připravovali seznam témat, která sloužila k testování a vyhodnocování. My jsme měli za úko rozpoznávání českých nahrávek, později i dalších jazyků. Kolem roku 2005 začala práce na druhé části projektu. Již jsme měli převedenu řeč do textů potřebovali vyhledávat. Požadavky na vyhledávání nebyly ale standardní, protože v dotazech jen klíčová slova, ale i popis situace v rozsahu zhruba jednoho odstavce. Přijde třeba his všechny nahrávky, v nichž se mluví o tom, jak lidé přišli do ghetta a obstarávali si tam j transportu. A zajímá ho to jen pro lidi z jižní Moravy. V původním návrhu bylo, že slova z k jednotlivým pasážím přiřazovat ručně, a nejenom klíčová slova, ale i hodnotící shrnutí. anglických nahrávek a zjistili se, že by to byla práce na desítky let. PP: Indexace těch pouhých 10 % trvala 4 roky, stálo to 8 milionů dolarů a zpracování jedné trvalo 35 hodin. „Mohli jsme konstatovat – umíme i v takto obtížných nahrávkách vyhledávat relevantní úseky Pavel Pecina, Ph.D. JH: Proto se objevil požadavek na automatizaci celého procesu. Systém byl zjednodušen tak, poslouchal bez zastavení hodinu nahrávky a při tom ji rovnou označoval slovy z tezauru. Ce trvat déle než hodinu a pět minut. A takto jednoduše byl nakonec označen celý archiv. Co konkrétně bylo úkolem českého týmu? JH: Prvním úkolem bylo převést audio do textové podoby. To dělali tři lidé tady v Praze a Dále se musel zajistit překlad tezauru z angličtiny do dalších jazyků. A pak proces vlastn Co šlo využít ze systému připraveného pro angličtinu? JH: Teorii, ta je všude stejná. Systémy, co jsme měli, ale nešly příliš na tuto specificko PP: Téma holokaustu a 2. světové války má totiž velice speciální slovník, který se liší od posloucháme v televizi nebo je na internetu. Jde o geografické názvy, jména lidí... JH: Software a zejména slovníky a jazyková data musely vzniknout nově, aby se systém vylep chybovost. Jak konkrétně systém převodu audiostopy do textové podoby funguje? JH: My víme, že jazykový systém jsou poskládané frekvence. Existují základní a přídavné fr z toho dokážeme přibližně poznat, o jaké písmeno jde. Každý signál se převede do seznamu č znamenají, jak v tom signálu byly určité frekvence přítomny. To jde dnes docela rychle. Sí se pak začnou porovnávat s fonémy, které předem někdo nahrál, a hledá se, čemu se nejvíce výsledkem jsou jen pravděpodobnosti, čeká se, až těchto fonémů bude celá řada. Pak se použ který výskyt fonémů omezuje. Například máme slovo, které se přepíše jako l-e-f, s menší pr může být r-e-f nebo c-e-f. Ve slovníku pak systém vyhledává, jaké podobné české slovo exis stále jen s určitou pravděpodobností. Tato slova jsou výsledkem akustického modelování. Tí Plzni. Pak musí přijít na řadu jazykové modelování, které řekne, jaké jsou možnosti řazení a v dané doméně. Na tom už jsme dělali i my. My jsme tedy hledali nejlepší posloupnost těc všech možností a snažili se spočítat pravděpodobnost pro celou posloupnost. Protože i ta n mohou tvořit naprostý nesmysl. Mám-li to shrnout, tak jazykový model nám říká, jakou pravd posloupnosti slov v češtině. S jakými problémy jste se potýkali? JH: My jsme už nějaké jazykové a Plzeňáci akustické modely měli. Ale když jsme je pustili texty, tak jsme zjistili, že to nefunguje dobře. Bylo to tím, že nahrané texty byly napros Jednalo se o spontánní řeč, byla tam nová slova nebo jejich kombinace. Takže v rámci tohot museli najít správná data pro předělání jazykového modelu, aby lépe vyhovoval našim textům PP: Já jsem tedy musel s kolegou na internetu vyhledat texty, které by byly těm původním p zdesetinásobili počet původních dat v systému. JH: Chybovost ale byla okolo 35 %, což byl nejlepší výsledek, jakého jsme dosáhli. PP: To je sice každé třetí slovo, ale ještě před tím byl udělán průzkum, že pokud bude poč %, tak je v takto převedených rozhovorech možno úspěšně vyhledávat. V angličtině dosáhli c několik procent nižších. Například náš systém rozpoznal větu jako „doktor Jařab napsal sku tam mělo být „neschopenku“. Nebo „upytlačila jsem“ bylo vysloveno tak, že my jsme to zazna „upekla jsem“. PH: Nejzajímavější chybou bylo asi slovo „hypermangan“, které systém rozpoznal jako „Hitle PhDr. Petra Hoffmannová v serverovně, která ukrývá všechna zpracovaná data JH: Problémem je, že rozpoznávání normálně probíhá v reálném čase. Pokud by bylo na rozpoz byl by výsledek o něco lepší. Ale nikdy ne perfektní. Jak jste „naučili“ systém vyhledávat podle zadaných kritérií? PP: Nejprve v Marylandu vytvořili přes sto témat. Ta vznikla tak, že pozvali na univerzitu historiky, dokumentaristy, prostě lidi, kterým je tato problematika blízká, a poskytli jim hodin přístup k archivu. Oni pak měli specifikovat témata, která je zajímala. Tato témata do všech používaných jazyků a pak se vyhledávala v nahrávkách. My jsme zkoumali, jak dobře pracovat a s jakou úspěšností dokáže úseky dokumentu požadované uživateli najít. Proto jsm studentů, kteří nám ručně v nahrávkách vyhledávali příslušná témata. To trvalo od roku 200 Studenti pomocí vyhledávacích metod našli úseky, které odpovídají vyhledávaným tématům. My data aplikovali náš vyhledávací systém a porovnávali jsme, jak dobře umí napodobit práci l vyhodnotili a mohli jsme konstatovat – umíme i v takto obtížných nahrávkách vyhledávat rel V čem se vyhledávání liší od toho běžného třeba na internetu? PP: Systém nehledal jen dokument, ale i příslušnou pasáž. Pokud někoho zajímalo téma pocho tak my mu nevyhledáme jen sedm nahrávek, kde je o tom zmínka, ale i konkrétní místo, kde s Dalším rozdílem je, že k vyhledávání se nepoužívají jen přepisy textů, ale i automaticky p slova tezauru. Existovaly tedy dva druhy informací. My jsme také zjistili, že jednomu téma většinou věnuje dvě až tři minuty. Proto jsme celou výpověď rozdělili do 2,5minutových úse systém procházel a hledal, zda obsahují či neobsahují požadované téma. Tím jsme lépe defin konec úseku, kde se o tématu hovoří. Systém je tedy hotový. Co bude s projektem dál? PP: Doposud byl projekt ve výzkumné fázi. Nyní přijde na řadu jeho zpřístupnění uživatelům PH: V září by se měl v naší knihovně otevřít přístupový bod k digitálnímu archivu USC Shoa (archiv interview shromážděných nadací Survivors of the Shoah se mezitím totiž přestěhoval Jižní Kalifornie, USC), umožňující prohledávání všech 52 000 interview za použití klíčovýc všech 32 jazycích, v nichž jsou nahrávky zaznamenány. Podobná centra jsou zatím ještě v Ně JH: Část nahrávek bude uložena v kopii přímo u nás, to budou ty, o něž budou mít lidé nejv část v Kalifornii, protože nahrávky jsou opravdu rozsáhlé a my bychom tu neměli odpovídají tak bude potřeba vybudovat poměrně rozsáhlý počítačový systém, aby se tam alespoň malá čás S ukládáním dat máme vůbec veselé historky. V roce 2000 jsme řešili problém, jak do Česka vlastně dostat. Zjistili jsme, že po internetu to nejde, to by trvalo léta. Nejjednodušší nakonec bylo nakoupit disky, doletět do Ameriky, nahrát je tam a dovézt zpátky. Nelítalo s jen kvůli tomu, ale kopírovalo se to během nějaké porady, které jsme mívali. Jednou jsme m kontrole na letišti, protože tašku plnou disků jsme převáželi krátce po 11. září 2001... Komu bude nově zprovozněné centrum zejména sloužit? JH: V Americe se ukázalo, že o přístup k archivu je velký zájem. Zajímá dokumentaristy a f ale cenným zdrojem informací a materiálů také pro pedagogy, historiky, psychology, lékaře, profese. Pro nás je zajímavé, že budeme mít přístup ke všem datům, což je pro další vývoj systémů důležité. Tolik desítek tisíc nahrávek bychom sami nikdy nesebrali. My je budeme d náš jazykový výzkum. Přístupový bod k digitálnímu archivu USC Shoah Foundation bude v nové studovně na ochoze (Lucie Kettnerová)