Pomiń polecenia Wstążki
Przeskocz do głównej zawartości

Badania i Technologie

Drukuj

CLARIN, czyli jak wiedzieć jeszcze szybciej

31.01.2014 | Aktualizacja: 09.04.2014 08:18

Dr Maciej Piasecki (fot. Krzysztof Mazur)

CLARIN to wielka infrastruktura badawcza na skalę ogólnoeuropejską. Udostępni ona humanistom wiele narzędzi do pracy z tekstem. Na Politechnice Wrocławskiej trwa budowa narzędzi, które będą częściami składowymi tego systemu.
Do obecności Internetu w naszym życiu dawno przywykliśmy. A z takich narzędzi jak wyszukiwarki korzystamy niemal z zamkniętymi oczami, w ułamku sekundy otrzymując tysiące odpowiedzi na wpisane zapytanie. Nie zdajemy sobie jednak sprawy, jak duża byłaby oszczędność czasu, gdybyśmy w zalewie przypadkowych wyników nie musieli wyszukiwać tego, co ściśle związane z interesującym nas tematem i co rzeczywiście może nam się przydać.
Umożliwi to CLARIN. Na Politechnice Wrocławskiej trwa właśnie budowa narzędzi, które będą częściami składowymi tego systemu. – CLARIN to wielka infrastruktura badawcza na skalę ogólnoeuropejską. Udostępni ona badaczom humanistom wiele narzędzi do pracy z tekstem, archiwami dokumentów oraz nagrań dźwiękowych i audiowizualnych - opowiada dr Maciej Piasecki, krajowy koordynator tego międzynarodowego projektu, który wraz z Grupą Naukową G4.19 Politechniki Wrocławskiej prowadzi badania nad rozwojem i wdrażaniem narzędzi do komputerowego przetwarzania języka polskiego. Już dziś dostępnych jest wiele narzędzi, wyszukiwarek do pracy z tekstem, umożliwiających nie tylko sprawne wyszukiwanie informacji, ale i automatyczne wyłapywanie konkretnych danych oraz analizę struktury językowej tekstu. - Wszystko to powstaje dla różnych języków europejskich – mówi dr Piasecki. – Jednak naukowcy i doktoranci z dziedziny socjologii, ekonomii czy prawa często nie wiedzą, że mogą korzystać z takich narzędzi w pracy naukowej. Chcemy im to ułatwić, tworząc polskojęzyczne narzędzia z prawdziwego zdarzenia. CLARIN kierowany jest więc przede wszystkim do naukowców i studentów realizujących prace badawcze z zakresu nauk humanistycznych i społecznych.
Jak będzie działał CLARIN?
Wyobraźmy sobie doktoranta, który jest historykiem i pisze pracę naukową na temat gospodarki basenu Morza Śródziemnego w XV wieku. Załóżmy, że wszystkie archiwa są zeskanowane. Student może je przeszukiwać i analizować. Ale interesuje go tylko wąski wycinek, np. transakcje dotyczące określonego produktu w konkretnym przedziale czasu. Dziś model jest taki: student jeździ po archiwach lub przeszukuje skany i pliki dostępne w Internecie. Tak czy inaczej musi sam, „ręcznie”, przejrzeć wszystkie dane, by znaleźć te, które będą mu potrzebne. 

Przy pomocy CLARIN-u może uruchomić automatyczne procedury. Poprzez komputer jednego z centrów sieci CLARIN system odnajdzie wszystkie miejsca (także w archiwach innych centrów), w których znajdują się poszukiwane przez badacza informacje o tym konkretnym produkcie pływającym na Morzu Śródziemnym w XV w. - Szybkość pracy jest nieporównywalna z „ręcznym” przekopywaniem się nawet przez zdygitalizowane archiwa – tłumaczy dr Piasecki. Ponadto CLARIN umożliwi analizę statystyczną danych naukowych wydobywanych z dokumentów tekstowych i zapisów mowy. To otwiera nowe możliwości badawcze.
CLARIN ERIC to konsorcjum państw 

Kraje członkowskie wniosły kapitał, a ich przedstawiciele nim zarządzają. Polska jest członkiem założycielem konsorcjum i przeznaczyła na jego budowę 16,5 mln złotych. Pozostali członkowie to: Austria, Bułgaria, Czechy, Dania, Estonia, Holandia i Niemcy oraz Unia Języka Niderlandzkiego (organizacja międzynarodowa). Ostatnio przystąpiła także Norwegia jako obserwator projektu, zaś w kilku kolejnych krajach prace nad przystąpieniem do CLARIN ERIC są już daleko posunięte. 

W krajach członkowskich powstały narodowe konsorcja, w skład których wchodzą uczelnie, biblioteki, publiczne archiwa i inne instytucje badawcze zapewniające dostęp do cyfrowych zbiorów danych językowych oraz narzędzia do ich analizy. Polskie konsorcjum CLARIN-PL (www.clarin-pl.eu) współtworzy sześciu partnerów: uczelnie oraz instytuty PAN. Koordynacją ich działań zajmuje się Politechnika Wrocławska. Tutaj powstaje też jedyne polskie Centrum Technologii Językowych CLARIN. Koordynatorem krajowym i polskim przedstawicielem w radzie zarządzającej całego konsorcjum jest dr Maciej Piasecki z grupy G4.19 Politechniki. Prace nad CLARIN-em są bardzo zaawansowane. W większości krajów tworzących system zasoby (głównie archiwa i słowniki) są już gotowe.
- Dla języka polskiego wiele narzędzi musimy budować od podstaw – mówi dr Piasecki. - Ale sporo już mamy, np. słowniki. Największy publicznie dostępny słownik języka polskiego o nazwie Słowosieć (www.plwordnet.pwr.wroc.pl) powstał właśnie na Politechnice Wrocławskiej dzięki wieloletniej pracy lingwistycznego zespołu naukowego. Przykładem polskiego narzędzia językowego może być program Liner2 do rozpoznawania nazw własnych, który z 95-procentową dokładnością wyróżnia w tekście nazwy własne i klasyfikuje je, np. jako organizacje, miasta czy kraje. Wybrane narzędzia językowe można testować na stronie www.clarin-pl.eu/demo/. Podstawowym założeniem projektu jest zapewnienie użytkownikom dostępu do całości usług CLARIN za pomocą jednej rejestracji. A ta wkrótce zostanie uruchomiona wraz z prototypem centrum CLARIN-PL – zapowiadają jej twórcy.
Katarzyna Górowicz-Maćkiewicz 

- - - - - - - - - - - - - - - - - - - - - - - - - - - -- - - - -

Co będzie można zrobić za pomocą narzędzi CLARIN: m.in. ustalać autorstwo tekstów anonimowych; określać profil psychologiczny autora tekstu; analizować teksty polityczne i reklamowe; badać wzajemne powiązania w biznesie, polityce i nauce. Więcej o zastosowaniach narzędzi CLARIN tutaj
Akademicką Grupę Naukową G4.19 tworzą naukowcy, doktoranci i studenci zainteresowani lingwistyką, lingwistyką informatyczną oraz inżynierią języka naturalnego. Zespół funkcjonuje przede wszystkim w ramach Zakładu Sztucznej Inteligencji Instytutu Informatyki Politechniki Wrocławskiej, ale członkami grupy są również naukowcy z Ottawy, Warszawy czy Gdańska. Grupa prowadzi badania naukowe w dziedzinie lingwistyki informatycznej i inżynierii języka naturalnego, zajmuje się rozwojem i wdrażaniem technologii językowej w ramach systemów informatycznych przetwarzających język polski i angielski.
Więcej o G4.19 na stronie