Automatyczne wyszukiwanie dokumentów w dużych korpusach tekstowych

Wyłożony

Prelegent: Hubert Plisiecki

W przypadku pracy z dużymi, wielotematycznymi korpusami tekstu, wyszukiwanie
konkretnych dokumentów związanych z interesującym badaczy tematem może być
pracochłonne. Żeby usprawnić ten proces proponujemy nową metodę automatycznego
wyszukiwania. Używając modeli tematycznych i informacji statystycznych dotyczących
wyselekcjonowanych dokumentów przeprowadzamy analizę porównawczą czterech nowych
metod ekstrakcji polegających na technice „word embeddings” i jednej klasycznej biorącej pod
uwagę jedynie frekwencje występowania słowa klucz związanego z poszukiwanym tematem
w każdym z dokumentów korpusu. Do przeprowadzenia analizy użyty został korpus
przemówień poselskich sejmu RP, a wyszukiwanym tematem była „demokracja”. Interpretacja
analizy pozwoliła na wyłonienie metody, która znajduje zarówno reprezentatywne,
jak i najbardziej powiązane z wyszukiwanym tematem dokumenty. Ponadto,
w przeciwieństwie do klasycznych metod polegających na zliczaniu ilości występowania słowa
klucza odnoszącego się do interesującego nas tematu w każdym z dokumentów, proponowana
przez nas metoda nie jest ograniczona jedynie do tych dokumentów, w których słowo
się pojawia. Dzięki „word embeddings” możliwe jest zwrócenie uwagi na dokumenty, które
są związane z tematem, mimo że nie sygnalizują tego bezpośrednio, za pomocą synonimów
słowa klucza. Użycie tej metody wymaga wytrenowania reprezentacji numerycznych słów
na podstawie całego używanego korpusu, a następnie uśrednienie reprezentacji
poszczególnych słów w każdym dokumencie tak żeby osiągnąć pojedyncze reprezentacje
dla każdego z nich. Ten proces jest dodatkowo wzbogacony o wagi odnoszące się
do frekwencji występowania danego słowa w dokumencie i w całym korpusie, które
pozwalają na zaakcentowanie najważniejszych słów w każdym dokumencie. Następnie, każdy
dokument z korpusu porównywany jest z reprezentacją numeryczną wyszukiwanego tematu
za pomocą podobieństwa kosinusowego. Proponowana metoda zwraca metrykę sygnalizującą
stopień związania danego dokumentu z tematem w formie zmiennej ciągłej, co pozwala
na użycie jej do obliczeń statystycznych, jak i wizualizacji popularności danego tematu
względem innych meta-danych korpusu. Metoda może być używana we wszystkich
przypadkach, w których ważne jest, żeby szybko przeszukać korpus tekstowy, w celu
wskazania najbardziej związanych z tematem dokumentów.

Automatyczne wyszukiwanie dokumentów w dużych korpusach tekstowych

Referaty w grupie

Instrukcja obsługi zjazdu

Program pdf gotowy do pobrania

TEDx University of Warsaw

Mapy SGGW i UW

Oferta kulturalna

Przyjmowanie grup tematycznych ad hoc