Jakościowa analiza tekstu a analiza bazująca na algorytmach uczenia nienadzorowanego: podobieństwa i różnice.

Grupa tematyczna: G73 CAQDAS, DH, Big Data i nowe technologie cyfrowe w polu socjologii jakościowej
Słowa kluczowe: CAQDAS, analiza tematyczna (topic modelling), jakościowa analiza tekstu, text mining

Prelegent: Sławomir Mandes, Agnieszka Karlińska

Wystąpienie ma na celu porównanie tematów wyodrębnianych za pomocą wspomaganej komputerowo jakościowej analizy treści prowadzonej w ramach teorii ugruntowanej z tematami wyodrębnionymi w tym samym zbiorze tekstów za pomocą algorytmów modelowania tematycznego (topic modeling) i na tej podstawie porównanie obu metodologii.
Jakościowa analiza treści oparta jest na „czytaniu z bliska” przez badacza lub badaczkę korpusu tekstów o ograniczonej wielkości w celu identyfikacji kluczowych pojęć, wątków i tematów występujących w dokumentach. Względem tej metodologii formułowany jest zarzut, którego istotą jest wskazywanie na subiektywizm procesu analizy ograniczający w dużym stopniu możliwość powtórzenia badania przez innych badaczy w celu weryfikacji uzyskanych wyników. Techniki analizy tekstu wykorzystujące rozwiązania z zakresu przetwarzania języka naturalnego mają rozwiązywać ten problem, pozwalać na zwiększenie skali badań i gwarantować obiektywizację procesu analizy poprzez eliminację klasyfikacji tekstu przez człowieka. Wiele badań pokazuje, że analiza bazująca na algorytmach uczenia maszynowego nie jest wolna od „uprzedzeń” (bias). Niewiele natomiast prowadzi się badań, które porównywałyby wyniki analiz bazujących na algorytmach uczenia nienadzorowanego, takich jak modelowanie tematyczne, z efektami analizy jakościowej. W naszym wystąpieniu podejmiemy ten wątek i pokażemy podobieństwa i różnice pomiędzy tematami rozpoznanymi w sposób automatyczny i tematami rozpoznanymi przez człowieka.
W pierwszej części wystąpienia krótko omówimy i skontrastujemy metodologiczne założenia leżące u podłoża klasycznej teorii ugruntowanej (Glaser, Strauss 2009) z modelowaniem tematycznym, w szczególności LDA (Blei et al., 2003, 2009). Następnie porównamy tematy wyodrębnione ręcznie przez kodera z wynikami modelowania tematycznego z wykorzystaniem algorytmu LDA. Przedmiotem analizy będzie korpus listów pasterskich i innych dokumentów publikowanych przez Episkopat Polski w latach 1989–2005, liczący w sumie 223 tys. tokenów. Kodowanie przez człowieka będzie przeprowadzone z wykorzystaniem programu Atlas.ti. Modelowanie tematyczne zostanie przeprowadzone z wykorzystaniem bibliotek języka programowania Python. W podsumowaniu przedyskutujemy wady i zalety zastosowania modelowania tematycznego w procesie etnografii ilościowej, związane m.in. z określaniem optymalnej liczby tematów, interpretacją tematu czy oceną jego koherencji. Omówimy sposoby rozwiązywania zidentyfikowanych problemów oraz perspektywy związane z rozwijaniem nowych podejść w obszarze modelowanie tematycznego, wykorzystujących sieci neuronowe i modele języka.

Blei D.M., A.Y. Ng, M.I. Jordan (2003) Latent dirichlet allocation, Journal of Machine Learning Research, 3.
Blei, D.M., J. D. Laﬀerty. (2009) Topic models w “Text mining”. (ed.) A. N. Srivastava, M. Sahami. Chapman and Hall/CRC.
Glaser B. G., Strauss A. L. (2009) „Odkrywanie teorii ugruntowanej. Strategie badania jakościowego”. Kraków: Nomos.

Jakościowa analiza tekstu a analiza bazująca na algorytmach uczenia nienadzorowanego: podobieństwa i różnice.

Referaty w grupie

Instrukcja obsługi zjazdu

Program pdf gotowy do pobrania

TEDx University of Warsaw

Mapy SGGW i UW

Oferta kulturalna

Przyjmowanie grup tematycznych ad hoc