Zapraszamy do składania propozycji wystąpień dotyczących współczesnej, interdyscyplinarnej metodologii analizy danych jakościowych – tekstowych i wizualnych – oraz wykorzystania nowych technologii, algorytmów i technik z obszaru Humanistyki Cyfrowej, Big/Thick Data, NLP, Text Mining i Data Science (Social Computing) w polu szeroko rozumianej socjologii jakościowej. Humanistyka cyfrowa (Digital Humanities) i Social Data Science Computing to dziedziny nauki z pogranicza informatyki, technologii cyfrowych oraz humanistyki i nauk społecznych. Ich zastosowanie w analizie / socjologii jakościowej to nowy sposób spojrzenia i tworzenia interdyscyplinarnej wiedzy w socjologii i naukach społecznych. To trend analityczny i rozwijający się nowy sposób uprawiania socjologii jakościowej. Do zgłaszania referatów zapraszamy osoby, które mają nie tylko własne przemyślenia, ciekawe projekty, ale i pewne doświadczenie metodologiczne w analizie tradycyjnych (wywiady, biografie, zdjęcia itp.) oraz nowych danych jakościowych (tweety, posty, mema, strony internetowe itp.), użytkowaniu narzędzi z rodziny CAQDAS i pokrewnych, kształtowaniu i projektowaniu nowych metod i strategii analizy danych tekstowych, wizualnych, dźwiękowych czy audiowizualnych, a także pozyskiwaniu i przetwarzaniu danych zastanych (Secondary Data Analysis) czy też danych powszechnie dostępnych w Internecie. Naszym zdaniem interdyscyplinarność, wykorzystanie metod z obszaru Humanistyki Cyfrowej, Przetwarzanie języka naturalnego, Text czy Visual Mining, ale przede wszystkim korzystanie z nowych technologii cyfrowych i programów CAQDAS w socjologii jakościowej wpływa na zmianę sposobu myślenia o analizie, metodologii jakościowych praktyk badawczych oraz rozwija i kształtuje analityczne know-how badacza. Interdyscyplinarność oraz specyfika tych podejść wymaga rygoryzmu metodologicznego w procesie gromadzenia, archiwizacji i przetwarzania danych oraz dokładności i precyzji w procesie ręcznego i automatycznego kodowania, analizy i wizualizacji danych. Zastosowanie narzędzi CAQDAS w praktyce badawczej i analitycznej kształtuje nie tylko ramy interpretacji socjologicznej, ale zmienia optykę i sposób percepcji problemów badawczych. Istotą tego procesu jest „swoista interakcja – między badaczem a komputerem, cyfrowością a myśleniem tradycyjnym, między rozwijającymi się nowymi podejściami, a klasyczną metodologią analizy i prowadzenia badań jakościowych. Referaty zostaną opublikowane w specjalnym numerze Przeglądu Socjologii Jakościowej poświęconym w/w tematyce.
CAQDAS, DH, Big Data i nowe technologie cyfrowe w polu socjologii jakościowej
Grupa tematyczna
Numer: G73
Organizacja: Grzegorz Bryda (UJ), Maciej Brosz (UG)
Pasmo, godzina:
V 17.09, 11:00-12:30
Miejsce: WYDZIAŁ LINGWISTYKI UW, Sala 1.078
Słowa kluczowe: Big/Thick data, CAQDAS, Digital humanitites, digital possibilities, interdyscyplinarność, Social Science Computing, socjologia jakościowa, socjologia przyszłości
Referaty, pasmo V 17.09, 11:00-12:30
Modelowanie tematyczne w socjologii: ilościowa metoda w badaniach jakościowych?
Piotr Cichocki,
współautorzy: Mariusz Baranowski
Biorąc pod uwagę dynamicznie rozwijające się obszary (a) nauk społecznych uwarunkowane technologiami sieciowymi oraz (b) humanistyki cyfrowej (Digital Humanities), warto przeanalizować adekwatność socjologicznych metodologii analizy danych w tych nowych warunkach. Dostępność dużych zbiorów zdigitalizowanych danych stanowi nie tylko wyzwanie dla „klasycznych” metod analizy, które opracowane zostały w innych warunkach i dla innych celów. Jeszcze ważniejsza kwestia dotyczy tego czy podział na metody ilościowe i jakościowe, między którymi istnieje wyraźna linia demarkacyjna, ma sens w obliczu Big Data. W proponowanym referacie, na podstawie modelowania tematycznego (topic modelling), opartego na LDA (Latent Dirichlet allocation), stawiamy tezę, że ilościowe metody (probabilistyczne modele statystyczne) stanowią nie uzupełnienie lub punkt wyjścia do analiz jakościowych (standardowe podejście), lecz ich integralną część (Jacobs, Tschötschel 2019). Teza ta zostanie zilustrowana przykładem wyznaczenia tematów w obrębie zbioru ponad 10 tys. artykułów, opublikowanych w czasopismach indeksowanych w bazie Scopus w latach 2000-2020, na temat modelowania tematycznego. Ten empiryczny case study posłuży także do sformułowania szeregu uwag metateoretycznych na temat „kohezji” metod ilościowych i jakościowych w perspektywie uczenia maszynowego (machine learning) i przetwarzania języka naturalnego (natural language processing, NLP).
Jakościowa analiza tekstu a analiza bazująca na algorytmach uczenia nienadzorowanego: podobieństwa i różnice.
Sławomir Mandes, Agnieszka Karlińska
Wystąpienie ma na celu porównanie tematów wyodrębnianych za pomocą wspomaganej komputerowo jakościowej analizy treści prowadzonej w ramach teorii ugruntowanej z tematami wyodrębnionymi w tym samym zbiorze tekstów za pomocą algorytmów modelowania tematycznego (topic modeling) i na tej podstawie porównanie obu metodologii.
Jakościowa analiza treści oparta jest na „czytaniu z bliska” przez badacza lub badaczkę korpusu tekstów o ograniczonej wielkości w celu identyfikacji kluczowych pojęć, wątków i tematów występujących w dokumentach. Względem tej metodologii formułowany jest zarzut, którego istotą jest wskazywanie na subiektywizm procesu analizy ograniczający w dużym stopniu możliwość powtórzenia badania przez innych badaczy w celu weryfikacji uzyskanych wyników. Techniki analizy tekstu wykorzystujące rozwiązania z zakresu przetwarzania języka naturalnego mają rozwiązywać ten problem, pozwalać na zwiększenie skali badań i gwarantować obiektywizację procesu analizy poprzez eliminację klasyfikacji tekstu przez człowieka. Wiele badań pokazuje, że analiza bazująca na algorytmach uczenia maszynowego nie jest wolna od „uprzedzeń” (bias). Niewiele natomiast prowadzi się badań, które porównywałyby wyniki analiz bazujących na algorytmach uczenia nienadzorowanego, takich jak modelowanie tematyczne, z efektami analizy jakościowej. W naszym wystąpieniu podejmiemy ten wątek i pokażemy podobieństwa i różnice pomiędzy tematami rozpoznanymi w sposób automatyczny i tematami rozpoznanymi przez człowieka.
W pierwszej części wystąpienia krótko omówimy i skontrastujemy metodologiczne założenia leżące u podłoża klasycznej teorii ugruntowanej (Glaser, Strauss 2009) z modelowaniem tematycznym, w szczególności LDA (Blei et al., 2003, 2009). Następnie porównamy tematy wyodrębnione ręcznie przez kodera z wynikami modelowania tematycznego z wykorzystaniem algorytmu LDA. Przedmiotem analizy będzie korpus listów pasterskich i innych dokumentów publikowanych przez Episkopat Polski w latach 1989–2005, liczący w sumie 223 tys. tokenów. Kodowanie przez człowieka będzie przeprowadzone z wykorzystaniem programu Atlas.ti. Modelowanie tematyczne zostanie przeprowadzone z wykorzystaniem bibliotek języka programowania Python. W podsumowaniu przedyskutujemy wady i zalety zastosowania modelowania tematycznego w procesie etnografii ilościowej, związane m.in. z określaniem optymalnej liczby tematów, interpretacją tematu czy oceną jego koherencji. Omówimy sposoby rozwiązywania zidentyfikowanych problemów oraz perspektywy związane z rozwijaniem nowych podejść w obszarze modelowanie tematycznego, wykorzystujących sieci neuronowe i modele języka.
Blei D.M., A.Y. Ng, M.I. Jordan (2003) Latent dirichlet allocation, Journal of Machine Learning Research, 3.
Blei, D.M., J. D. Lafferty. (2009) Topic models w “Text mining”. (ed.) A. N. Srivastava, M. Sahami. Chapman and Hall/CRC.
Glaser B. G., Strauss A. L. (2009) „Odkrywanie teorii ugruntowanej. Strategie badania jakościowego”. Kraków: Nomos.
Lingwistyka korpusowa jako narzędzie analizy treści medialnych. Korzyści z wykorzystania platformy Sketch Engine.
Marek Troszyński
Wszyscy badacze zajmujący się analizą treści medialnych stoją przed tym samym problemem – jak zebrać i poddać analizie rosnący nieprzerwanie strumień komunikatów. Przy badaniu obszernych zbiorów tekstów, m.in. w artykułach prasowych zbieranych na przestrzeni kilku lat warto sięgnąć po ilościowe metody analizy treści. W prezentowanym referacie chcę omówić korzyści z wykorzystania metod lingwistyki korpusowej (corpus linguistics (CL)).
Popularność tego podejścia wzrosła w XXI wieku (Fairclough, 2000; Piper, 2000; Baker, 2006). Mocne strony CL pozwalają na wykorzystanie tego podejścia w analizie treści mediów „Analiza korpusowa pozwala badaczom zidentyfikować mniej lub bardziej obiektywnie rozpowszechnione wzorce naturalnie występującego języka i rzadkie przypadki, z których oba mogą zostać przeoczone w analizie na małą skalę” (Baker, 2004, s. 346). Analiza treści medialnych ukierunkowana jest na odnalezienie znaczeń przypisanych poszczególnym tekstom. Proste narzędzia, m.in. analizy częstości, nie pozwalają na określenie treści komunikatów, dlatego warto stosować również inne wskaźniki, np. kolokacje. Zazwyczaj każda analiza kolokacji musi być poparta analizą poszczególnych wypowiedzi wykonaną przez badacza. Interpretacja jakościowa pozwala na jednoznaczne odniesienie się do znaczeń zawartych w analizowanym tekście.
Oczywistym staje się konieczność wykorzystania programów komputerowych dla tych badań. Przykładem jest platforma Sketch Engine. Jest to narzędzie CL, w którym analizy są wspomagane narzędziami przetwarzania języka naturalnego (NLP). Pozwala to na ilościowe porządkowanie materiału badawczego, jak i oznaczanie znaczeń poszczególnych wypowiedzi lub grup wypowiedzi. Sketch Engine daje możliwość automatycznej identyfikację słów kluczowych lub ekstrakcji terminów kluczowych (dwu lub trójwyrazowych).
Analizy oparte na CL warto uzupełniać jakościowym podejściem, zbudowanym na metodach Krytycznej Analizy Dyskursu (CDA) z wykorzystaniem programów CAQDAS. Przykłady skutecznych i wydajnych kombinacji CDA z CL można znaleźć zwłaszcza w badaniach związanych z analizą dyskursu wokół migracji (Baker i in., 2008). Stosowanie CDA, nawet w bardzo podstawowej formie (ograniczonej do jakościowego oznaczenia tematów poszczególnych artykułów, uwzględniania kontekstu publikacji tekstu) pozwala na wyeliminowanie zarzutów stawianych przez niektórych badaczy wobec CL, a mianowicie: „korpusowe badania nie uwzględniają recepcji, dynamicznego charakteru dyskursu, jego kontekstu czy struktury tekstu” (Bednarek, 2009, s. 22).
W referacie zostaną wykorzystane doświadczenia z projektu badawczego: „Migrants
Analysis of media discourse on migrants in Poland, the United Kingdom, Ukraine, Albania and Czech Republic(MAD)” (Troszyński, El-Ghamari 2022)
Bibliografia:
Baker P (2006) Using corpora in discourse analysis. Continuum, London, New York, NY
Baker P, Gabrielatos C, Khosravinik M et al. (2008) A useful methodological synergy? Combining critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the UK press. Discourse Soc 19:273–306.
Bednarek M (2009) Corpora and discourse: a three-pronged approach to analyzing linguistic data. In: Haugh M et al. (eds) Selected proceedings of the 2008 HCSNet workshop on designing the Australian National Corpus. Cascadilla Proceedings Project, Somerville, MA, pp. 19–24
Fairclough, Norman. 2000. New Labour, New Language? London: Routledge.
Piper A (2000) Some people have credit cards and others have Giro cheques: “individuals” and “people” as lifelong learners in late modernity. Discourse Soc 11:515–42.
Troszyński, Marek, and Magdalena El-Ghamari. 2022. A Great Divide : Polish media discourse on migration, 2015-2018. Humanities and Social Sciences Communications 9.
O subtelnościach w metodach stosowanych w ocenie wydźwięku wypowiedzi pisanych. Porównanie trzech podejść w analizie sentymentu.
Krzysztof Tomanek
Zaprezentowane zostaną trzy, odmienne w swojej logice, metody analizy wypowiedzi zapisanych w formie tekstowej. Opisane zostaną: (1) sposoby stosowania metod, to (2) jak służą one w analizie tekstów oraz (3) wyniki jakich metody te dostarczają. Tak skonstruowana opowieść prezentuje różne definicje i różne zastosowania kryteriów pozwalających na ocenę „efektywnego charakteryzowania” osiąganych wyników. Porównanie tych kryteriów z kolei pozwoli na wskazanie silnych i słabych stron każdego z podejścia (metody). W szczególności metoda oparta, albo na działaniu modelu Machine Learningowego bazującego na sieciach neuronowych, ale też i ta bazująca na ocenie tekstu wykonanej przez człowieka – są czasami lub często trudnymi do wyjaśnienia jeśli chodzi o logikę ich działania. Z kolei metoda oparta na definiowanych implicite regułach pracujących na tekście traci czasem z horyzontu możliwość oceny tego, co w tekście jest wypowiedziane, ale nie wprost. Wystąpienie ma z jednej strony za cel prezentację różnych podejść do analizy tekstów, z drugiej ma na celu sprowokowanie dyskusji dotyczącej transparentności metod, jakie zaprzęgane są do analizy wypowiedzi dostarczanych przez respondentów uczestniczących w badaniach jakościowych.