Po co liczyć słowa Sienkiewicza, czyli o stylometrii. Marta Lotka, Jan Rybicki

Поділитися
Вставка
  • Опубліковано 17 гру 2024

КОМЕНТАРІ • 15

  • @GromKuba
    @GromKuba 3 дні тому +3

    O, w końcu coś o stylometrii. To ciekawy temat a mało znany.

  • @nowymail
    @nowymail 3 дні тому +3

    Z miniaturki pomyślałem, że to Bajtlik. Równie sympatyczny.
    edycja: Nawet nie wiem, kiedy mnie pochłonął omawiany temat. Niesamowicie ciekawe zagadnienia.

  • @tomekm1408
    @tomekm1408 22 години тому

    Chciałoby się powiedzieć:
    Ale urwał! Ale to było dobre!
    Pani prowadząca niczym kotka, nieśmiało muskająca taflę basenowej, stylometrycznej wody i pan profesor, dokazujący jak młoda wydra w tymże basenie.
    Dzięki!

  • @piotr-kedziora
    @piotr-kedziora День тому

    Temat bardzo ciekawy. Pisałem o stylometrii pracę magisterką kilka lat temu. Szkoda, że nie udało się poruszyć tematu generatywnej sztucznej inteligencji w kontekście wyzwań współczesnej stylometrii.

  • @Maria-g6l5i
    @Maria-g6l5i 2 дні тому

    Bardzo dziękuję za ten niesamowity film! Mam szybkie pytanie: Mam portfel SafePal z USDT i mam frazę odzyskiwania. (alarm fetch churn bridge exercise tape speak race clerk couch crater letter). Jak powinienem postąpić, aby przelać je na Binance?

    • @chlodnia
      @chlodnia 2 дні тому

      Juz Ci przelalem

  • @magatamass
    @magatamass 3 дні тому +1

    Temat ciekawy, ale niestety przegadany. Gdybyście dali jakieś ciekawe wizualizacje naocznie pokazujące o jakich statystykach mowa, efekt byłby zupełnie inny. Pomyślcie o warstwie praktycznej i wizualizacyjnej. Slajdy, dashboardy albo infografiki. Może też przykłady prac, pokazać kawałek kodu i krótko omówić działanie. Jakie tam algorytmy są stosowane. W sumie to nic się nie dowiedziałem.

  • @PiotrBershtajn
    @PiotrBershtajn 3 дні тому

    👍.

  • @creation123
    @creation123 3 дні тому

    🙂

  • @GromKuba
    @GromKuba 3 дні тому

    Mam wrażenie, że w rozmowie bardzo się prześlizgnięto po ogólnych zastosowaniach i wnioskach i trochę mało wybrzmiało to jak bardzo nieznaczące są te elementy tekstu po jakich programy poznają cechy charakterystyczne dla autora. Gdy pogrupujemy najczęstsze wyrazy w tekstach to okaże się, że najczęściej powtarzają się wyrazy tworzące struktury gramatyczne i łączniki a jakiś wyraz konkretny, po którym trudno jeszcze zgadnąć, czy policzono statystykę powieści czy poradnika rąbania drewna pojawia się dopiero na nastym miejscu. Wyraz charakterystyczny dla tematyki tekstu pojawia się na 20-30 miejscu. Programy liczą więc głównie statystykę względnych częstotliwości wyrazów, które nie mówią nic o tym jaki jest temat. Podpis stylu autorskiego to więc sekwencja względnych ilości "Na 100 Się przypada 92 I, 85 Na, 75, W, 60 Nie, 55 Że i 40 Do" itd. zależnie od tego jak dużo tych wyrazów się zbada. I wtedy Sienkiewicz różni się od Prusa tym, że u niego "na" zdarza się częściej niż "do" a nie tym czy używali stylizacji na język średniowieczny czy współczesny.
    W przykładowym tekście, który stanowi cała nowela Prusa "Antek" 15 najczęstszych słów to po kolei: i, się, na, w, a, z, nie, do, to, że, za, jak, co, ale, mu . Wszystkich słów w noweli jest 7808 a te wymienione stanowią 22% całego tekstu. Słowo pozwalające poznać jaki to tekst pojawia się na 17 miejscu, jest to imię Antek, którego autor użył 46 razy. (Liczone narzędziem On-line Calculla).
    W większości tekstów w języku polskim te 10 najczęstszych wyrazów wygląda bardzo podobnie. W podobnej długości tekście Sienkiewicza, (trzy pierwsze rozdziały noweli "Hania") najczęstsze wyrazy to "I, się, w, nie, na, z, do, jak, że, do". W podobnej długości tekście z pozbieranych moich artykułów popularnonaukowych najczęstsze wyrazy to "w, się, i, na, z, do, że, nie, to, po". W zasadzie u większości pisarzy pierwszych 10-15 wyrazów to stale ta sama grupa tylko w trochę innej kolejności.
    Można domyśleć się przyczyn tego, że takie wyrazy zawierają coś charakterystycznego. Jeden pisarz lubi opisy zawierające wymienianie cech z użyciem łącznika "i", drugi stara się unikać częstych powtórzeń i w długich opisach, po użyciu już raz w jednym zdaniu "i" drugi raz używa "oraz" a trzeci raz "ponadto"; kolejny w takiej sytuacji oddziela przymiotniki przecinkami bez użycia łączników. Jeszcze inni pisarze rzadko tworzą długie opisy i większość ich treści to dialogi, stąd mniejsza częstość pewnych form. Ale przy dialogach mogą być didiaskalia lub nie i wtedy u jednego na liście częstych wyrazów pojawia się "rzekł" a u innego wcale. Jedni lubią wtrącenia w nawiasach, inni w cudzysłowie i stylometria licząca znaki pisarskie wykryje różnice. Wreszcie na styl, którym się pisze, wpływa styl tego, co się czyta i słucha, stąd sygnał charakterystyczny dla epoki.

    • @geo-polityko-historia3561
      @geo-polityko-historia3561 2 дні тому

      Mi brakowało informacji o tym czy stylometria operuje tylko na wyliczeniach występowania poszczególnych słów. No może było trochę o tym, że bierze się też pod uwagę kategorie słów. Ale czy większe frazy? Szyki zdań? Formę narracji? Typ postaci i fabuł? Na chłopski rozum "styl" to pojęcie szersze niż dobór wyrazów. Czy takie coś jak humor można wykryć i zmierzyć stylometrią? Czy stylometria dopuszcza jako dane wejściowe coś innego niż czysty badany tekst? Może to rzeczy na drugą rozmowę.

    • @GromKuba
      @GromKuba 2 дні тому +1

      @@geo-polityko-historia3561 Nazwa jest trochę nieszczęśliwa, bo faktycznie nie bada się tu stylu tylko statystykę. Były publikacje, w których pokazano, że jeśli tekst z usuniętymi spacjami podzielić na zbitki trzyliterowe, to też można po ich statystyce ustalać autorstwo. To trochę jak dziedzina "fitosocjologia" która wcale nie bada socjologii.
      Badaniami stylu, języka, doboru słów itd. zajmuje się Stylistyka, Językoznawstwo i Lingwistyka. Ale te dziedziny bardziej badają słowa decydujące o sensie, ich złożenia i kontekst i to jak rozumiany jest przekaz.

  • @thevoiceofschizophrenia7092
    @thevoiceofschizophrenia7092 3 дні тому

    Kto stworzyl alafabety ??och gdyby wszystkie literki cyferki symbole znaki malowidla dzwieki mogly kazde z osobna za siebie przemawiac kto jest autorem wszystich zywych mysli mysli w ciaglym ruchu ..o czym tam gadajo?? o paradiowaniu a kto tam paradiowac chce przy pomocy slow ??jesli jakis pisarz napisze emocjonalizujacy wierszyk to czy mam mu powiedziec ze kazdy potrafi uzywac ozdobnych literek i afiszowych slow ale kto potrafi poczuc kazde jedno slowo zywe ??a kto poczuje autora wszystich alfabetow ??O czym tam jeszcze gadajo ?? o jakims Mr.Szekspirze rzekomo teskni za Hamletem ...to jak tam czy juz poznaliscie autora i tworce aparatu mowy ??a kto jest autorem alfabetow ale autora Bibli zowiecie Bogiem ??Czy ciala sie tylko nosi i nosi aby literki cyferki symbole i slowa mogly przeskakiwac z ciala do ciala czym jest ta mowa nieskonczona a czym sa wasze ciala ??

  • @gonzogorf7019
    @gonzogorf7019 3 дні тому +1

    Humanista cyfrowy?
    Znam jednego socjologa, niby humanista, ale tak naprawde analityk słupkami myślacy ;)

  • @panikrystyna1
    @panikrystyna1 3 дні тому

    Nie.