bo słyszałem o przypadku że model miał 100% skuteczności ale okazało się że oceniał tylko i wyłącznie linijke którą przykładano do czerniaka by zmieżyć jego wielkość
Tutaj pomocna jest augmentacja i dobre zrozumienie datasetu, a także późniejsza analiza działania modelu. W dużym skrócie: Zanim zaczniesz trening powinineś dobrze zrozumieć dataset i starać się wyłapać rzeczy na których model może "oszukiwać" (linijki, oznaczenia jednostek klinicznych na zdjęciach, może specyficzny sposób w którym były robione zdjęcia w danym ośrodku) i postarać się zastować augmentacje które zniwelują ten efekt - uczenie na kawałkach obrazów, obracanie, zasłanianie części obrazu, zaszumianie etc. Następnie, kiedy już wytrenujesz model, przeprowadzasz analizę tego, na co zwraca uwagę, tj. jakie części zdjęcia są dla niego istotne przy podejmowaniu decyzji (tak wykryto właśnie case z linijką :) ). Taka próba wytłumaczenia modelu pozwala na złapanie problemu i odpowiednią modyfikacje datasetu (możesz wyrzucić te zdjęcia, spróbować zrobić większą populacje zdjęć bez linijki, bądź, jesli nie zasłania preparatu, po prostu ją wyciąć/zamaskować).
bo słyszałem o przypadku że model miał 100% skuteczności ale okazało się że oceniał tylko i wyłącznie linijke którą przykładano do czerniaka by zmieżyć jego wielkość
Jak unikacie tego by model nie zwracał uwagi na rzeczy nie związane z daną chorobą
Tutaj pomocna jest augmentacja i dobre zrozumienie datasetu, a także późniejsza analiza działania modelu. W dużym skrócie: Zanim zaczniesz trening powinineś dobrze zrozumieć dataset i starać się wyłapać rzeczy na których model może "oszukiwać" (linijki, oznaczenia jednostek klinicznych na zdjęciach, może specyficzny sposób w którym były robione zdjęcia w danym ośrodku) i postarać się zastować augmentacje które zniwelują ten efekt - uczenie na kawałkach obrazów, obracanie, zasłanianie części obrazu, zaszumianie etc. Następnie, kiedy już wytrenujesz model, przeprowadzasz analizę tego, na co zwraca uwagę, tj. jakie części zdjęcia są dla niego istotne przy podejmowaniu decyzji (tak wykryto właśnie case z linijką :) ). Taka próba wytłumaczenia modelu pozwala na złapanie problemu i odpowiednią modyfikacje datasetu (możesz wyrzucić te zdjęcia, spróbować zrobić większą populacje zdjęć bez linijki, bądź, jesli nie zasłania preparatu, po prostu ją wyciąć/zamaskować).