O autorze
Jestem profesorem AGH i dodatkowo przez ponad 30 lat byłem profesorem Uniwersytetu Ekonomicznego.

Kieruję utworzonym przeze mnie w 1973 roku Laboratorium Biocybernetyki AGH. Byłem też przez wiele lat kierownikiem Katedry Automatyki i Inżynierii Biomedycznej AGH, którą jednak w 2016 roku przekazałem w ręce jednego z moich dość licznych wychowanków, którzy dziś są już profesorami. Musiałem oddać kierownictwo Katedry ponieważ zaczęła obowiązywać na tym stanowisku kadencyjność. Ale Laboratorium nadal kieruję.

Kilka słów o mojej drodze do tego miejsca, w którym się obecnie znajduję:

Zawsze pasjonowała mnie nauka, więc zostałem naukowcem. A jak stwierdziłem, jaka ta nauka jest fajna, to zacząłem się starać przekonać o tym jak najwięcej ludzi. Przekazuję moją fascynację wiedzą, nauką i techniką moim studentom, w wyniku czego wypromowałem już ponad 300 magistrów i blisko 70 doktorów. Staram się także popularyzować wiedzę na różne sposoby: w książkach, w gazetach, w tygodnikach, w radiu, w telewizji i na odczytach. Zebrało się tego ponad 400 pozycji drukowanych i chyba drugie tyle w formie różnych wystąpień – na żywo i w mediach.

Ponieważ wiedza nieświeża jest równie niesmaczna jak nieświeża kiełbasa – więc staram się zawsze mieć dostęp do wiedzy najświeższej. A ponieważ taką świeżą wiedzę ma się wtedy, gdy się ją samemu wytwarza, więc z zapałem prowadzę badania naukowe. W badaniach tych staram się wykorzystywać moje kwalifikacje inżyniera na potrzeby biologii i medycyny oraz moją wiedzę biologiczną (po doktoracie z automatyki studiowałem na Akademii Medycznej) jako źródło inspiracji dla budowy nowych systemów technicznych. Czasem udaje mi się coś odkryć, a jak już odkryję, to wzorem wszystkich naukowców piszę publikacje. Tak mi to weszło w krew, że napisałem już tych publikacji dosyć dużo, ale jak licznik moich prac w wykazach Biblioteki Głównej AGH przekroczył tysiąc, to przestałem je liczyć.

Opierając się na nie sprawdzonym przekonaniu, że jak ktoś ma osiągnięcia naukowe, to rządzić też potrafi, społeczność mojej uczelni wybrała mnie, żebym pełnił rolę rektora AGH. Potem ten wybór powtórzono jeszcze dwa razy, więc dosyć długo paradowałem w tych królikach udających gronostaje. Potem wybrano mnie na członka Polskiej Akademii Nauk i Polskiej Akademii Umiejętności oraz kilku akademii zagranicznych. W PAN pełniłem funkcję prezesa Krakowskiego Oddziału tej Korporacji.

No a potem zaproszono mnie, żebym pisywał na tym blogu. No to pisuję - najlepiej, jak potrafię!

Polska wyspa w archipelagu sztucznej inteligencji - zbiory przybliżone

Opisując w popularnej formie różne metody sztucznej inteligencji przyjąłem zasadę, że opisuję je jako wyspy. Większość do tej pory opisywanych "wysp" pokazywała metody, których twórcami byli informatycy pracujący w USA - chociaż nie zawsze rodowici Amerykanie. Z tym większą przyjemnością przedstawiam dziś "wyspę", którą odkrył Polak i którą w dużej mierze zagospodarowali Polacy. Ta wyspa to kraina zbiorów przybliżonych, bardziej znanych pod angielską nazwą "rough sets".

Koncepcja zbiorów przybliżonych została zaproponowany w latach 80. XX wieku przez - nieżyjącego już niestety - profesora Zdzisława Pawlaka. Sylwetka profesora Pawlaka, wybitnego informatyka, pracującego w różnych Instytutach Polskiej Akademii Nauk (głównie w IPI PAN), ale współpracującego też z Politechniką Warszawską i Uniwersytetem Warszawskim, opisana została przez jego bliskiego współpracownika i wybitnego kontynuatora jego dzieł, profesora Andrzeja Skowrona w książce, której okładkę prezentuję:
Nazwisko Pawlaka można też znaleźć w każdej encyklopedii, gdzie można się szczegółowo dowiedzieć, nad czym pracował i co osiągnął. Dlatego o samym Twórcy teorii zbiorów przybliżonych pisał nie będę, natomiast spróbuje Państwu przybliżyć Jego dzieło. Posłużę się przy tym Jego bardzo przystępnie napisaną publikacją, do której odsyłam wszystkich zainteresowanych szczegółami.



Na metodę zbiorów przybliżonych można patrzeć od strony matematycznej lub od strony zastosowań. Ja zdecydowanie preferuję to drugie podejście, dlatego postaram się głównie opowiedzieć o tym, co ta metoda oferuje osobom chcącym jej użyć. A można jej użyć głównie do analizy różnych danych w celu szukania nieznanych wcześniej zależności między danymi albo do generowania reguł decyzyjnych, pozwalających na wspomaganie komputerowe pracy osób, które muszą podejmować decyzje, a nie zawsze mają do dyspozycji jasne kryteria, według których można by było taką decyzję podjąć.

Dane, na podstawie których są podejmowane decyzje Pawlak nazwał atrybutami warunkowymi. Mogą one pochodzić z pomiarów, obserwacji, opinii ludzi i innych źródeł. Ważnym spostrzeżeniem Pawlaka było to, że różne obiekty mogą być opisane przez te same dane. Wtedy, chociaż są one obiektywnie różne, to jednak na podstawie dostępnych danych są nierozróżnialne. Na przykład rozważani dalej pacjenci mogą mieć takie same objawy choroby, a jednak są oczywiście odrębnymi osobami, i co więcej - czasem powinni być odmiennie leczeni. A jednak na podstawie danych, które mam do dyspozycji, są nierozróżnialni.

Takie zbiory nierozróżnialnych obiektów nazwano zbiorami elementarnymi. O dowolnym obiekcie można powiedzieć, do którego ze zbiorów elementarnych on należy, ale nie można go w żaden sposób oddzielić od innych obiektów należących do tego samego zbioru elementarnego. W mojej wyobraźni zbiory elementarne utożsamiam ze słupami bazaltowymi z których zbudowane są niektóre części wybrzeża hrabstwa Antrim w Irlandii Północnej. Każdy słup ma swoją indywidualną tożsamość, natomiast poszczególne fragmenty materii budującej taki słup rozróżnić się nie dają. Zbiór wszystkich obiektów Pawlak nazywał Uniwersum.
Jeśli mamy podejmować decyzje to wśród zbiorów elementarnych musimy przeprowadzić podział - na przykład na te, które leżą na suchym lądzie oraz na te, które są pod wodą. Jeśli nie interesujemy się szczegółami linii granicznej między tymi zbiorami - to taka zgrubna klasyfikacja jest zupełnie wystarczająca.
Jeśli jednak chcemy określić dokładne reguły zaliczania zbiorów elementarnych (słupów kamiennych) do znajdujących się na suchym lądzie oraz pogrążonych w morzu - to łatwo odkryjemy, że nie jest to takie oczywiste. Zauważymy, obok tych słupów kamiennych, które bez wątpienia budują korpus wyspy oraz tych, które kryje morska toń - są słupy częściowo suche, a częściowo zanurzone w wodzie. Są one związane z obszarem brzegowym (tak to nazywał Pawlak) i to, jaka decyzja powinna być podjęta w ich przypadku, bynajmniej nie jest oczywiste.
Jeśli więc mamy jakieś Uniwersum zawierające zbiory elementarne (na rysunku poniżej wyobrażone jako elementy puzzla) i w tym Uniwersum mamy jakiś zbiór, którego granice oznaczono na rysunku białą linią, to możemy mówić o trzech zbiorach. Mamy najpierw przybliżenie dolne zbioru, zwane także regionem pozytywnym, które składa się z tych wszystkich zbiorów elementarnych, które z całą pewnością są zawarte w rozważanym zbiorze obiektów. Są to czarne elementy puzzla na rysunku. Ponieważ wyodrębnianie rozważanego zbioru związane jest zwykle z tym, że dla elementów należących do tego zbioru należy podjąć jakąś decyzję - to dla przybliżenia dolnego zbioru decyzję tę można podjąć z całkowitą pewnością.

Następnie mamy tak zwane przybliżenie górne zbioru, które składa się z tych wszystkich zbiorów elementarnych, które chociaż odrobinkę zahaczają o rozważany zbiór. Na rysunku są to wszystkie elementy puzzla czarne i wszystkie szare. Budując regułę decyzyjną odnoszącą się do przybliżenie górnego zbioru trzeba zachować ostrożność, bo może się okazać, że dla niektórych przypadków (dla niektórych zbiorów elementarnych) będzie ona nietrafna.

Zbiór dla którego przybliżenie dolne jest inne niż przybliżenie górne Pawlak nazwał zbiorem przybliżonym i zbudował całą teorię odnoszącą się do takich zbiorów. Różnicę między przybliżeniem górnym i dolnym nazwał obszarem brzegowym (są to same szare puzle na rysunku). Jest to obszar, dla którego nasze dane nie pozwalają na podjęcie decyzji.
Potrzebne są więc nowe dane, lub dalsze badania, lub - zależnie od danego przypadku - włączenie go do regionu pozytywnego lub regionu negatywnego.

Wyjaśniam, że przez region negatywny Pawlak rozumiał te zbiory elementarne, które z całą pewnością nie mają żadnego obiektu wspólnego z rozważanym zbiorem (białe elementy puzzla na rysunku).
Zaletą teorii zbiorów przybliżonych jest to, że można ją stosunkowo łatwo stosować w praktyce. Rozważmy przykład, który zaproponował Pawlak w swojej wyżej linkowanej publikacji, a który skwapliwie powtarzają prawie wszystkie podręczniki. Wyobraźmy sobie, że mamy bazę danych o chorych, ich objawach (nazywanych atrybutami warunkowymi) i decyzjach jakie należy podjąć (nazywanych atrybutami decyzyjnymi).
Interesuje nas zbudowanie reguły decyzyjnej pozwalającej rozpoznawać pacjentów z grypą, jednak zbiór danych, którym dysponujemy, jest zbiorem przybliżonym, bo pacjenci nr 2 i 5 mają te same atrybuty warunkowe (więc należą do tego samego zbioru elementarnego), a przypisane są do nich odmienne atrybuty decyzyjne.

Możemy więc w tym przypadku wyróżnić:

- przybliżenie dolne zbioru (pacjenci 1, 3 i 6);
- przybliżenie górne zbioru (pacjenci 1, 2, 3, 5 i 6);
- obszar brzegowy (pacjenci 2 i 5).

No a potem możemy już doradzać lekarzom. Dla jednych pacjentów komputer może sugerować, że chorują na grypę, innych może klasyfikować jako z pewnością chorych na coś innego, zaś dla pacjentów z obszaru brzegowego można zalecać dodatkowe badania w celu dokładniejsze diagnostyki różnicowej.

Prawda, jakie to proste?

A jednak w tej prostocie jest tak duży potencjał różnych możliwości rozwoju, że od trzydziestu lat naukowcy na całym świecie teorię i praktykę zbiorów przybliżonych rozszerzają, wzbogacają i stosują do różnych celów - i wydaje się, że jeszcze na długo im starczy tej inspiracji.

Na koniec może warto powiedzieć coś o podstawowej różnicy pomiędzy opisanymi tu zbiorami przybliżonymi a zbiorami rozmytymi, które opisałem w jednym wcześniejszych wpisów. Zbiory przybliżone oferują bardzo ogólne podejście, oparte na nierozróżnialności elementów przy dostępnych danych. Jest to coś, co istnieje obiektywnie, trzeba tylko odpowiednią metodą informatyczną uwzględnić to w systemie sztucznej inteligencji. Natomiast zbiory rozmyte oferują podejście numeryczne, oparte na mierze należenia elementu do zbioru, wyrażonej liczbą pomiędzy 0 a 1 - często wyznaczaną arbitralnie. Jedna i druga metoda ma zwolenników i przeciwników, obie mają też zalety i wady. I cieszyć się należy, że są dwie, bo dzięki temu w sztucznym świecie komputerów lepiej możemy odwzorować złożoność i różnorodność świata rzeczywistego!
Trwa ładowanie komentarzy...