Maszyna Boltzmanna

Graficzna reprezentacja przykładowej maszyny Boltzmanna. — Maszyna Boltzmanna bez ograniczeń: ${\text{v}}_{1},{\text{v}}_{2},{\text{v}}_{3},{\text{v}}_{4}$ - cztery neurony warstwy widocznej, ${\text{h}}_{1},{\text{h}}_{2},{\text{h}}_{3}$ - trzy neurony warstwy ukrytej; linie łączą każdy neuron z pozostałymi, co oznacza, że oddziaływania występują między wszystkimi neuronami sieci; brak tu jakichkolwiek ograniczeń

Maszyna Boltzmanna (znana także jako model Sherringtona–Kirkpatricka z polem zewnętrznym lub stochastyczny model Isinga), nazwana na cześć Ludwiga Boltzmanna, to model sztucznej sieci neuronowej. Dynamika tych sieci neuronowych oparta jest o podobieństwo do dynamiki procesów stochastycznych. Wyróżnia się maszyny Boltzmanna bez ograniczeń, gdzie każdy neuron sieci łączy się z wszystkimi innymi neuronami tej sieci oraz maszyny Boltzmanna z ograniczeniami. Dopiero te drugie okazały się przydatne w praktycznych problemach uczenia maszynowego oraz wnioskowania, gdy przy odpowiednim ograniczeniu połączeń uczenie zaczęła być wystarczająco efektywne, aby rozwiązywać praktyczne problemy.

Nazwa tych sieci neuronowych pochodzi od rozkładu Boltzmanna znanego z mechaniki statystycznej. Zostały spopularyzowane przez Geoffreya Hintona, Terry’ego Sejnowskiego oraz Yanna LeCuna w środowiskach kognitywistycznych, zwłaszcza w uczeniu maszynowym.

Struktura

Neurony maszyny Boltzmanna przyjmują tylko dwa stany - $0$ lub $1$ , wagi oddziaływań neuronów mają charakter stochastyczny (tj. są obliczane przy założeniu, iż neurony podlegają procesowi stochastycznemu o zadanym rozkładzie prawdopodobieństwa); całkowita „energia” $E$ sieci zdefiniowana jest wzorem (identycznie jak w sieciach Hopfielda i modelach Isinga)

E=-\left(\sum _{i<j}^{N}w_{ij}\,s_{i}\,s_{j}+\sum _{i}^{N}\theta _{i}\,s_{i}\right)

gdzie:

$w_{ij}$ - waga oddziaływania neuronów $i$ na neuron $j$
$s_{i}$ - stan $i$ -tego neuronu, $s_{i}\in \{0,1\}$
$\theta _{i}$ - bias przypisany do $i$ -tego neuronu ( $-\theta _{i}$ to próg aktywacji $i$ -tego neuronu)

przy czym często zakłada się, że wagi $w_{ij}$ tworzą macierz symetryczną z zerami na przekątnej, tj. $w_{ij}=w_{ji}$ oraz $w_{ii}=0,i,j=1,2,\dots N$ .

Prawdopodobieństwo wejścia neuronu w stan "włączony"

Zmiana $\Delta E_{i}$ globalnej energii wynikająca z tego, że pojedynczy neuron $i$ przejdzie ze stanu 0 (wyłączony) do stanu 1 (włączony)

\Delta E_{i}=E_{\text{i=off}}-E_{\text{i=on}}

dana jest wzorem (przy założeniu symetrycznej macierzy wag):

\Delta E_{i}=\sum _{j>i}w_{ij},s_{j}+\sum _{j<i}w_{ji},s_{j}+\theta _{i}

Z założenia, że neurony tworzą zespół statystyczny podlegający rozkładowi Boltzmanna wynika, że energia stanu jest proporcjonalna do ujemnego logarytmu prawdopodobieństwa zajęcia tego stanu przez układ; stąd otrzymujemy:

\Delta E_{i}=-k_{B}T\ln(p_{\text{i=off}})-(-k_{B}T\ln(p_{\text{i=on}}))

gdzie $k_{B}$ jest stałą Boltzmanna.

(Stała ta jest "wchłaniana" w obliczeniach przez zakładaną wartość temperatury $T$ sztucznej sieci neuronowej, przy czym $T$ nazywa się temperaturą, choć nie ma to bezpośredniego odniesienia do temperatury prawdziwych układów fizycznych).

Prawdopodobieństwa, iż neuron jest „włączony” lub „wyłączony”, sumują się do $1$ , $p_{\text{i=off}}+p_{\text{i=on}}=1$ ; stąd mamy:

-{\frac {\Delta E_{i}}{k_{B}T}}=-\ln(p_{i={\text{on}}})+\ln(p_{i={\text{off}}})=\ln {\Big (}{\frac {1-p_{i={\text{on}}}}{p_{i={\text{on}}}}}{\Big )}=\ln(p_{i={\text{on}}}^{-1}-1)

Przekształcając powyższy wzór otrzyma się że prawdopodobieństwo, iż $i$ -ty neuron jest w stanie „włączonym”:

p_{i={\text{on}}}={\frac {1}{1+\exp {\Big (}-{\frac {\Delta E_{i}}{k_{B}T}}{\Big )}}}

Prawdopodobieństwo to zależy więc od zależy od energii $\Delta E_{i}$ . Relacja ta jest źródłem funkcji logistycznej występującej w wyrażeniach prawdopodobieństwa w wariantach maszyny Boltzmanna.

Stan równowagi

Sieć zmienia swój stan poprzez wielokrotne losowe wybieranie neuronów i obliczanie jego stanu. Po wystarczająco długim działaniu w danej temperaturze, prawdopodobieństwo globalnego stanu sieci zależy wyłącznie od energii tego stanu globalnego, zgodnie z rozkładem Boltzmanna, a nie od stanu początkowego, od którego rozpoczęto proces. Oznacza to, że logarytmy prawdopodobieństw stanów globalnych $\Delta E_{i}$ stają się liniowe względem ich energii. Ta zależność jest prawdziwa, gdy maszyna znajduje się w stanie "równowagi termicznej", co oznacza, że rozkład prawdopodobieństwa stanów globalnych ustabilizował się.

Proces obliczeniowy zaczyna się zakładając wysoką temperaturę $T$ sieci, po czym temperaturę obniża się stopniowo, aż sieć osiągnie równowagę termiczną przy niższej temperaturze. Może wtedy zbiegać do rozkładu, w którym poziom energii oscyluje wokół minimum globalnego. Proces ten nazywa się wyżarzaniem.

Aby wytrenować sieć w taki sposób, by miała szansę zbiegać do stanu globalnego zgodnie z zewnętrznym rozkładem nad tymi stanami, wagi muszą być ustawione tak, aby stany globalne o najwyższych prawdopodobieństwach otrzymywały najniższe energie. Odbywa się to poprzez proces uczenia.

Uczenie

Neurony w maszynie Boltzmanna dzielą się na neurony „widoczne”, V, oraz neurony „ukryte”, H. Neurony widoczne to te, które otrzymują informacje ze „środowiska”, tj. zbiór treningowy to zbiór wektorów binarnych nad zestawem V. Rozkład nad zbiorem treningowym oznaczamy jako $P^{+}(V)$ .

Rozkład nad globalnymi stanami zbiega się, gdy maszyna Boltzmanna osiąga równowagę termiczną. Oznaczamy ten rozkład, po zeskalowaniu go po neuronach ukrytych, jako $P^{-}(V)$ .

Naszym celem jest przybliżenie „rzeczywistego” rozkładu $P^{+}(V)$ za pomocą $P^{-}(V)$ wytwarzanego przez maszynę. Podobieństwo tych dwóch rozkładów mierzone jest za pomocą dywergencji Kullbacka–Leiblera, $G$

G=\sum _{v}{P^{+}(v)\ln \left({\frac {P^{+}(v)}{P^{-}(v)}}\right)}

gdzie suma przebiega po wszystkich możliwych stanach $V$ . $G$ jest funkcją wag, ponieważ one determinują energię stanu, a energia determinuje $P^{-}(v)$ , zgodnie z rozkładem Boltzmanna. Algorytm optymalizacji gradientowej względem $G$ zmienia daną wagę, $w_{ij}$ , przez odjęcie pochodnej cząstkowej $G$ względem tej wagi. Uczenie maszyny Boltzmanna przebiega w dwóch naprzemiennych fazach:

a). faza „pozytywna”, w której stany neuronów widocznych są ustalone na konkretny binarny wektor stanu pobrany ze zbioru treningowego (zgodnie z $P^{+}$ ),

b). faza „negatywna”, w której sieć działa swobodnie, tj. tylko neurony wejściowe mają stan określony przez dane zewnętrzne, natomiast neurony wyjściowe mogą się swobodnie zmieniać.

Gradient względem danej wagi, $w_{ij}$ , dany jest równaniem

{\frac {\partial {G}}{\partial {w_{ij}}}}=-{\frac {1}{R}}[p_{ij}^{+}-p_{ij}^{-}]

gdzie:

$p_{ij}^{+}$ - prawdopodobieństwo, że neurony $i$ oraz $j$ są jednocześnie włączone, gdy maszyna jest w stanie równowagi w fazie pozytywnej,
$p_{ij}^{-}$ - prawdopodobieństwo, że neurony $i$ oraz $j$ są jednocześnie włączone, gdy maszyna jest w stanie równowagi w fazie negatywnej,
$R$ - współczynnik uczenia.

Ten wynik wynika z faktu, że w równowadze termicznej prawdopodobieństwo $P^{-}(s)$ dowolnego stanu globalnego $s$ podczas swobodnego działania sieci jest dane przez rozkład Boltzmanna.

Powyższa reguła uczenia się sieci ma odpowiednik w biologicznej sieci neuronowej: jedyna informacja potrzebna do zmiany wag pochodzi z „lokalnej” informacji, tzn. że połączenie ("synapsa") nie potrzebuje informacji o niczym innym poza dwoma neuronami, które łączy. Odpowiednika takiego nie mają inne metody trenowania sieci neuronowych, jak np. backpropagation.

Uczenie maszyny Boltzmanna polega na minimalizowaniu dywergencji Kullbacka-Leiblera.

Uczenie biasów przebiega podobnie, ale używa tylko aktywności pojedynczego neuronu:

{\frac {\partial {G}}{\partial {\theta _{i}}}}=-{\frac {1}{R}}[p_{i}^{+}-p_{i}^{-}]

Zobacz też

model Isinga

sieć Hopfielda

Bibliografia

Ryszard Tadeusiewicz, Sieci Neuronowe, Akademicka Oficyna Wydawnicza Warszawa 1991, dostępny online - plik pdf
Ryszard Tadeusiewicz, Maciej Szaleniec, Leksykon sieci neuronowych, Wydanie I Wrocław 2015, hasło: Probabilistyczna sieć neuronowa, str. 74 oraz hasła z tym hasłem powiązane linkami, dostęp online: file:///C:/Users/J/Downloads/Leksykon_sieci_neuronowych.pdf

Dalsza literatura

Kothari P. (2020), Koronawirus: Czy sztuczna inteligencja może coś zmienić?

Linki zewnętrzne