Hoće li sunce izaći sutra?

Laplace, Bayes i strojno učenje danas

Možda nije pitanje zbog kojeg ste se puno brinuli. Napokon, čini se da se to događa svaki dan bez greške.

Ali koja je vjerojatnost da će sunce izaći sutra?

Vjerovali ili ne, ovo je pitanje razmatrao jedan od svevremenskih velikana matematike Pierre-Simon Laplace u svom pionirskom radu 1814, " Essai filozophique sur les probabilités".

U osnovi, Laplaceov tretman ovog pitanja trebao je ilustrirati općenitiji koncept. Nije bio ozbiljan pokušaj procijeniti hoće li sunce, zapravo, izaći.

U svom eseju Laplace opisuje okvir za vjerojatnosno razmišljanje koji danas prepoznajemo kao Bayesov.

Bayesov pristup čini ključni kamen mnogih modernih algoritama strojnog učenja. Ali računska snaga potrebna za korištenje ovih metoda dostupna je tek od druge polovice 20. stoljeća.

(Čini se da zasad najmodernija umjetna inteligencija šuti po pitanju sutrašnjeg izlaska sunca.)

Laplaceove ideje i danas su relevantne, unatoč tome što su razvijene prije više od dva stoljeća. Ovaj će članak pregledati neke od tih ideja i pokazati kako se koriste u modernim aplikacijama, možda predviđenim od Laplaceovih suvremenika.

Pierre-Simon Laplace

Rođen u maloj normandijskoj komuni Beaumont-en-Auge 1749. godine, Pierre-Simon Laplace u početku je označen da postaje teolog.

Međutim, dok je studirao na Sveučilištu u Caenu, otkrio je sjajnu sposobnost za matematiku. Prebacio se u Pariz, gdje je impresionirao velikog matematičara i fizičara Jeana le Ronda d'Alemberta.

U dobi od 24 godine Laplace je izabran za prestižnu Akademiju znanosti.

Laplace je bio zapanjujuće plodan znanstvenik i matematičar. Među njegovim brojnim doprinosima ističu se radovi na vjerojatnosti, kretanju planeta i matematičkoj fizici. Brojao je likove poput Antoinea Lavoisiera, Jean d'Alemberta, Siméona Poissona, pa čak i Napoleona Bonapartea, kao svoje suradnike, savjetnike i studente.

Laplaceov „Essai filozophique sur les probabilités“temeljio se na predavanju koje je održao 1795. Pružao je općeniti pregled ideja sadržanih u njegovom djelu "Théorie analytique des probabilités", objavljenom dvije godine ranije 1812. godine.

U "Essai philosophique" Laplace daje deset principa vjerojatnosti. Prvih nekoliko obuhvaća osnovne definicije i kako izračunati vjerojatnosti povezane s neovisnim i ovisnim događajima.

Osam, devet i deset principa tiču ​​se primjene vjerojatnosti na ono što bismo danas mogli opisati kao analizu troškova i koristi.

Šesta je važna generalizacija istoimenog teorema Thomasa Bayesa iz 1763. godine.

Navodi se da se za određeni događaj vjerojatnost svakog mogućeg uzroka pronalazi množenjem prethodne vjerojatnosti tog uzroka razlomkom.

Ovaj razlomak je vjerojatnost događaja koji proizlazi iz tog određenog uzroka, podijeljena s vjerojatnošću da se događaj dogodi iz bilo kojeg uzroka.

Utjecaj ovog teorema unutar strojnog učenja ne može se precijeniti.

Sedmi princip je onaj koji je izazvao najviše kontroverzi od svog objavljivanja. Međutim, stvarna formulacija je dovoljno bezazlena.

Umjesto toga, Laplaceov je izbor da raspravlja o vjerojatnosti izlaska sunca sljedeći dan kao ilustrativni primjer koji je pak povukao podsmjeh i prigovor tijekom sljedeća dva stoljeća.

Pravilo nasljeđivanja i danas se koristi pod raznim oblicima, a ponekad i u obliku koji je Laplace izvorno opisao.

Zapravo, pravilo nasljeđivanja predstavlja važan rani korak u primjeni Bayesova razmišljanja na sustave za koje imamo vrlo ograničene podatke i malo ili nimalo predznanja. To je polazna točka s kojom se često susreću moderni problemi strojnog učenja.

Laplaceovo pravilo nasljeđivanja

Sedmi princip vjerojatnosti dan u Laplaceovoj "Essai philosophique"je u osnovi izravno.

Navodi se da se vjerojatnost nastanka određenog događaja pronalazi zbrajanjem vjerojatnosti svakog od njegovih potencijalnih uzroka pomnoženom s vjerojatnošću tog uzroka koji je doveo do događaja u pitanju.

Laplace zatim izlaže primjer na temelju crtanja kuglica iz urni. Zasada je dobro. Još ništa sporno.

Međutim, zatim opisuje kako nastaviti s procjenom vjerojatnosti događaja koji se dogodio u situacijama kada imamo ograničeno (ili zapravo nikakvo) prethodno znanje o tome koja bi ta vjerojatnost mogla biti.

"On trouve ainsi qu'un événement étant arrivé de suite un nombre quelconque de fois, la probabilité qu'il awavera encore la fois suivante est égale à ce nombre augmenté de l'unité, divisé par le même nombre augmenté de deux unités."

Što se prevodi na engleski: "Dakle, ako se pronađe događaj koji se dogodio bilo koji broj puta do sada, vjerojatnost da će se ponoviti sljedeći put jednaka je ovom broju povećanom za jedan, podijeljenom s istim brojem uvećanim za dva" .

Ili, u matematičkom zapisu:

Odnosno, s obzirom na s uspjeha iz n pokusa, vjerojatnost uspjeha na sljedećem pokusu je približno (s + 1) / (n + 2).

Da bi dao svoje stajalište, Laplace se ne suzdržava:

“… Par sample, remonter la plus ancienne époque de l'histoire à cinq mille ans, oko 1.826.213 dana, i jedini jedini nivo konstancije u cet intervalle, à chaque revolution de vingtquatre heures, il ya 1.826.214 à parier contre un qu'il se lèvera encore demain ”

Što se prevodi kao: "... na primjer, s obzirom na to da je sunce izlazilo svaki dan u posljednjih 5000 godina - ili 1.826.213 dana - vjerojatnost da će izaći sutra iznosi 1.826.214 / 1.826.215".

Sa 99,9%, to je prilično sigurna oklada. I to postaje samo sigurnije svakog dana kada sunce nastavlja izlaziti.

Ipak, Laplace priznaje da je čak i ta vjerojatnost nerazumno niska za nekoga tko razumije mehanizam izlaska sunca i ne vidi razlog zašto bi trebalo prestati funkcionirati.

Ispostavilo se da je ova kvalifikacija možda jednako važna kao i samo pravilo. Napokon, nagovještava činjenicu da je naše prethodno znanje o sustavu kodirano u pretpostavkama koje donosimo pri dodjeli vjerojatnosti svakom od njegovih potencijalnih ishoda.

To vrijedi za strojno učenje danas, posebno kada pokušavamo učiti iz ograničenih ili nepotpunih podataka o obuci.

No što je obrazloženje Laplaceova pravila nasljeđivanja i kako ono živi u nekim od najpopularnijih algoritama današnjeg strojnog učenja?

Ništa nije nemoguće?

Da bismo bolje razumjeli značaj Laplaceova pravila, moramo razmotriti što znači imati vrlo malo predznanja o sustavu.

Recimo da imate jednu od Laplaceovih urni za koju znate da sadrži barem jednu crvenu kuglu. Ne znate ništa drugo o sadržaju "sustava" urne. Možda sadrži mnogo različitih boja, možda sadrži samo jednu crvenu kuglu.

Izvucite jednu loptu iz urne. Znate da je vjerojatnost da će biti crvena veća od nule, ili manja ili jednaka jedinici.

No, kako ne znate sadrži li urna druge boje, ne možete sigurno reći vjerojatnost crtanja crvene bojejednako je jednom. Jednostavno ne možete isključiti bilo koju drugu mogućnost.

Pa, kako procjenjujete vjerojatnost crtanja crvene kugle iz urne?

Pa, prema Laplaceovom pravilu nasljeđivanja, crtanje kugle iz urne možete modelirati kao Bernoullijev pokus s dva moguća ishoda: "crveni" i "ne-crveni".

Prije nego što smo išta izvukli iz urne, već smo dopustili postojanje dva potencijalna ishoda. Pritom smo učinkovito "pseudo izbrojali" dva zamišljena crtanja iz urne, promatrajući svaki ishod jednom.

To svakom ishodu ("crvenom" i "necrvenom") daje vjerojatnost od 1/2.

Kako se broj izvlačenja iz urne povećava, učinak tih pseudo-brojanja postaje sve manje važan. Ako je prva izvučena kugla crvena, ažurirate vjerojatnost da sljedeća bude crvena na (1 + 1) / (1 + 2) = 2/3.

Ako je sljedeća kugla crvena, vjerojatnost se ažurira na 3/4. Ako nastavite crtati crveno, vjerojatnost postaje sve bliža 1.

U današnjem jeziku, vjerojatnost se odnosi na prostor uzorka. Ovo je matematički skup svih mogućih ishoda za zadani "eksperiment" (postupak koji odabire jedan od ishoda).

Vjerojatnost je formalno aksiomatski temelj stavio Andrey Kolmogorov u 1930-ima. Kolmogorovljevi aksiomi olakšavaju dokazivanje da prostor uzorka mora sadržavati barem jedan element.

Kolmogorov također definira vjerojatnost kao mjeru koja vraća stvarni vrijednost između nule i jedan za sve elemente prostora uzorka.

Prirodno, vjerojatnost je koristan način za modeliranje sustava iz stvarnog svijeta, posebno kada pretpostavite potpuno znanje o sadržaju prostora uzorka.

Ali kada ne razumijemo dotični sustav, ne znamo prostor uzorka - osim toga on mora sadržavati barem jedan element. To je uobičajeno polazište u mnogim kontekstima strojnog učenja. Sadržaj prostora s uzorcima moramo naučiti dok idemo.

Stoga bismo trebali dopustiti da prostor za uzorke sadrži barem jedan dodatni, sveobuhvatni element - ili, ako želite, „nepoznati nepoznati“. Laplaceovo pravilo nasljeđivanja govori nam da "nepoznatom nepoznatom" dodijelimo vjerojatnost 1 / n + 2, nakon n ponovljenih promatranja poznatih događaja.

Iako je u mnogim slučajevima prikladno zanemariti mogućnost nepoznatih nepoznanica, postoje epistemološki temelji koji uvijek dopuštaju postojanje takvih mogućnosti.

Jedan od takvih argumenata poznat je kao Cromwellovo pravilo, koji je skovao pokojni Dennis Lindley. Citirajući Olivera Cromwella iz 17. stoljeća:

"Molim vas, u Kristovoj utrobi mislite da je moguće da ste pogriješili"

Ova prilično dramatična izjava traži od nas da dopustimo udaljenu mogućnost da se dogodi neočekivano. U jeziku Bayesove vjerojatnosti, to iziskuje zahtijevanje da uvijek uzmemo u obzir prethodno ne-nulu.

Jer ako je vaša prethodna vjerojatnost postavljena na nulu, niti jedan dokaz vas nikada neće uvjeriti u suprotno. Napokon, čak i najjači suprotni dokazi i dalje će dati stražnju vjerojatnost nule, ako se pomnoži s nulom.

Prigovori i obrana Laplacea

Možda neće biti iznenađenje kad se sazna da je Laplaceov primjer izlaska sunca privukao mnogo kritika njegovih suvremenika.

Ljudi su se usprotivili uočenoj jednostavnosti - čak i naivnosti - Laplaceovih pretpostavki. Ideja da postoji 1 / 1,826,215 vjerojatnosti da sunce neće izaći sljedeći dan izgledala je apsurdno.

Primamljivo je vjerovati da se, s obzirom na velik broj pokusa, mora dogoditi slučaj koji nije nula. I stoga, promatranje toliko uzastopnih izlaska sunca bez ijednog neuspjeha sigurno znači da je Laplaceova procjena precijenjena?

Na primjer, mogli biste očekivati ​​da biste nakon milijun pokusa promatrali jedan-u-milijun događaja - gotovo zajamčen po definiciji! Kolika je vjerojatnost da se učini drugačije?

Pa, ne biste se začudili kad biste dvaput bacili pošteni novčić bez slijetanja glava. Niti bi to moglo biti razlog za zabrinutost ako ste šest puta izbacili kocku i nikada niste vidjeli brojku šest. To su događaji s vjerojatnosti 1/2, odnosno 1/6, ali to apsolutno ne garantira njihov nastup u prva dva i šest pokusa.

Rezultat koji se Bernoulliju pripisuje još u 17. stoljeću pronalazi granicu kao vjerojatnost 1 / n i broj pokusa nrastu vrlo velike:

Iako ćete u prosjeku nakon n ispitivanja primijetiti barem jednu pojavu događaja s vjerojatnošću 1 / n, ipak postoji veća od 1/3 šanse da nećete.

Isto tako, ako je istinska vjerojatnost da Sunce ne izađe zaista 1 / 1,826,215, onda se možda ne bismo trebali toliko čuditi da takva pojava nikada nije zabilježena u povijesti.

I, vjerojatno, Laplaceova kvalifikacija je previše izdašna.

Istina je da osoba koja tvrdi da razumije mehanizam kojim Sunce izlazi svaki dan, vjerojatnost da to ne učini mora biti puno bliža nuli.

Ipak, da bismo pretpostavili razumijevanje takvog mehanizma, potrebno je da imamo prethodno znanje o sustavu, izvan onoga što smo primijetili. To je zato što se takav mehanizam implicitno pretpostavlja konstantnim - drugim riječima, istinitim za sva vremena.

Ova pretpostavka omogućuje nam, u određenom smislu, "dočarati" neograničen broj opažanja - povrh onih koja smo zapravo promatrali. To je pretpostavka koju je pozvao nitko drugi do Isaac Newton, na početku treće knjige u svojoj poznatoj "Philosophiae Naturalis Principia Mathematica".

Newton iznosi četiri "Pravila rasuđivanja u filozofiji". Četvrto pravilo tvrdi da tvrdnje proizašle iz prethodnih opažanja možemo smatrati "vrlo skoro istinitima", dok buduća promatranja ne budu u suprotnosti.

Takva je pretpostavka bila presudna za znanstvenu revoluciju, unatoč tome što je filozofima poput Davida Humea, koji je slavno zagovarao problem indukcije, bio udarac u zube.

Taj nam epistemološki kompromis omogućuje da se bavimo korisnom znanošću i, pak, izmišljamo tehnologiju. Negdje na liniji, dok vidimo kako se procijenjena vjerojatnost da Sunce ne izlazi smanjuje sve bliže nuli, dopuštamo si da se "zaokružimo" i tvrdimo potpuno znanstvenu istinu.

Ali sve ovo vjerojatno leži izvan okvira točke koju je Laplace prvotno želio istaknuti.

Zapravo je njegov odabir primjera izlaska sunca nesretan. Pravilo nasljeđivanja doista dolazi na svoje kada se primjenjuje na potpuno nepoznate sustave "crne kutije" za koje imamo nula (ili vrlo malo) opažanja.

To je zato što pravilo nasljedstva nudi rani primjer neinformativnog prioriteta.

Kako pretpostaviti što manje

Bayesova vjerojatnost ključni je koncept modernog strojnog učenja. Algoritmi kao što su Naive Bayesova klasifikacija, Maksimizacija očekivanja, Varijacijsko zaključivanje i Markov lanac Monte Carlo među najpopularnijima su u upotrebi danas.

Bayesova vjerojatnost obično se odnosi na tumačenje vjerojatnosti gdje svoje (često subjektivno) uvjerenje ažurirate u svjetlu novih dokaza.

Dva su ključna pojma prethodne i stražnje vjerojatnosti.

Posteriorne vjerojatnosti su one kojima se pripisujemo nakon što ažuriramo svoja uvjerenja pred novim dokazima.

Prethodne vjerojatnosti (ili 'prethodnice') su one za koje smatramo da su istinite prije nego što vidimo nove dokaze.

Znanstvenike podataka zanima kako dodijeliti prethodne vjerojatnosti događajima u odsustvu bilo kakvih prethodnih znanja. Ovo je tipično polazište za mnoge probleme u strojnom učenju i prediktivnoj analitici.

Osobe starije dobi mogu biti informativne u smislu da dolaze s "mišljenjima" o vjerojatnosti različitih događaja. Ta "mišljenja" mogu biti jaka ili slaba i obično se temelje na prošlim zapažanjima ili na bilo koji drugi razumni način. To je neprocjenjivo u situacijama kada želimo brzo osposobiti svoj model strojnog učenja.

Međutim, prethodnici također mogu biti neinformativni. To znači da pretpostavljaju što je moguće manje o odgovarajućim vjerojatnostima događaja. To je korisno u situacijama kada želimo da naš model strojnog učenja uči iz praznog stanja.

Stoga se moramo pitati: kako mjerite koliko je "informativna" prethodna raspodjela vjerojatnosti?

Teorija informacija daje odgovor. Ovo je grana matematike koja se odnosi na to kako se mjere i komuniciraju informacije.

Na informacije se može gledati u smislu sigurnosti ili nedostatka istih.

Napokon, u svakodnevnom smislu, što više informacija imate o nekom događaju, to ste sigurniji u njegov ishod. Manje informacija znači manje sigurnosti. To znači da su teorija informacija i teorija vjerojatnosti neraskidivo povezane.

Informacijska entropija temeljni je pojam u teoriji informacija. Služi kao mjera nesigurnosti svojstvene određenoj raspodjeli vjerojatnosti. Raspodjela vjerojatnosti s velikom entropijom je ona za koju je ishod neizvjesniji.

Možda intuitivno možete zaključiti da jednolika raspodjela vjerojatnosti - raspodjela za koju je svaki događaj jednako vjerojatan - ima najveću moguću entropiju. Na primjer, ako okrenete pošteni i pristrani novac, u koji biste ishod bili najmanje sigurni?

Entropija informacija pruža formalno sredstvo za kvantificiranje ovoga, a ako znate neku računicu, dokaz možete pogledati ovdje.

Dakle, ujednačena raspodjela je, u vrlo stvarnom smislu, najmanje informativna moguća raspodjela. Iz tog razloga donosi očigledan izbor za neinformativnog priorja.

Možda ste primijetili kako Laplaceovo pravilo nasljeđivanja učinkovito znači korištenje uniforme prior? Dodavanjem jednog uspjeha i jednog neuspjeha prije nego što smo uopće primijetili bilo kakve ishode, koristimo jednoliku raspodjelu vjerojatnosti kako bismo predstavili svoje "prethodno" uvjerenje o sustavu.

Tada, kako promatramo sve više ishoda, težina dokaza sve više nadjačava priora.

Studija slučaja: Naivna Bayesova klasifikacija

Danas se Laplaceovo pravilo nasljeđivanja generaliziralo na aditivno zaglađivanje i pseudo brojanje.

To su tehnike koje nam omogućuju da koristimo nula vjerojatnosti za događaje koji nisu uočeni u podacima treninga. Ovo je bitan dio načina na koji algoritmi strojnog učenja mogu generalizirati kada se suočavaju s ulazima koji ranije nisu viđeni.

Na primjer, uzmimo Naive Bayesovu klasifikaciju.

Ovo je jednostavan, ali učinkovit algoritam koji može klasificirati tekstualne i druge prikladno tokenizirane podatke, koristeći Bayesov teorem.

Algoritam je osposobljen na korpusu unaprijed klasificiranih podataka, u kojem se svaki dokument sastoji od skupa riječi ili "značajki". Algoritam započinje procjenom vjerojatnosti svake značajke, s obzirom na određenu klasu.

Koristeći Bayesov teorem (i neke vrlo naivne pretpostavke o neovisnosti značajki), algoritam tada može približiti relativne vjerojatnosti svake klase, s obzirom na značajke uočene u ranije neviđenom dokumentu.

Važan korak u klasifikaciji Naivnog Bayesa je procjena vjerojatnosti promatranja značajke unutar određene klase. To se može učiniti izračunavanjem učestalosti opažanja značajke u svakom od zapisa te klase u podacima o treningu.

Na primjer, riječ "Python" može se pojaviti u 12% svih dokumenata klasificiranih kao "programiranje", u usporedbi s 1% svih dokumenata klasificiranih kao "start-up". Riječ "naučiti" može se pojaviti u 10% programskih dokumenata i 20% svih početnih dokumenata.

Uzmi rečenicu "nauči Python".

Koristeći ove frekvencije, nalazimo da je vjerojatnost da se rečenica klasificira kao "programiranje" jednaka 0,12 × 0,10 = 0,012, a vjerojatnost da se klasificira kao "start-up" je 0,01 × 0,20 = 0,002.

Stoga je "programiranje" vjerojatnije od ove dvije klase.

Ali ovaj pristup zasnovan na frekvenciji nailazi na probleme kad god uzmemo u obzir značajku koja se nikada ne javlja u određenoj klasi. To bi značilo da ima frekvenciju nula.

Naivna Bayesova klasifikacija zahtijeva da množimo vjerojatnosti, ali množenje bilo čega s nulom, naravno, uvijek će dati nulu.

Dakle, što se događa ako prethodno neviđeni dokument sadrži riječ koja nikada nije primijećena u danom razredu u podacima o obuci? Ta će se klasa smatrati nemogućom - bez obzira koliko se često svaka druga riječ u dokumentu pojavljuje u toj klasi.

Aditivno zaglađivanje

Pristup koji se naziva aditivno zaglađivanje nudi rješenje. Umjesto da dopustimo nulte frekvencije, brojniku dodamo malu konstantu. To sprječava nevidljive kombinacije klasa / značajki da skinu klasifikator s koloseka.

Kada je ta konstanta jednaka jedinici, aditivno zaglađivanje isto je kao i primjena Laplaceova pravila nasljeđivanja.

Kao i Naive Bayesova klasifikacija, aditivno zaglađivanje koristi se i u drugim vjerojatnosnim kontekstima strojnog učenja. Primjeri uključuju probleme u modeliranju jezika, neuronske mreže i skrivene Markovljeve modele.

U matematičkom smislu, aditivno zaglađivanje predstavlja upotrebu beta raspodjele kao konjugata prije izvođenja Bayesova zaključivanja s binomnim i geometrijskim raspodjelama.

Beta distribucija je obitelj raspodjele vjerojatnosti definirana u intervalu [0,1]. Potrebna su dva parametra oblika, αi β. Laplaceovo pravilo nasljeđivanja odgovara postavljanju α= 1 i β = 1.

Kao što je gore spomenuto, beta (1,1) distribucija je ona za koju je maksimalizirana entropija informacija. Međutim, postoje alternativni prioriteti za slučajeve u kojima pretpostavka o jednom uspjehu i jednom neuspjehu nije valjana.

Na primjer, Haldaneov prethodnik definiran je kao beta (0,0) distribucija. Primjenjuje se u slučajevima kada čak nismo sigurni možemo li dopustiti binarni ishod. Haldaneov prethodnik stavlja beskonačnu količinu "težine" na nulu i jedan.

Jeffreyev prior, beta (0,5, 0,5) distribucija, još je jedan neinformativni prioritet. Ima korisno svojstvo da ostaje nepromijenjen pri reparametrizaciji. Njegovo je izvođenje izvan dosega ovog članka, ali ako ste zainteresirani, pogledajte ovu temu.

Ostavština ideja

Osobno smatram fascinantnim kako su neke od najranijih ideja u vjerojatnosti i statistici preživjele godine sukoba i još uvijek imaju široku primjenu u modernom strojnom učenju.

Izvanredno je shvatiti da se utjecaj ideja razvijenih prije više od dva stoljeća osjeća i danas. Strojno učenje i znanost podataka poprimili su pravi zamah u posljednjih desetak godina. No temelji na kojima su izgrađeni postavljeni su mnogo prije nego što su prva računala bila i blizu realizacije.

Nije slučajno da se takve ideje graniče s filozofijom znanja. To postaje osobito relevantno kako strojevi postaju sve inteligentniji. U kojem bi se trenutku fokus mogao prebaciti na našu filozofiju svijesti?

Napokon, što bi Laplace i njegovi suvremenici danas napravili od strojnog učenja? Primamljivo je pretpostaviti da bi bili zapanjeni postignutim napretkom.

Ali to bi vjerojatno bilo loše za njihovu predviđanje. Napokon, francuski filozof René Descartes napisao je o mehanicističkoj filozofiji još u 17. stoljeću. Opis hipotetičkog stroja:

“Je désire que vous obzir ... toutes les fonctions que j'ai attributes à cette machine, comme ... la réception de la lumière, des sons, des odeurs, des goûts ... l'empreinte de ces idées dans la mémoire ... et enfin les mouvements extérieurs ... imitent le plus parfaitement possible ceux d'un vrai homme ... uzeti u obzir fonctions ... de la seule disposition de ses organes, ni plus ni moins que font les mouvements d'une horloge ... de celle de ses contrepoids et de ses roues "

Što se prevodi kao: „Želim da uzmete u obzir da sve funkcije koje sam pripisao ovom stroju kao što su ... prijem svjetlosti, zvuka, mirisa i okusa ... otisak tih ideja u memoriji ... i na kraju vanjski pokreti koji oponašajte što savršenije mogućnosti istinskog čovjeka ... Uzmite u obzir da su ove funkcije pod nadzorom organa, ni manje ni više nego što je kretanje sata prema njegovim protuutezima i kotačima. "

Gornji odlomak opisuje hipotetički stroj sposoban reagirati na podražaje i ponašati se kao "pravi čovjek". Objavljeno je u Descartesovom djelu "Traité de l'homme" iz 1664. godine- punih 150 godina prije Laplaceova "Essai philosophique sur les probabilités".

U stvari, u 18. i ranom 19. stoljeću izumitelji poput Pierrea Jaquet-Droza i Henrija Maillardeta izgradili su nevjerojatno sofisticirane automate. Ovi satni androidi mogli bi se "programirati" za pisanje, crtanje i puštanje glazbe.

Dakle, nema sumnje da su Laplace i njegovi suvremenici mogli shvatiti pojam inteligentnog stroja. I sigurno im ne bi zaobišlo pozornost kako bi se napredak postignut na polju vjerojatnosti mogao primijeniti na strojnu inteligenciju.

Odmah na početku "Essai philosophique", Laplace piše o hipotetičkoj superinteligenciji, retrospektivno nazvanoj "Laplaceov demon":

„Jedinstvena inteligencija koja se trenutno ne prelijeva, portretiraju se sile koje nisu u prirodi, a isto tako i u situaciji koja odgovara odgovarajućem sastavu, ako želite da se sastanete bez sumnje, analizirajte ... rien ne serait incertain pour elle, et l'avenir comme le passé, serait présent à ses yeux "

Što se prevodi kao: „Inteligencija koja u određenom trenutku poznaje sve sile kojima je priroda oživljena i odgovarajuću situaciju bića koja je sačinjavaju, i kada bi bila dovoljno velika da te podatke preda na analizu ... ništa ne bi biti nesigurni prema njemu, a budućnost kao prošlost bila bi prisutna u njegovim očima “.

Bi li se Laplaceov demon mogao ostvariti kao jedan od Descartesovih inteligentnih strojeva? Moderna osjetljivost većinom sugerira ne.

Ipak, Laplaceova premisa zamišljena u manjem opsegu uskoro može postati stvarnost, zahvaljujući ne malo njegovom vlastitom pionirskom radu na polju vjerojatnosti.

U međuvremenu, sunce će (vjerojatno) i dalje izlaziti.