Naglašeni znanstvenik za podatke? Svladajte ove osnove.

Znanost podataka uzbudljivo je, brzo se pokreće područje u koje se treba uključiti. Ne nedostaje potražnje za nadarenim, analitički nastrojenim pojedincima. Tvrtke svih veličina angažiraju znanstvenike za podatke, a njihova uloga pruža stvarnu vrijednost u širokom spektru industrija i aplikacija.

Često prvi susreti ljudi s tim terenom dolaze kroz čitanje znanstveno-fantastičnih naslova generiranih od strane glavnih istraživačkih organizacija. Nedavni napredak podigao je perspektivu strojnog učenja koji transformira svijet kakav poznajemo unutar generacije.

Međutim, izvan akademske zajednice i istraživanja, znanost o podacima mnogo je više od glavnih tema poput dubokog učenja i NLP-a.

Većina komercijalne vrijednosti znanstvenika podataka proizlazi iz pružanja jasnoće i uvida koje ogromne količine podataka mogu donijeti. Uloga može obuhvatiti sve, od inženjeringa podataka, analize podataka i izvješćivanja - uz možda neko strojno učenje bačeno u dobru mjeru.

To je posebno slučaj u startup tvrtki. Potrebe podataka za tvrtkama u ranoj i srednjoj fazi obično su daleko od područja neuronskih mreža i računalnog vida. (Osim ako to naravno nisu osnovne značajke njihovog proizvoda / usluge).

Umjesto toga, trebaju im točnu analizu, pouzdane procese i sposobnost brzog skaliranja.

Stoga su vještine potrebne za mnoge oglašavane uloge u znanosti o podacima široke i raznolike. Kao i svaka potraga u životu, velik dio vrijednosti dolazi od svladavanja osnova. Primjenjuje se legendarno pravilo 80:20 - približno 80% vrijednosti dolazi od 20% skupa vještina.

Evo pregleda nekih temeljnih vještina koje bi svaki ambiciozni znanstvenik podataka trebao svladati.

Počnite sa statistikom

Glavni atribut koji znanstvenik podataka donosi njihovoj tvrtki je sposobnost odabiranja uvida iz složenosti. Ključno za postizanje ovoga je razumijevanje načina otkrivanja značenja iz bučnih podataka.

Statistička analiza je stoga važna vještina za savladavanje. Statistika vam omogućuje:

  • Opišite podatke kako biste pružili detaljnu sliku dionicima
  • Usporedite podatke i testirajte hipoteze kako biste informirali poslovne odluke
  • Utvrdite trendove i odnose koji pružaju stvarnu prediktivnu vrijednost

Statistika pruža moćan set alata za razumijevanje komercijalnih i operativnih podataka.

Ali budite oprezni! Jedna stvar koja je gora od ograničenih uvida su obmanjujući uvidi. Zbog toga je vitalno razumjeti osnove statističke analize.

Srećom, postoji nekoliko vodećih načela kojih se možete držati.

Procijenite svoje pretpostavke

Vrlo je važno biti svjestan pretpostavki o svojim podacima.

Uvijek budite kritični prema provenijenciji i skeptični prema rezultatima. Može li postojati 'nezanimljivo' objašnjenje za bilo koji uočeni trend u vašim podacima? Koliko valja vaš odabrani test statistike ili metodologija? Ispunjavaju li vaši podaci sve temeljne pretpostavke?

Znanje koji su nalazi "zanimljivi" i vrijedni izvještavanja također ovisi o vašim pretpostavkama. Osnovni slučaj je prosuđivanje je li prikladnije izvijestiti srednju vrijednost ili medijan skupa podataka.

Često je važnije nego znati koji pristup primijeniti, znati koji ne . Obično postoji nekoliko načina za analizu određenog skupa podataka, ali svakako izbjegavajte uobičajene zamke.

Na primjer, za više usporedbi uvijek treba ispraviti. Ni u kojem slučaju ne biste trebali tražiti potvrdu hipoteze koristeći iste podatke korištene za njezino generiranje! Iznenadio bi se kako se to lako radi.

Distribucija> Lokacija

Kad god govorim o uvodnim statistikama, uvijek obavezno naglasim određenu točku: raspodjela varijable obično je barem jednako zanimljiva / informativna kao i njezino mjesto. Zapravo je često i više.

To je zato što distribucija varijable obično sadrži informacije o temeljnim generativnim procesima (ili uzorkovanju).

Na primjer, podaci o brojanju često slijede Poissonovu raspodjelu, dok će sustav koji pokazuje pozitivne povratne informacije („pojačanje“) težiti površini raspodjele zakona snage. Nikada se nemojte pouzdati u to da se podaci normalno distribuiraju bez prethodne pažljive provjere.

Drugo, razumijevanje distribucije podataka neophodno je za znanje rada s njima! Mnogi se statistički testovi i metode oslanjaju na pretpostavke o načinu distribucije vaših podataka.

Kao izmišljeni primjer, uvijek se pobrinite za različito tretiranje unimodalnih i bimodalnih podataka. Možda imaju istu srednju vrijednost, ali izgubit ćete čitavu tonu važnih podataka ako zanemarite njihovu distribuciju.

Za zanimljiviji primjer koji ilustrira zašto uvijek trebate provjeriti svoje podatke prije izvještavanja sažetke statistike, pogledajte Anscombeov kvartet:

Svaki graf izgleda vrlo prepoznatljivo, zar ne? Ipak, svaka ima identične sažete statistike - uključujući njihove prosjeke, varijance i koeficijente korelacije. Zacrtavanje nekih distribucija otkriva da su prilično različite.

Konačno, raspodjela varijable određuje vašu sigurnost oko njene stvarne vrijednosti. "Uska" raspodjela omogućuje veću sigurnost, dok "široka" raspodjela omogućuje manje.

Varijacija oko srednje vrijednosti presudna je za pružanje konteksta. Prečesto se izvještavaju o sredstvima s vrlo širokim intervalima pouzdanosti, zajedno sa sredstvima s vrlo uskim intervalima pouzdanosti. To može zavarati.

Prikladno uzorkovanje

Stvarnost je takva da uzorkovanje može predstavljati bol za komercijalno orijentirane znanstvenike, posebno za one koji se bave istraživanjem ili inženjerstvom.

U istraživačkom okruženju možete precizno podesiti točno osmišljene eksperimente s mnogo različitih čimbenika i razina te kontrolirati tretmane. Međutim, 'živi' komercijalni uvjeti često su neoptimalni iz perspektive prikupljanja podataka. Svaka se odluka mora pažljivo odvagnuti od rizika prekida 'uobičajenog poslovanja'.

To zahtijeva da znanstvenici podataka budu inventivni, ali realni u pristupu rješavanju problema.

A / B testiranje kanonski je primjer pristupa koji ilustrira kako se proizvodi i platforme mogu optimizirati na granuliranoj razini bez nanošenja većih smetnji u uobičajenom poslovanju.

Bayesove metode mogu biti korisne za rad s manjim skupovima podataka ako imate prioritetno informativan skup prethodnika za rad.

Sa svim podacima koje prikupite, svakako prepoznajte njihova ograničenja.

Podaci ankete skloni su pristranosti kod uzorkovanja (često ispitanici s najjačim mišljenjima uzimaju vremena za popunjavanje ankete). Autokorelacija može utjecati na vremenske serije i prostorne podatke. I posljednje, ali ne najmanje važno, uvijek pripazite na multikolinearnost kada analizirate podatke iz srodnih izvora.

Data Engineering

To je nešto poput klišeja u znanosti o podacima, ali stvarnost je takva da se velik dio tijeka podataka troši na pronalaženje, čišćenje i spremanje sirovih podataka potrebnih za pronicljiviju analizu uzvodno.

Razmjerno malo vremena zapravo se troši na implementaciju algoritama od nule. Doista, većina statističkih alata dolazi s unutarnjim radom umotanim u uredne R pakete i Python module.

Postupak "izdvajanje-transformiranje-učitavanje" (ETL) presudan je za uspjeh bilo kojeg tima za znanost o podacima. Veće organizacije imat će posvećene inženjere podataka kako bi udovoljili svojim složenim zahtjevima infrastrukture podataka, ali mlađe tvrtke često će ovisiti o tome da njihovi znanstvenici podataka posjeduju jake, svestrane vlastite vještine inženjeringa podataka.

Programiranje u praksi

Znanost o podacima vrlo je interdisciplinarna. Uz napredne analitičke vještine i znanje specifično za domenu, uloga zahtijeva i solidne vještine programiranja.

Ne postoji savršen odgovor na to koje bi programske jezike ambiciozni znanstvenik podataka trebao naučiti koristiti. To će reći da će vam barem jedan od Pythona i / ili R vrlo dobro služiti.

Za koji god jezik da se odlučite, nastojte se upoznati sa svim njegovim značajkama i okolnim ekosustavom. Pregledajte razne pakete i module koji su vam dostupni i postavite svoj savršeni IDE. Naučite API-je koje ćete trebati koristiti za pristup osnovnim platformama i uslugama svoje tvrtke.

Baze podataka sastavni su dio slagalice bilo kojeg tijeka podataka. Obavezno savladajte neki dijalekt SQL-a. Točan odabir nije previše važan, jer je prebacivanje između njih upravljiv postupak kad je to potrebno.

NoSQL baze podataka (kao što je MongoDB) također mogu biti korisne za učenje ako ih vaša tvrtka koristi.

Ako postanete samopouzdani korisnik naredbenog retka, uvelike ćete povećati vašu svakodnevnu produktivnost. Čak i upoznavanje s jednostavnim bash skriptama započet će vam snažni početak automatizacije ponavljajućih zadataka.

Učinkovito kodiranje

Vrlo važna vještina za ambiciozne znanstvenike u svladavanju podataka je učinkovito kodiranje. Ponovna upotrebljivost je ključna. Vrijedno je odvojiti vrijeme (kada je dostupan) za pisanje koda na razini apstrakcije koja omogućuje njegovu upotrebu više puta.

Međutim, treba uspostaviti ravnotežu između kratkoročnih i dugoročnih prioriteta.

Nema smisla uzimati dvostruko više vremena za pisanje ad hoc skripte kako bi se mogla ponovno upotrijebiti ako nema šanse da će ikad više biti relevantna. Ipak, svaka minuta utrošena na refaktoriranje starog koda za ponovnu radnju minuta je koja se prethodno mogla spremiti.

Vrijedno je razviti najbolje prakse softverskog inženjerstva kako bismo napisali zaista učinkovit proizvodni kod.

Alati za upravljanje verzijama, poput Gita, čine implementaciju i održavanje koda mnogo pojednostavljenom. Planeri zadataka omogućuju vam automatizaciju rutinskih procesa. Redoviti pregledi koda i dogovoreni standardi dokumentacije znatno će olakšati život budućem vašem timu.

U bilo kojoj liniji tehnološke specijalizacije, obično nema potrebe za izmišljanjem kotača. Inženjering podataka nije iznimka. Okviri poput Airflow čine planiranje i praćenje ETL procesa lakšim i robusnijim. Za distribuirano spremanje podataka i obradu postoje Apache Spark i Hadoop.

Za početnike nije bitno naučiti ih duboko. Ipak, svjesnost o okolnom ekosustavu i dostupnim alatima uvijek je prednost.

Jasno komunicirajte

Znanost podataka cjelovita je disciplina s važnim prednjim dijelom okrenutim prema dionicima: slojem izvještavanja.

Činjenica je jednostavna - učinkovita komunikacija sa sobom donosi značajnu komercijalnu vrijednost. Kod znanosti o podacima postoje četiri aspekta učinkovitog izvještavanja.

  • Točnost

    To je presudno, iz očitih razloga. Ovdje je vještina znati kako protumačiti vaše rezultate, a biti jasan o svim ograničenjima ili upozorenjima koja se mogu primijeniti. Važno je ne pretjerivati ​​ili podcjenjivati ​​važnost bilo kojeg određenog rezultata.

  • Preciznost

    To je važno jer svaka nejasnoća u vašem izvješću može dovesti do pogrešne interpretacije nalaza. To može imati negativne posljedice dalje.

  • Sažet

    Neka vaše izvješće bude što kraće, ali ne kraće. Dobar format mogao bi pružiti određeni kontekst glavnom pitanju, uključiti kratki opis dostupnih podataka i dati pregled rezultata i slika "naslova". Dodatni detalji mogu (i trebali bi) biti uključeni u dodatak.

  • Dostupno

    Stalno treba uravnotežiti tehničku točnost izvješća sa stvarnošću da će većina njegovih čitatelja biti stručnjaci za svoja područja, a ne nužno i za znanost o podacima. Ovdje nema jednostavnog, jednoznačnog odgovora. Česta komunikacija i povratne informacije pomoći će uspostaviti odgovarajuću ravnotežu.

Grafička igra

Moćna vizualizacija podataka pomoći će vam da učinkovito komunicirate složene rezultate s dionicima. Dobro dizajnirani grafikon ili grafikon na prvi pogled mogu otkriti što bi nekoliko odlomaka teksta trebalo objasniti.

Postoji širok raspon besplatnih i plaćenih alata za vizualizaciju i izradu nadzorne ploče, uključujući Plotly, Tableau, Chartio, d3.js i mnoge druge.

Za brze makete ponekad ne možete pobijediti dobar staromodni softver za proračunske tablice kao što su Excel ili Google Sheets. Oni će posao obaviti prema potrebi, iako im nedostaje funkcionalnost namjenskog softvera za vizualizaciju.

Prilikom izrade nadzornih ploča i grafike treba uzeti u obzir niz vodećih načela. Temeljni je izazov maksimizirati informacijsku vrijednost vizualizacije, bez žrtvovanja 'čitljivosti'.

Učinkovita vizualizacija na brzinu otkriva pregled na visokoj razini. Složenija grafika može proći malo više vremena dok gledatelj ne probavi, te bi u skladu s tim trebala ponuditi mnogo veći informativni sadržaj.

Ako ikad pročitate samo jednu knjigu o vizualizaciji podataka, onda klasični Edward Tufte Vizualni prikaz kvantitativnih informacijaje izvanredan izbor.

Tufte je sam popularizirao i izumio veći dio područja vizualizacije podataka. Široko korišteni izrazi poput "chartjunk" i "gustoća podataka" svoje podrijetlo duguju Tufteovom radu. Njegov koncept 'omjera podataka i tinte' ostaje utjecajan tijekom trideset godina.

Korištenje boje, izgleda i interaktivnosti često će napraviti razliku između dobre vizualizacije i visokokvalitetne, profesionalne.

U konačnici, stvaranje sjajne vizualizacije podataka dotiče se vještina koje su češće povezane s UX-om i grafičkim dizajnom od znanosti o podacima. Čitanje ovih predmeta u slobodno vrijeme izvrstan je način da razvijete svijest o tome što djeluje, a što ne.

Svakako potražite web stranice poput bl.ocks.org radi nadahnuća!

Znanost o podacima zahtijeva raznolik skup vještina

Postoje četiri ključna područja vještina u kojima biste se kao ambiciozni znanstvenik podataka trebali usredotočiti na razvoj. Oni su:

  • Statistika, uključujući temeljnu teoriju i primjenu u stvarnom svijetu.
  • Programiranje na barem jednom od Pythona ili R, kao i SQL i korištenje naredbenog retka
  • Najbolje prakse za inženjering podataka
  • Učinkovita komunikacija vašeg rada

Bonus! Učite neprestano

Ako ste ovoliko pročitali i osjećate se malodušno - budite sigurni. Glavna vještina u tako brzom polju je naučiti kako učiti i ponovno se učiti. Nema sumnje da će se novi okviri, alati i metode pojaviti u narednim godinama.

Točan skup vještina koji sada naučite možda će trebati biti potpuno ažuriran u roku od pet do deset godina. Očekujte ovo. Čineći to i pripremajući se, možete biti u prednosti kroz kontinuirano ponovno učenje.

Nikada ne možete znati sve, a istina je da to nikad nitko ne zna. Ali, ako savladate osnove, bit ćete u mogućnosti pokupiti bilo što drugo na osnovi potrebe.

A to je nedvojbeno ključ uspjeha u bilo kojoj disciplini koja se brzo razvija.