Na Internetu sam rangirao svaki tečaj Uvoda u znanost o podacima na temelju tisuća podataka

Prije godinu dana odustao sam od jednog od najboljih programa informatike u Kanadi. Počeo sam stvarati vlastiti master program za znanost o podacima koristeći mrežne resurse. Shvatio sam da umjesto toga mogu naučiti sve što mi treba putem edX-a, Coursere i Udacity-a. A mogao bih to naučiti brže, učinkovitije i za djelić cijene.

Sad sam skoro gotov. Pohađao sam mnogo tečajeva vezanih uz znanost podataka i revidirao dijelove mnogih drugih. Znam mogućnosti koje postoje i koje su vještine potrebne učenicima koji se pripremaju za ulogu analitičara ili znanstvenika podataka. Prije nekoliko mjeseci započeo sam s izradom vodiča vođenog pregledom koji preporučuje najbolje tečajeve za svaki predmet u znanosti o podacima.

Za prvi vodič u seriji, početniku znanstveniku podataka preporučio sam nekoliko klasa kodiranja. Tada su to bile statistike i klase vjerojatnosti.

Sada na uvod u znanost o podacima.

(Ne brinite ako niste sigurni što predstavlja uvod u tečaj znanosti o podacima. Uskoro ću vam objasniti.)

Za ovaj vodič proveo sam više od 10 sati pokušavajući identificirati svaki mrežni uvod u tečaj znanosti o podacima koji se nudi od siječnja 2017. godine, izvlačeći ključne dijelove informacija iz njihovih programa i recenzija i sastavljajući njihove ocjene. Za ovaj zadatak obratio sam se nikome osim zajednici Class Central s otvorenim kodom i njenoj bazi podataka s tisućama ocjena i recenzija tečaja.

Od 2011. godine osnivač Class Central Dhawal Shah pažljivije prati mrežne tečajeve nego vjerojatno bilo tko drugi na svijetu. Dhawal mi je osobno pomogao sastaviti ovaj popis resursa.

Kako smo odabrali tečajeve za razmatranje

Svaki tečaj mora odgovarati tri kriterija:

  1. Mora podučavati proces znanosti o podacima. Uskoro više o tome.
  2. Mora biti na zahtjev ili se nudi svakih nekoliko mjeseci.
  3. To mora biti interaktivni internetski tečaj, tako da nema knjiga ili vodiča samo za čitanje . Iako su to održivi načini učenja, ovaj se vodič fokusira na tečajeve.

Vjerujemo da smo pokrili sve značajne tečajeve koji odgovaraju gore navedenim kriterijima. Budući da na Udemyju postoje naizgled stotine tečajeva, odlučili smo razmotriti samo one najpregledanije i najbolje ocijenjene. Uvijek postoji šansa da smo nešto propustili. Stoga nas obavijestite u odjeljku za komentare ako smo izostavili dobar tečaj.

Kako smo ocjenjivali tečajeve

Za izračunavanje ponderirane prosječne ocjene za svaki tečaj sastavili smo prosječnu ocjenu i broj recenzija s Class Central i drugih web mjesta s recenzijama. Čitali smo tekstualne preglede i koristili ove povratne informacije kako bismo nadopunili brojčane ocjene.

Napravili smo subjektivne pozive prema prosudbama na temelju dva čimbenika:

1. Obuhvat procesa znanosti o podacima. Prevlači li tečaj ili preskače određene predmete? Pokriva li pojedine predmete previše detaljno? Što slijedi ovaj postupak, pogledajte u sljedećem odjeljku.

2. Korištenje uobičajenih alata za znanost o podacima. Predaje li se tečaj pomoću popularnih programskih jezika poput Pythona i / ili R? Oni nisu potrebni, ali su u većini slučajeva korisni, pa se tim tečajevima daje mala prednost.

Što je postupak znanosti o podacima?

Što je znanost o podacima? Što radi znanstvenik podataka? To su vrste temeljnih pitanja na koja bi uvod u tečaj znanosti podataka trebao odgovoriti. Sljedeća infografska slika profesora s Harvarda Joea Blitzsteina i Hanspetera Pfistera daje tipičan proces znanosti o podacima koji će nam pomoći da odgovorimo na ova pitanja.

Cilj ovog uvoda u tečaj znanosti o podacima jest upoznati se s procesom znanosti o podacima. Ne želimo previše detaljno pokrivanje određenih aspekata procesa, pa stoga i naslov "uvod u".

Za svaki aspekt, idealni tečaj objašnjava ključne pojmove u okviru procesa, uvodi uobičajene alate i pruža nekoliko primjera (po mogućnosti praktičnih).

Tražimo samo uvod. Stoga ovaj vodič neće obuhvaćati pune specijalizacije ili programe poput Specijalizacije znanosti o znanosti na Courseri Sveučilišta Johns Hopkins ili Nanodegree analitičara podataka Udacity. Ove kompilacije tečajeva izmiču namjeni ove serije: pronaći najbolje pojedinačne tečajeve za svaki predmet koji uključuju obrazovanje iz znanosti o podacima. Posljednja tri vodiča u ovoj seriji članaka detaljno će pokriti svaki aspekt procesa znanosti o podacima.

Potrebno je osnovno kodiranje, statistika i iskustvo vjerojatnosti

Nekoliko dolje navedenih tečajeva zahtijeva osnovno programiranje, statistiku i iskustvo vjerojatnosti. Ovaj je zahtjev razumljiv s obzirom na to da je novi sadržaj razumno napredan i da ti predmeti često imaju nekoliko tečajeva posvećenih njima.

Ovo se iskustvo može steći kroz naše preporuke u prva dva članka (programiranje, statistika) u ovom Vodiču za karijeru u znanosti znanosti.

Naš izbor za najbolji uvod u tečaj znanosti podataka je ...

  • Data Science AZ ™: Uključene vježbe iz stvarnog života o znanosti podataka (Kirill Eremenko / Udemy)

Data Science AZ ™ na Udemyju, Kirill Eremenko, jasan je pobjednik u smislu širine i dubine pokrivanja procesa znanosti o podacima za 20+ tečajeva koji su se kvalificirali. Prosječnu ocjenu s 4,5 zvjezdice ima preko 3.071 recenzija, što ga svrstava među najbolje ocijenjene i najgledanije tečajeve od onih koji su razmatrani.

Opisuje cjelokupni postupak i pruža primjere iz stvarnog života. Sa sadržajem od 21 sat, dobra je duljina. Recenzenti vole predavanje instruktora i organizaciju sadržaja. Cijena varira ovisno o udemy popustima, koji su česti, pa ćete pristup moći kupiti već za 10 USD.

Iako ne provjerava naš okvir za "upotrebu uobičajenih alata za znanost podataka" , odabiri alata koji nisu Python / R (gretl, Tableau, Excel) učinkovito se koriste u kontekstu. Eremenko spominje sljedeće prilikom objašnjavanja izbora gretl (gretl je statistički softverski paket), iako se odnosi na sve alate koje koristi (naglasak moj):

U gretlu ćemo moći raditi isto modeliranje kao u R i Pythonu, ali nećemo morati kodirati. To je ovdje velika stvar. Neki od vas možda već jako dobro znaju R, ali neki to uopće ne znaju. Cilj mi je pokazati vam kako izraditi robustan model i dati vam okvir koji možete primijeniti u bilo kojem odabranom alatu . gretl će nam pomoći da izbjegnemo zaglavljivanje u našem kodiranju.

Jedan istaknuti recenzent primijetio je sljedeće:

Kirill je najbolji učitelj kojeg sam pronašao na mreži. Koristi primjere iz stvarnog života i objašnjava uobičajene probleme kako biste dublje razumjeli tečaj. Također pruža puno uvida u to što znači biti znanstvenik podataka od rada s nedovoljno podataka sve do predstavljanja svog rada upravi C-klase. Toplo preporučujem ovaj tečaj studentima početnicima za analitičare srednjih podataka!

Sjajan uvod usmjeren na Python

  • Uvod u analizu podataka (Udacity)

Udacityov uvod u analizu podataka relativno je nova ponuda koja je dio popularnog Udacityjeva analitičara podataka Nanodegree. Jasno i kohezivno pokriva proces znanosti o podacima koristeći Python, iako mu malo nedostaje u aspektu modeliranja. Procijenjeni vremenski okvir je 36 sati (šest sati tjedno tijekom šest tjedana), iako je prema mom iskustvu kraći. Ima ponderirani prosjek ocjena s 5 zvjezdica tijekom dvije recenzije. Besplatno je.

Videozapisi su dobro proizvedeni, a instruktorica (Caroline Buckey) je jasna i simpatična. Mnogo kvizova programiranja provode koncepte naučene u video zapisima. Studenti će napustiti tečaj uvjereni u svoje nove i / ili poboljšane NumPy i Pandas vještine (ovo su popularne Python knjižnice). Konačni projekt - koji se ocjenjuje i recenzira na Nanodegreeu, ali ne i na besplatnom pojedinačnom tečaju - može biti lijep dodatak portfelju.

Impresivna ponuda bez podataka o recenzijama

  • Osnove znanosti o podacima (Sveučilište Big Data)

Osnove nauke o podacima je serija od četiri kolegija koju pruža IBM-ovo sveučilište za velike podatke. Obuhvaća tečajeve pod nazivom Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools i R 101.

Pokriva cjelokupni proces znanosti o podacima i predstavlja Python, R i nekoliko drugih alata otvorenog koda. Tečajevi imaju ogromnu proizvodnu vrijednost. Procjenjuje se 13–18 sati napora, ovisno o tome polazite li tečaj “R 101” na kraju, što nije potrebno u svrhu ovog vodiča. Nažalost, nema podataka o recenzijama na glavnim web lokacijama za recenzije koje smo koristili za ovu analizu, pa ih još ne možemo preporučiti za gornje dvije mogućnosti. Besplatno je.

Natjecanje

Naš je odabir br. 1 imao ponderiranu prosječnu ocjenu 4,5 od 5 zvjezdica tijekom 3.068 recenzija. Pogledajmo ostale mogućnosti poredane po opadajućoj ocjeni. Ispod ćete pronaći nekoliko tečajeva usmjerenih na R ako želite uvod u taj jezik.

  • Python za nauku podataka i strojno učenje Bootcamp (Jose Portilla / Udemy): Potpuna pokrivenost procesa fokusiranim na alate (Python). Manje procesno vođen i više vrlo detaljnog uvoda u Python. Nevjerojatan tečaj, iako nije idealan za opseg ovog vodiča. Kao i Joseov tečaj R u nastavku, može se udvostručiti i kao uvod u Python / R i kao uvod u znanost o podacima. 21,5 sati sadržaja. Prosječnu ponderiranu ocjenu od 4,7 zvjezdica ima preko 1644 recenzije. Cijena varira ovisno o udemy popustima, koji su česti.
  • Nauka podataka i strojno učenje Bootcamp s R (Jose Portilla / Udemy): Potpuna pokrivenost procesa fokusiranim na alat (R). Manje vođen procesom i više vrlo detaljnog uvoda u R. Nevjerojatan tečaj, iako ne idealan za opseg ovog vodiča. Kao i gore navedeni Joseov tečaj za Python, može se udvostručiti i kao uvod u Python / R i kao uvod u znanost o podacima. 18 sati sadržaja. Prosječnu ponderiranu ocjenu s 4,6 zvjezdice ima 847 recenzija. Cijena varira ovisno o udemy popustima, koji su česti.
  • Znanost podataka i strojno učenje s Pythonom - Ruke naprijed! (Frank Kane / Udemy): Djelomično pokrivanje procesa. Fokusira se na statistiku i strojno učenje. Dostojna dužina (devet sati sadržaja). Koristi Python. Prosječnu ponderiranu ocjenu s 4,5 zvjezdice ima 3,104 recenzije. Cijena varira ovisno o udemy popustima, koji su česti.
  • Uvod u znanost o podacima (Data Hawk Tech / Udemy): Potpuna pokrivenost procesa, iako ograničena dubina pokrivanja. Prilično kratko (tri sata sadržaja). Ukratko pokriva i R i Python. Prosječnu ocjenu s 4,4 zvjezdice ima 62 recenzije. Cijena varira ovisno o udemy popustima, koji su česti.
  • Primijenjena znanost podataka: Uvod (Sveučilište Syracuse / Otvoreno obrazovanje na ploči): Potpuna pokrivenost procesa, iako nije ravnomjerno raširena. Snažno se fokusira na osnovne statistike i R. Previše primijenjeno i nedovoljno fokusiranje procesa u svrhu ovog vodiča. Iskustvo internetskog tečaja osjeća se nepovezano. Ima ponderiranu prosječnu ocjenu s 4,33 zvjezdice u 6 recenzija. Besplatno.
  • Uvod u znanost o podacima (Nina Zumel i John Mount / Udemy): Samo djelomično pokrivanje procesa, iako dobra dubina u aspektima pripreme i modeliranja podataka. U redu, dužina (šest sati sadržaja). Koristi R. Ima ponderiranu prosječnu ocjenu s 4,3 zvjezdice tijekom 101 recenzije. Cijena varira ovisno o udemy popustima, koji su česti.
  • Primijenjena znanost podataka s Pythonom (V2 Maestros / Udemy): Potpuna pokrivenost procesa s dobrom dubinom pokrivanja za svaki aspekt procesa. Dostojna dužina (8,5 sati sadržaja). Koristi Python. Prosječnu ponderiranu ocjenu s 4,3 zvjezdice ima 92 recenzije. Cijena varira ovisno o udemy popustima, koji su česti.
  • Želite biti znanstvenik podataka? (V2 Maestros / Udemy): Potpuna pokrivenost procesa, iako ograničena dubina pokrivanja. Prilično kratko (3 sata sadržaja). Ograničeno pokrivanje alata. Prosječnu ponderiranu ocjenu od 4,3 zvjezdice ima 790 recenzija. Cijena varira ovisno o udemy popustima, koji su česti.
  • Podaci za uvid: Uvod u analizu podataka (Sveučilište u Aucklandu / FutureLearn): Širina pokrivenosti je nejasna. Tvrdi da se usredotočuje na istraživanje, otkrivanje i vizualizaciju podataka. Ne nudi se na zahtjev. 24 sata sadržaja (tri sata tjedno tijekom osam tjedana). Ima ponderiranu prosječnu ocjenu s 4 zvjezdice tijekom 2 recenzije. Dostupno besplatno uz plaćeni certifikat.
  • Orijentacija znanosti o podacima (Microsoft / edX): Djelomična pokrivenost procesa (nedostaje aspekt modeliranja). Koristi Excel, što ima smisla s obzirom na to da je to tečaj s oznakom Microsofta. 12–24 sata sadržaja (dva-četiri sata tjedno tijekom šest tjedana). Ima ponderiranu prosječnu ocjenu s 3,95 zvjezdice tijekom 40 recenzija. Besplatno s verificiranim certifikatom dostupno za 25 USD.
  • Data Science Essentials (Microsoft / edX): Potpuno pokrivanje procesa s dobrom dubinom pokrivanja za svaki aspekt. Obuhvaća R, Python i Azure ML (Microsoftova platforma za strojno učenje). Nekoliko recenzija s 1 zvjezdicom navodeći odabir alata (Azure ML) i lošu isporuku instruktora. 18–24 sata sadržaja (tri-četiri sata tjedno tijekom šest tjedana). Ima ponderiranu prosječnu ocjenu s 3,81 zvjezdice u 67 recenzija. Besplatno s potvrđenim certifikatom dostupno za 49 USD.
  • Primijenjena znanost podataka s R (V2 Maestros / Udemy): R pratilac gore navedenog tečaja V2 Maestros Python. Potpuno pokrivanje procesa s dobrom dubinom pokrivanja za svaki aspekt procesa. Dostojna dužina (11 sati sadržaja). Koristi R. Ima ponderiranu prosječnu ocjenu s 3,8 zvjezdice u 212 recenzija. Cijena varira ovisno o udemy popustima, koji su česti.
  • Uvod u znanost o podacima (Udacity): Djelomično pokrivanje procesa, iako dobra dubina za obrađene teme. Nedostaje aspekt istraživanja, iako Udacity ima sjajan, cjelovit tečaj o istraživačkoj analizi podataka (EDA). Tvrdi da traje 48 sati (šest sati tjedno tijekom osam tjedana), ali je prema mom iskustvu kraći. Neke recenzije misle da nedostaje postavljanje naprednog sadržaja. Osjeća se neorganizirano. Koristi Python. Ima ponderiranu prosječnu ocjenu s 3,61 zvjezdice u 18 recenzija. Besplatno.
  • Uvod u znanost o podacima u Pythonu (Sveučilište Michigan / Coursera): Djelomično pokrivanje procesa. Nema modeliranja i vizualizacije, iako tečajevi # 2 i # 3 iz Primijenjene znanosti o znanosti sa specijalizacijom za Python pokrivaju ove aspekte. Pohađanje sva tri tečaja bilo bi previše detaljno u svrhu ovih vodiča. Koristi Python. Dužina četiri tjedna. Ima ponderiranu prosječnu ocjenu s 3,6 zvjezdice u 15 recenzija. Dostupne besplatne i plaćene opcije.
  • Donošenje odluka na temelju podataka (PwC / Coursera): Djelomična pokrivenost (nedostaje modeliranje) s poslovnim fokusom. Predstavlja mnoge alate, uključujući R, Python, Excel, SAS i Tableau. Dužina četiri tjedna. Ima ponderiranu prosječnu ocjenu s 3,5 zvjezdice tijekom 2 recenzije. Dostupne besplatne i plaćene opcije.
  • Crash tečaj u znanosti o podacima (Sveučilište Johns Hopkins / Coursera): Izuzetno kratak pregled cjelokupnog procesa. Prekratko za svrhu ove serije. Dva sata u dužinu. Ima ponderiranu prosječnu ocjenu s 3,4 zvjezdice u 19 recenzija. Dostupne besplatne i plaćene opcije.
  • Alat Data Scientist-a (Sveučilište Johns Hopkins / Coursera): Izuzetno kratak pregled cjelokupnog procesa. Još jedan pripremni tečaj za Specijalizaciju za znanost o podacima Sveučilišta Johns Hopkins. Tvrdi da ima 4-16 sati sadržaja (jedan do četiri sata tjedno tijekom četiri tjedna), iako je jedan recenzent napomenuo da bi to moglo biti dovršeno za dva sata. Ima ponderiranu prosječnu ocjenu s 3,22 zvjezdice u odnosu na 182 recenzije. Dostupne besplatne i plaćene opcije.
  • Upravljanje podacima i vizualizacija (Sveučilište Wesleyan / Coursera): Djelomično pokrivanje procesa (nedostaje modeliranje). Dužina četiri tjedna. Dobra proizvodna vrijednost. Koristi Python i SAS. Ima ponderiranu prosječnu ocjenu s 2,67 zvjezdice tijekom 6 recenzija. Dostupne besplatne i plaćene opcije.

Sljedeći tečajevi nisu imali recenzija od siječnja 2017. godine.

  • CS109 Data Science (Sveučilište Harvard): Potpuno pokrivanje procesa u velikoj dubini (vjerojatno previše u dubini u svrhu ove serije). Puni 12-tjedni dodiplomski tečaj. Navigacija tečajem je teška jer tečaj nije namijenjen internetskoj potrošnji. Snimaju se stvarna predavanja s Harvarda. Gore navedeni infografski postupak znanosti podataka potječe iz ovog tečaja. Koristi Python. Nema podataka o recenziji. Besplatno.
  • Uvod u Analitiku podataka za posao (Sveučilište Colorado Boulder / Coursera): Djelomična pokrivenost procesa (nedostaju aspekti modeliranja i vizualizacije) s naglaskom na poslovanje. Proces znanosti o podacima zamaskiran je kao „Informacijsko-akcijski lanac vrijednosti“ u svojim predavanjima. Dužina četiri tjedna. Opisuje nekoliko alata, iako pokriva samo SQL u bilo kojoj dubini. Nema podataka o recenziji. Dostupne besplatne i plaćene opcije.
  • Uvod u Data Science (Lynda): Potpuna pokrivenost procesa, iako ograničena dubina pokrivanja. Prilično kratko (tri sata sadržaja). Predstavlja i R i Python. Nema podataka o recenziji. Cijena ovisi o pretplati na Lynda.

Omotavanje

Ovo je treća serija iz šest dijelova koja pokriva najbolje mrežne tečajeve za pokretanje u području znanosti o podacima. Programiranje smo pokrili u prvom članku, a statistiku i vjerojatnost u drugom članku. Ostatak serije pokrivat će ostale temeljne kompetencije znanosti znanosti: vizualizaciju podataka i strojno učenje.

Ako želite naučiti Data Science, započnite s jednom od ovih satova programiranja

Ako želite naučiti Data Science, pođite nekoliko ovih satova statistike

Završni dio bit će sažetak tih članaka, plus najbolji mrežni tečajevi za druge ključne teme kao što su premetanje podataka, baze podataka, pa čak i softverski inženjering.

Ako tražite cjelovit popis mrežnih tečajeva znanosti znanosti, možete ih pronaći na stranici predmeta Data Science i Big Data Class Central.

Ako ste uživali čitati ovo, pogledajte neke druge dijelove Class Central:

Evo 250 tečajeva Ivy League koje trenutno možete besplatno pohađati na mreži

250 MOOC-a iz Browna, Columbije, Cornella, Dartmoutha, Harvarda, Penna, Princetona i Yalea.

50 najboljih besplatnih internetskih sveučilišnih tečajeva prema podacima

Kad sam u studenom 2011. pokrenuo Class Central, bilo je oko 18 besplatnih internetskih tečajeva i gotovo svi ...

Ako imate prijedloge za tečajeve koje sam propustio, javite mi u odgovorima!

Ako vam je ovo korisno, kliknite? pa će ga ovdje vidjeti više ljudi na Mediumu.

Ovo je sažeta verzija mog izvornog članka objavljenog na Class Central, gdje sam uključio daljnje opise tečaja, nastavne planove i brojne recenzije.