Što su otvoreni podaci?
Jednostavno rečeno, Open Data znači vrsta podataka koja je otvorena svima i svima za pristup, izmjenu, ponovnu upotrebu i dijeljenje.
Otvoreni podaci temelje se na raznim "otvorenim pokretima" poput otvorenog koda, otvorenog hardvera, otvorene vlade, otvorene znanosti itd.
Vlade, neovisne organizacije i agencije javile su se kako bi otvorile vrata podataka kako bi stvorile sve više otvorenih podataka za slobodan i lak pristup.
Zašto su otvoreni podaci važni?
Otvoreni podaci važni su jer je svijet sve više vođen podacima. No ako postoje ograničenja u pristupu i korištenju podataka, ideja poslovanja i upravljanja na temelju podataka neće se ostvariti.
Stoga otvoreni podaci imaju svoje jedinstveno mjesto. Može omogućiti potpunije razumijevanje globalnih problema i univerzalnih problema. To može dati velik poticaj tvrtkama. To može biti veliki poticaj za strojno učenje. Može vam pomoći u borbi protiv globalnih problema poput bolesti, zločina ili gladi. Otvoreni podaci mogu osnažiti građane, a time i ojačati demokraciju. Može usmjeriti procese i sustave koje su izgradile društvo i vlade. Može vam pomoći transformirati način na koji razumijemo i komuniciramo sa svijetom.
Dakle, ovdje je moj popis od 15 sjajnih izvora podataka:
1. Otvoreni podaci Svjetske banke
Kao spremište najopsežnijih svjetskih podataka o onome što se događa u različitim zemljama širom svijeta, Otvoreni podaci Svjetske banke važan su izvor otvorenih podataka. Također pruža pristup ostalim skupovima podataka koji su spomenuti u katalogu podataka.
Otvoreni podaci Svjetske banke ogromni su jer ima 3000 skupova podataka i 14000 pokazatelja koji obuhvaćaju mikropodatke, statistiku vremenskih serija i geoprostorne podatke.
Pristup i otkrivanje podataka koje želite također je prilično jednostavno. Sve što trebate je odrediti imena pokazatelja, države ili teme i to će vam otvoriti riznicu otvorenih podataka. Također vam omogućuje preuzimanje podataka u različitim formatima kao što su CSV, Excel i XML.
Ako ste novinar ili akademik, očarat će vas čitav niz alata koji su vam na raspolaganju. Možete dobiti pristup alatima za analizu i vizualizaciju koji mogu pojačati vaše istraživanje. Može pozdraviti dublje i bolje razumijevanje globalnih problema.
Možete dobiti pristup API-ju koji vam može pomoći u stvaranju vizualizacija podataka koje su vam potrebne, kombinacija uživo s drugim izvorima podataka i mnogih drugih takvih značajki.
Stoga ne čudi da su otvoreni podaci Svjetske banke na vrhu bilo koje liste otvorenih podataka!
2. WHO (Svjetska zdravstvena organizacija) - Otvoreno spremište podataka
Skladište otvorenih podataka WHO-a je način na koji WHO vodi evidenciju o zdravstvenim statistikama svojih 194 države članice.
Spremište održava podatke sustavno organiziranim. Može mu se pristupiti prema različitim potrebama. Primjerice, bilo da se radi o smrtnosti ili opterećenju bolestima, mogu se pristupiti podacima klasificiranim pod 100 ili više kategorija kao što su Milenijski razvojni ciljevi (dječja prehrana, zdravlje djeteta, majčino i reproduktivno zdravlje, imunizacija, HIV / AIDS, tuberkuloza, malarija, zanemarene bolesti, voda i sanitacija), nezarazne bolesti i faktori rizika, epidemija sklone bolesti, zdravstveni sustavi, zdravlje okoliša, nasilje i ozljede, pravičnost itd.
Za svoje specifične potrebe možete pregledati skupove podataka prema temama, kategoriji, pokazatelju i zemlji.
Dobra stvar je što je u Excel formatu moguće preuzeti sve podatke koji su vam potrebni. Također možete nadzirati i analizirati podatke koristeći se njihovim podatkovnim portalom.
Dostupan je i API podataka i statističkih podataka Svjetske zdravstvene organizacije.
3. Google javni istraživač podataka
Pokrenut 2010. godine, Google Public Data Explorer može vam pomoći da istražite velike količine skupova podataka od javnog interesa. Možete vizualizirati i prenijeti podatke za svoje potrebe.
Omogućuje dostupnost podataka iz različitih agencija i izvora. Na primjer, možete pristupiti podacima Svjetske banke, Američkog ureda za statistiku rada i Američkog ureda, OECD-a, MMF-a i drugih.
Različiti dionici pristupaju tim podacima u različite svrhe. Bez obzira jeste li student ili novinar, jeste li kreator politike ili akademik, ovaj alat možete koristiti kako biste stvorili vizualizacije javnih podataka.
Pomoću programa Data Explorer možete razmjestiti razne načine predstavljanja podataka, poput linijskih grafikona, trakastih grafikona, karata i grafikona s mjehurićima.
Najbolje je što bi vam ove vizualizacije bile prilično dinamične. To znači da ćete vidjeti kako se s vremenom mijenjaju. Možete promijeniti teme, usredotočiti se na različite unose i izmijeniti ljestvicu.
I njega je lako podijeliti. Čim pripremite grafikon, možete ga ugraditi na svoje web mjesto ili blog ili jednostavno podijeliti vezu sa svojim prijateljima.
4. Registar otvorenih podataka na AWS-u (RODA)
Ovo je spremište koje sadrži javne skupove podataka. Podaci su dostupni iz AWS izvora.
Što se tiče RODA-e, možete otkriti i podijeliti podatke koji su javno dostupni.
U RODA-i možete koristiti ključne riječi i oznake za uobičajene vrste podataka, poput genomskih, satelitskih slika i prijevoza, kako biste pretraživali podatke koje tražite. Sve je to moguće na jednostavnom web sučelju.
Za svaki skup podataka otkrit ćete stranicu s detaljima, primjere korištenja, informacije o licencama i vodiče ili programe koji koriste ove podatke.
Korištenjem širokog raspona računarskih proizvoda i proizvoda za analitiku podataka možete analizirati otvorene podatke i graditi sve usluge koje želite.
Iako su podaci kojima pristupate dostupni putem AWS resursa, morate imati na umu da ih AWS ne pruža. Ovi podaci pripadaju različitim agencijama, vladinim organizacijama, istraživačima, tvrtkama i pojedincima.
5. Portal otvorenih podataka Europske unije
Možete pristupiti onome što otvorene podatke objavljuju institucije EU, agencije i druge organizacije na jedinstvenoj platformi, odnosno Portalu otvorenih podataka Europske unije.
Portal otvorenih podataka EU dom je vitalnih otvorenih podataka koji se odnose na domene politika EU-a. Ta područja politike uključuju ekonomiju, zapošljavanje, znanost, okoliš i obrazovanje.
Otprilike 70 institucija, organizacija ili odjela EU-a poput Eurostata, Europske agencije za okoliš, Zajedničkog istraživačkog centra i drugih generalnih direktorata Europske komisije i agencija EU-a objavili su svoje baze podataka i omogućili im pristup. Ti su skupovi podataka do danas prešli brojku od 11700.
Portal omogućuje jednostavan pristup. Podatke možete lako pretraživati, istraživati, povezivati, preuzimati i ponovno koristiti kroz katalog uobičajenih metapodataka. To možete učiniti za svoje specifične svrhe. To može biti komercijalna ili nekomercijalna svrha.
Katalog metapodataka možete pretraživati putem interaktivne tražilice (kartica Podaci) i SPARQL upita (kartica Povezani podaci).
Korištenjem ovog kataloga možete dobiti pristup podacima pohranjenim na različitim web mjestima institucija, agencija i organizacija EU-a.
6. PetTrideset Osam
To je izvrsno mjesto za vođenje podataka i vođenje priča.
Pruža različite izvore podataka za razne sektore kao što su politika, sport, znanost, ekonomija itd. Podatke također možete preuzeti.
Kada pristupite podacima, naići ćete na kratko objašnjenje u vezi sa svakim skupom podataka s obzirom na njegov izvor. Također ćete upoznati što znači i kako ga koristiti.
Kako bi ove podatke učinio jednostavnim za upotrebu, pruža skupove podataka u što jednostavnijim, neovisnim formatima kao što su CSV datoteke. Nepotrebno je reći da ovim formatima ljudi, kao i strojevi, mogu lako pristupiti i obraditi ih.
Uz pomoć ovih skupova podataka možete stvoriti priče i vizualizacije prema vlastitim zahtjevima i željama.
7. Američki ured za popis stanovništva
Američki ured za popis stanovništva najveća je statistička agencija savezne vlade. Pohranjuje i pruža pouzdane činjenice i podatke o ljudima, mjestima i ekonomiji Amerike.
Popisni ured smatra svoju plemenitu misiju širenjem svojih usluga najpouzdanijim pružateljem kvalitetnih podataka.
Bilo da se radi o saveznoj, državnoj, lokalnoj ili plemenskoj vladi, svi oni koriste popisne podatke u razne svrhe. Te vlade koriste ove podatke za određivanje mjesta novog stanovanja i javnih objekata. Oni ga također koriste u vrijeme ispitivanja demografskih karakteristika zajednica, država i SAD-a.
Ovi se podaci također koriste u planiranju prometnih sustava i prometnica. Kada je riječ o odlučivanju o kvotama i stvaranju policijskih i vatrogasnih postaja, ovi podaci dobro dođu. Kad vlade stvaraju lokalizirana područja za izbore, škole, komunalne službe itd., Oni koriste te podatke. Praksa je prikupljati podatke o stanovništvu jednom desetljeće i ti su podaci vrlo korisni u postizanju istih.
Postoje razni alati poput American Fact Finder, Census Data Explorer i Quick Facts koji su korisni u slučaju da želite pretraživati, prilagoditi i vizualizirati podatke.
Na primjer, Quick Facts samo sadrži statistiku za sve države, županije, gradove, pa čak i gradove s 5000 ili više stanovnika.
Isto tako, American Fact Finder može vam pomoći otkriti popularne činjenice poput stanovništva, prihoda itd. Pruža informacije koje se često traže.
Dobra stvar je što putem pretraživača podataka popisa možete pretraživati podatke, komunicirati s njima, upoznavati popularne statistike i vidjeti povezane karte. Štoviše, vizualni alat možete koristiti i za prilagodbu podataka na iskustvu interaktivnih karata.
8. Data.gov
Data.gov je riznica otvorenih podataka američke vlade. Tek je nedavno donesena odluka da se svi vladini podaci učine dostupnima besplatno.
Kada je pokrenut, bilo ih je samo 47. Sada postoji 180 000 skupova podataka.
Zašto je Data.gov sjajan resurs jer možete pronaći podatke, alate i resurse koje možete rasporediti u razne svrhe. Možete provoditi svoja istraživanja, razvijati svoje web i mobilne aplikacije, pa čak i dizajnirati vizualizacije podataka.
Sve što trebate je unijeti ključne riječi u okvir za pretraživanje i pregledavati vrste, oznake, formate, grupe, vrste organizacija, organizacije i kategorije. To će vam olakšati lak pristup podacima ili skupovima podataka koji su vam potrebni.
Data.gov slijedi shemu otvorenih podataka projekta - skup potrebnih polja (naslov, opis, oznake, posljednje ažuriranje, izdavač, ime kontakta itd.) Za svaki skup podataka prikazan na Data.gov.
9. DBpedia
Kao što znate, Wikipedia je izvrstan izvor informacija. DBpedia ima za cilj dobivanje strukturiranog sadržaja iz dragocjenih informacija koje je Wikipedia stvorila.
Pomoću DBpedije možete semantički pretraživati i istraživati odnose i svojstva resursa Wikipedije. To uključuje i veze na druge srodne skupove podataka.
U skupu podataka DBpedia postoji oko 4,58 milijuna entiteta. 4,22 milijuna klasificirano je u ontologiji, uključujući 1.445.000 osoba, 735.000 mjesta, 123.000 glazbenih albuma, 87.000 filmova, 19.000 videoigara, 241.000 organizacija, 251.000 vrsta i 6000 bolesti.
Postoje oznake i sažeci za te cjeline na oko 125 jezika. Postoji 25,2 milijuna veza do slika. Postoji 29,8 milijuna veza do vanjskih web stranica.
Sve što trebate učiniti da biste koristili DBpediju je pisanje SPARQL upita protiv krajnje točke ili preuzimanjem njihovih odlagališta.
DBpedia je profitirala od nekoliko poduzeća, poput Applea (putem Sirija), Googlea (putem Freebasea i Googleovog grafikona znanja) i IBM-a (putem Watsona), a posebno njihovih prestižnih projekata povezanih s umjetnom inteligencijom.
10. freeCodeCamp Otvoreni podaci
To je zajednica otvorenog koda. Zašto je to važno jer vam omogućuje kodiranje, izradu pro bono projekata nakon neprofitnih organizacija i pronalazak posla programera.
Da bi se to dogodilo, zajednica freeCodeCamp.org svaki mjesec stavlja na raspolaganje ogromne količine podataka. Pretvorili su ga u otvorene podatke.
U ovom ćete spremištu pronaći razne stvari. Možete pronaći skupove podataka, analizu istih, pa čak i demonstracije projekata temeljenih na podacima freeCodeCamp. Također možete pronaći poveznice na vanjske projekte koji uključuju podatke freeCodeCamp.
Može vam pomoći u raznolikosti projekata i zadataka koje možda imate na umu. Bilo da se radi o web analitici, analitici društvenih medija, analizi društvenih mreža, analizi obrazovanja, vizualizaciji podataka, web razvoju na temelju podataka ili botovima, podaci koje nudi ova zajednica mogu biti izuzetno korisni i učinkoviti.
11. Yelp otvoreni skupovi podataka
Skup podataka Yelp u osnovi je podskup ničega osim vlastitog poslovanja, recenzija i korisničkih podataka za upotrebu u osobnim, obrazovnim i akademskim aktivnostima.
U Yelp Open Dataset nalazi se 5.996.996 recenzija, 188.593 poduzeća, 280.991 slika i 10 gradskih područja.
Možete ih koristiti u različite svrhe. Budući da su dostupne kao JSON datoteke, možete ih koristiti kako biste učenike podučavali o bazama podataka. Pomoću njih možete naučiti NLP ili za uzorkovanje proizvodnih podataka dok razumijete kako dizajnirati mobilne aplikacije.
U ovom skupu podataka pronaći ćete svaku datoteku koja se sastoji od jednog tipa objekta, jednog JSON-objekta po liniji.
12. UNICEF-ov skup podataka
Budući da se UNICEF bavi širokim spektrom kritičnih pitanja, prikupio je relevantne podatke o obrazovanju, dječjem radu, dječjem invaliditetu, dječjoj smrtnosti, majčinoj smrtnosti, vodi i sanitarijama, maloj rođenoj masi, antenatalnoj njezi, upali pluća, malariji, nedostatku joda poremećaj, sakaćenje / rezanje ženskih spolnih organa i adolescenti.
Otvoreni UNICEF-ovi skupovi podataka objavljeni u registru IATI: //www.iatiregistry.org/publisher/unicef izvučeni su izravno iz UNICEF-ovog operativnog sustava (VISION) i drugih podatkovnih sustava, a odražavaju ulaze pojedinih UNICEF-ovih ureda.
Dobra stvar je što se redovno ažurira kada je riječ o tim skupovima podataka. Svaki se mjesec podaci ažuriraju kako bi bili sveobuhvatniji, pouzdaniji i točniji.
Ovim podacima možete slobodno i lako pristupiti. Da biste to učinili, ove podatke možete preuzeti u CSV formatu. Također možete pregledati uzorke podataka prije nego što ih preuzmete.
Iako svatko može istraživati i vizualizirati UNICEF-ove baze podataka, postoje tri glavna izdavača:
UNICEF-ov PORTAL PROZORNOSTI POMOĆI: Mnogo ćete lakše pristupiti skupovima podataka ako koristite ovaj portal. Također uključuje detalje za svaku zemlju u kojoj UNICEF radi.
Nakladnički d-portal: Trenutno je u BETA verziji. Pomoću ovog portala možete istraživati IATI podatke.
Možete pretraživati informacije povezane s razvojnim aktivnostima, proračunima itd. Ove podatke možete istražiti po zemljama.
Izdavačeva podatkovna platforma: Na ovoj platformi možete lako pristupiti statistikama, grafikonima i mjernim podacima o podacima kojima se pristupa putem IATI registra. Ako kliknete na zaglavlja, također možete razvrstati mnoge tablice koje vidite na platformi. Također ćete pronaći mnoge skupove podataka na platformama u strojno čitljivom JSON formatu.
13. Kaggle
Kaggle je sjajan jer promovira upotrebu različitih formata publikacija skupova podataka. Međutim, bolji je dio što snažno preporučuje izdavačima skupova podataka da dijele svoje podatke u pristupačnom, neovlaštenom obliku.
Platforma podržava otvorene i dostupne formate podataka. Važno je ne samo za pristup već i za sve što želite učiniti s tim podacima. Stoga Kaggle Dataset jasno definira formate datoteka koji se preporučuju tijekom dijeljenja podataka.
Jedinstvena stvar kod skupova podataka Kaggle je da to nije samo spremište podataka. Svaki skup podataka predstavlja zajednicu koja vam omogućuje raspravu o podacima, otkrivanje javnih kodova i tehnika te konceptualizaciju vlastitih projekata u jezgri.
CSV, JSON, SQLite, Archive, Big Query itd. Vrste su datoteka koje Kaggle podržava. Možete pronaći razne resurse kako biste započeli raditi na projektu otvorenih podataka.
Najbolje je to što vam Kaggle omogućuje objavljivanje i dijeljenje skupova podataka privatno ili javno.
14. LODUM
Inicijativa je to za otvorene podatke Sveučilišta u Münsteru. U okviru ove inicijative svima je omogućen pristup bilo kojim javnim informacijama o sveučilištu u strojno čitljivim formatima. Možete mu lako pristupiti i ponovno ga koristiti prema vašim potrebama.
Otvoreni podaci o znanstvenim artefaktima i kodirani kao povezani podaci dostupni su u okviru ovog projekta.
Uz pomoć povezanih podataka moguće je dijeliti i koristiti podatke, ontologije i razne standarde metapodataka. Zapravo se predviđa da će to biti prihvaćeni standard za pružanje metapodataka i samih podataka na Webu.
Tim LODUM-a suorganizator je LinkedUniversities.org i LinkedScience.org.
Za analizu podataka možete koristiti SPARQL editor ili SPARQL paket R.
SPARQL paket omogućuje spajanje na SPARQL krajnju točku preko HTTP-a, postavljanje SELECT upita ili upita za ažuriranje (LOAD, INSERT, DELETE).
15. UCI spremište za strojno učenje
Služi kao sveobuhvatno spremište baza podataka, teorija domena i generatora podataka koje zajednica strojnog učenja koristi za empirijsku analizu algoritama strojnog učenja.
U ovom spremištu trenutno se nalazi 463 skupa podataka kao usluga zajednici strojnog učenja.
Centar za strojno učenje i inteligentne sustave na Kalifornijskom sveučilištu u Irvineu je domaćin i održava ga. David Aha izvorno ga je stvorio kao apsolvent na UC Irvine.
Od tada ga studenti, nastavnici i istraživači širom svijeta koriste kao pouzdan izvor podataka o strojnom učenju.
Način funkcioniranja je da svaki skup podataka ima svoju zasebnu web stranicu koja sadrži sve poznate detalje, uključujući relevantne publikacije koje ga istražuju. Te skupove podataka možete preuzeti kao ASCII datoteke, često korisni CSV format.
Pojedinosti skupova podataka sažete su po aspektima poput vrsta atributa, broja primjeraka, broja atributa i objavljene godine koje se mogu sortirati i pretraživati.
Portali otvorenih podataka i pretraživači:
Iako svake godine brojne agencije objavljuju mnoštvo podataka, vrlo mali broj skupova podataka postaje prepoznat i uspostavljen.
Razlog zašto vrlo malo takvih skupova podataka održava kao koristan resurs je taj što je izazov razviti, upravljati i pružati podatke na način da ljudi i organizacije smatraju da su korisni i jednostavni za upotrebu.
Međutim, dolje pronađite popis ostalih nekoliko važnih portala i platformi otvorenih podataka koji korisnicima omogućuju prilično jednostavan pristup otvorenim podacima, proučavanje utjecaja i prikupljanje dragocjenih spoznaja.
- Google pretraživanje podataka
- Dataverse
- Otvorite komplet podataka
- Ckan
- Otvorite Monitor podataka
- Plenar.io
- Otvori mapu utjecaja podataka
Zaključak
Otvoreni podaci su redoslijed dana. Svijet se postupno počeo kretati prema otvorenim sustavima i otvoreni podaci s tim su u skladu.
Posao i organizacije koji koriste otvorene podatke dobit će konkurentsku prednost i moći će dominirati u budućnosti.