La ciència de dades i el big data hadoop són iguals? Hi ha alguna diferència entre ells o signifiquen el mateix?


Resposta 1:

No, definitivament no.

Permet discutir aquest problema en tres parts:

Data Science és una especialització per resoldre diferents problemes utilitzant diferents mètodes d’Estadística, Combinadora, Matemàtiques i Informàtica, etc.)

Big Data: Big data en una visió àmplia és un concepte de manejar grans dades (el terme enorme és relatiu) fora dels mètodes tradicionals.

Hadoop: Hadoop és un marc o podem dir un entorn que es pot utilitzar per gestionar i analitzar conjunts de dades enormes mitjançant diferents eines (PIG, HIVE, Scoop, Fume, etc.)

Referències:

Tutorial d’Hadoop

Ciències de dades

Dades massives


Resposta 2:

Suposo que heu pensat que "Data science" i "Big Data Hadoop" són dues coses diferents, però en realitat són tres. Data Science, Big Data i Hadoop tenen significats diferents.

Suposem que sou un estudiant de la 10a classe. Els vostres companys us han obert la feina de trobar la mitjana de notes en cada tema. Teniu 50 estudiants a la vostra classe estudiant cinc assignatures cadascun. Trobar la mitjana no és una ciència de coets, de manera que ho fas tot en un full excel. Ara el professor et demana que facis el mateix càlcul per a totes les seccions A, B i C, d’uns 150 alumnes. El full Excel torna a ser suficient. Ara voleu saber quines serien les notes mitjanes de Ciència que van obtenir els estudiants de la 10a classe de tot el país, que són al voltant de 14.31.861 estudiants el 2016. Possiblement no podeu emmagatzemar tantes dades en una fulla excel, de manera que la emmagatzemareu. en una base de dades com MySQL o Oracle. Executeu una consulta SQL per trobar la mitjana. Ara tens curiositat per conèixer la tendència de com s’han mogut les mitjanes des dels últims vint anys a la ciència per a la classe 10, que és d’uns 3000000 registres. Si trobéssiu la mitjana de les cinc assignatures i no només ciències, us faríeu servir 30000000 x 5 registres. Les dades són grans ara, que també s'anomena "Big Data".

Big Data: conjunts de dades extremadament grans que es poden analitzar computacionalment per revelar patrons, tendències i associacions, especialment relacionades amb el comportament i les interaccions humanes. - De Viquipèdia

Probablement no heu d’emmagatzemar tantes dades al MySQL o al Oracle i executar la consulta SQL en milions de registres. Mai he tractat tantes dades en una base de dades SQL, així que no comentaré el seu rendiment, però he utilitzat Hadoop per gestionar una gran quantitat de conjunts de dades, molt més gran que la base de dades dels estudiants de què parlem. Hadoop és un marc que distribueix les dades en diversos sistemes de manera que tots els sistemes puguin fer càlculs en paral·lel, augmentant així la velocitat general de càlcul, també anomenada Informàtica Distribuïda. Hadoop té el seu propi sistema d’arxius, que és un sistema d’emmagatzematge de dades per a Big Data.

La ciència de dades en termes laics és una ciència per comprendre què fer amb les dades, grans o petites. Fins ara només tractàvem de trobar la mitjana de puntuacions, però un científic de dades aniria més enllà i cercaria formes de trobar el que es pot fer amb la mitjana. Per a una organització, els ajudarà a prendre decisions empresarials i a trobar patrons que ajudessin els caps a prendre millors decisions i destinar recursos per augmentar els beneficis. La majoria de científics de dades pot inclús no utilitzar Hadoop si no es tracta de Big Data, normalment utilitzen R lang o Python per a càlculs.

El Big Data és un concepte.Hadoop és una eina. La ciència de dades és un camp de la informàtica.


Resposta 3:

Suposo que heu pensat que "Data science" i "Big Data Hadoop" són dues coses diferents, però en realitat són tres. Data Science, Big Data i Hadoop tenen significats diferents.

Suposem que sou un estudiant de la 10a classe. Els vostres companys us han obert la feina de trobar la mitjana de notes en cada tema. Teniu 50 estudiants a la vostra classe estudiant cinc assignatures cadascun. Trobar la mitjana no és una ciència de coets, de manera que ho fas tot en un full excel. Ara el professor et demana que facis el mateix càlcul per a totes les seccions A, B i C, d’uns 150 alumnes. El full Excel torna a ser suficient. Ara voleu saber quines serien les notes mitjanes de Ciència que van obtenir els estudiants de la 10a classe de tot el país, que són al voltant de 14.31.861 estudiants el 2016. Possiblement no podeu emmagatzemar tantes dades en una fulla excel, de manera que la emmagatzemareu. en una base de dades com MySQL o Oracle. Executeu una consulta SQL per trobar la mitjana. Ara tens curiositat per conèixer la tendència de com s’han mogut les mitjanes des dels últims vint anys a la ciència per a la classe 10, que és d’uns 3000000 registres. Si trobéssiu la mitjana de les cinc assignatures i no només ciències, us faríeu servir 30000000 x 5 registres. Les dades són grans ara, que també s'anomena "Big Data".

Big Data: conjunts de dades extremadament grans que es poden analitzar computacionalment per revelar patrons, tendències i associacions, especialment relacionades amb el comportament i les interaccions humanes. - De Viquipèdia

Probablement no heu d’emmagatzemar tantes dades al MySQL o al Oracle i executar la consulta SQL en milions de registres. Mai he tractat tantes dades en una base de dades SQL, així que no comentaré el seu rendiment, però he utilitzat Hadoop per gestionar una gran quantitat de conjunts de dades, molt més gran que la base de dades dels estudiants de què parlem. Hadoop és un marc que distribueix les dades en diversos sistemes de manera que tots els sistemes puguin fer càlculs en paral·lel, augmentant així la velocitat general de càlcul, també anomenada Informàtica Distribuïda. Hadoop té el seu propi sistema d’arxius, que és un sistema d’emmagatzematge de dades per a Big Data.

La ciència de dades en termes laics és una ciència per comprendre què fer amb les dades, grans o petites. Fins ara només tractàvem de trobar la mitjana de puntuacions, però un científic de dades aniria més enllà i cercaria formes de trobar el que es pot fer amb la mitjana. Per a una organització, els ajudarà a prendre decisions empresarials i a trobar patrons que ajudessin els caps a prendre millors decisions i destinar recursos per augmentar els beneficis. La majoria de científics de dades pot inclús no utilitzar Hadoop si no es tracta de Big Data, normalment utilitzen R lang o Python per a càlculs.

El Big Data és un concepte.Hadoop és una eina. La ciència de dades és un camp de la informàtica.