Quina diferència hi ha entre dades grans, gran conjunt de dades, flux de dades i dades de streaming?


Resposta 1:
  • "Big data" és una paraula clau de negoci que es fa servir per referir-se a aplicacions i contextos que produeixen o consumeixen grans conjunts de dades. Una bona definició d'un "gran conjunt de dades" és: si intenteu processar de forma ingènua un conjunt de dades, encara funcionarà . Si intenteu processar de forma ingènua un conjunt de dades, es requereixen ordres de magnitud més llargues que acceptables (i possiblement també esgotareu els vostres recursos informàtics). Per exemple, un dels conceptes bàsics de "big data" és conegut com MapReduce: un model de programació paral·lela on es divideixen les dades de conjunts en fragments més petits i, a continuació, tenen treballs / "treballadors" separats que processen les dades i després es tornen a dividir. junts. Si heu de fer això per fer que la vostra aplicació es pugui executar en temps acceptables, teniu un gran conjunt de dades. Si només un treball monolític pot obtenir les vostres dades en un temps raonable, no és tan gran. La definició dels temps "raonables" o "acceptables" depèn, per tant, dels requisits de la vostra aplicació. Les dades de "streaming" són dades que continuen apareixent a mesura que el processeu, al contrari de l'enfocament "més fàcil" on primer espera. fins que no tingueu el conjunt de dades complet (per exemple, emmagatzemat dins d’un fitxer o una base de dades) i el processeu. Un "flux de dades" és una abstracció per a un flux de dades que flueix contínuament. Per exemple, diguem que està supervisant les trucades telefòniques i que heu desenvolupat una xarxa neuronal per identificar-los cada vegada que algú ha dit la paraula "Al Qaeda". Una cosa és executar aquesta aplicació d’analítica en un munt de trucades pre-registrades i una altra cosa per connectar-la amb el "flux de dades" de totes les trucades que es fan actualment. Aquest últim enfocament us serà capaç de notificar-vos "en temps real", ja que algú diu la paraula màgica (digueu, de manera que podeu començar a escoltar la conversa), però és molt més propens a problemes com: si passen les paraules. a través de separats en dos trossos? Què passa si les dades entren més ràpidament que jo? Etc

Resposta 2:

Hola,

Heus aquí la meva comprensió.

Big Data: una quantitat massiva de dades estructurades, no estructurades i semi estructurades, que és un resultat del negoci digital. El Big Data és molt gran en volum, alt a velocitat i diversos tipus.

Conjunt de dades gran: pot ser un conjunt de dades que es pot gestionar per processar-lo. En un entorn de dades grans, quan diem conjunt de dades grans, fa referència a un conjunt complex de dades estructurades i no estructurades. Les aplicacions tradicionals no són adequades per processar aquests conjunts de dades.

Data Streaming: és la transferència de dades a una velocitat molt alta, però constant. En dades grans, ens referim a la transmissió de dades a un procés on es processen les dades no estructurades en temps real. El millor exemple aquí és processar els vídeos i les fotos en escenaris en temps real.

Qualsevol comentari si us plau, benvingut.