• news_banner

Usluga

Mehanizam čišćenja podataka Spark Streaminga
(I) DStream i RDD
Kao što znamo, izračunavanje Spark Streaminga zasnovano je na Spark Core-u, a jezgro Spark Core-a je RDD, tako da Spark Streaming mora biti povezan i sa RDD-om. Međutim, Spark Streaming ne dozvoljava korisnicima da direktno koriste RDD, već apstrahuje skup DStream koncepata. DStream i RDD su inkluzivni odnosi, možete ih shvatiti kao obrazac dekoracije u Javi, odnosno, DStream je poboljšanje RDD-a, ali ponašanje je slično RDD-u.
I DStream i RDD imaju nekoliko uslova.
(1) imaju slične transformacijske akcije, kao što su map, reduceByKey, itd., ali i neke jedinstvene, kao što su Window, mapWithStated, itd.
(2) sve imaju akcije, kao što su foreachRDD, count itd.
Programski model je konzistentan.
(B) Uvođenje DStream-a u Spark Streaming
DStream sadrži nekoliko klasa.
(1) Klase izvora podataka, kao što je InputDStream, specifične kao DirectKafkaInputStream, itd.
(2) Klase konverzije, obično MappedDStream, ShuffledDStream
(3) izlazne klase, obično kao što su ForEachDStream
Iz navedenog, podatke od početka (ulaza) do kraja (izlaza) obrađuje DStream sistem, što znači da korisnik obično ne može direktno generirati i manipulirati RDD-ovima, što znači da DStream ima priliku i obavezu da bude odgovoran za životni ciklus RDD-ova.
Drugim riječima, Spark Streaming imaautomatsko čišćenjefunkcija.
(iii) Proces generiranja RDD-a u Spark Streamingu
Životni tok RDD-ova u Spark Streamingu je otprilike sljedeći.
(1) U InputDStream-u, primljeni podaci se transformišu u RDD, kao što je DirectKafkaInputStream, koji generiše KafkaRDD.
(2) zatim putem MappedDStream i drugih konverzija podataka, ovo vrijeme se direktno naziva RDD što odgovara metodi mapiranja za konverziju
(3) U operaciji izlazne klase, samo kada je RDD izložen, možete dozvoliti korisniku da izvrši odgovarajuće pohranjivanje, druge proračune i druge operacije.