• news_banner

Servis

Mehanizam za čišćenje Spark Streaming podataka
(I) DStream i RDD
Kao što znamo, Spark Streaming računanje je bazirano na Spark Core, a jezgro Spark Core je RDD, tako da Spark Streaming mora biti povezan i sa RDD.Međutim, Spark Streaming ne dozvoljava korisnicima da direktno koriste RDD, već apstrahuje skup DStream koncepata, DStream i RDD su inkluzivni odnosi, možete to shvatiti kao šablon dekoracije u Javi, odnosno, DStream je poboljšanje RDD-a, ali ponašanje je slično RDD.
DStream i RDD imaju nekoliko uslova.
(1) imaju slične akcije transformacije, kao što su mapa, reduceByKey, itd., ali i neke jedinstvene, kao što su Window, mapWithStated, itd.
(2) svi imaju akcije akcije, kao što su foreachRDD, count, itd.
Model programiranja je konzistentan.
(B) Uvođenje DStream-a u Spark Streaming
DStream sadrži nekoliko klasa.
(1) Klase izvora podataka, kao što je InputDStream, specifične kao DirectKafkaInputStream, itd.
(2) Klase konverzije, tipično MappedDStream, ShuffledDStream
(3) izlazne klase, obično kao što je ForEachDStream
Iz navedenog, podatke od početka (unosa) do kraja (izlaza) vrši DStream sistem, što znači da korisnik normalno ne može direktno da generiše i manipuliše RDD-ovima, što znači da DStream ima mogućnost i obavezu da bude odgovoran za životni ciklus RDD-ova.
Drugim riječima, Spark Streaming imaautomatsko čišćenjefunkcija.
(iii) Proces generisanja RDD-a u Spark Streamingu
Životni tok RDD-ova u Spark Streamingu je grub kako slijedi.
(1) U InputDStream, primljeni podaci se transformišu u RDD, kao što je DirectKafkaInputStream, koji generiše KafkaRDD.
(2) zatim kroz MappedDStream i druge konverzije podataka, ovo vrijeme se direktno naziva RDD što odgovara metodi mape za konverziju
(3) U operaciji izlazne klase, samo kada je RDD izložen, možete dopustiti korisniku da izvrši odgovarajuće skladištenje, druge proračune i druge operacije.