Spark Streaming vs Flink vs Storm vs Kafka Streams vs Samza : Vælg din Stream Processing Framework

Leveringsgarantier :
Det betyder, hvad der er garantien for, at uanset hvad, vil en bestemt indgående post i en streaming-motor blive behandlet. Det kan være enten Atleast-once (vil blive behandlet mindst én gang, selv i tilfælde af fejl) , Atmost-once (må ikke blive behandlet i tilfælde af fejl) eller Exactly-once (vil blive behandlet én og præcis én gang, selv i tilfælde af fejl) . Det er klart, at Exactly-once er ønskeligt, men det er svært at opnå i distribuerede systemer, og der skal indgås kompromiser med ydeevnen.

Fejltolerance:
I tilfælde af fejl som f.eks. knudefejl, netværksfejl osv. skal rammen kunne genoprette sig selv og starte behandlingen igen fra det punkt, hvor den forlod den. Dette opnås gennem checkpointing af tilstanden af streaming til nogle vedvarende lagerplads fra tid til anden. f.eks. checkpointing kafka offsets til zookeeper efter at have fået record fra Kafka og behandle det.

State Management :
I tilfælde af stateful behandlingskrav, hvor vi har brug for at opretholde nogle tilstand (e.f.eks. tæller af hvert særskilt ord, der ses i poster), bør rammen være i stand til at levere en mekanisme til at bevare og opdatere tilstandsoplysninger.

Ydeevne :
Dette omfatter latenstid (hvor hurtigt en post kan behandles), gennemløb (poster behandlet/sekund) og skalerbarhed. Latency bør være så lille som muligt, mens throughput bør være så stor som muligt. Det er svært at få begge dele på samme tid.

Avancerede funktioner : Event Time Processing, Watermarks, Windowing
Dette er funktioner, der er nødvendige, hvis kravene til stream processing er komplekse. For eksempel behandling af poster baseret på det tidspunkt, hvor de blev genereret ved kilden (event time processing). Hvis du vil vide mere i detaljer, kan du læse disse must-read indlæg af Google-fyren Tyler Akidau : part1 og part2.

Maturitet :
Vigtigt fra adoptionssynspunktet, det er rart, hvis rammen allerede er afprøvet og kampafprøvet i skala af store virksomheder. Større sandsynlighed for at få god community support og hjælp på stackoverflow.

Virtual world

Spark Streaming vs Flink vs Storm vs Kafka Streams vs Samza : Vælg din Stream Processing Framework

Skriv et svar Annuller svar

Seneste indlæg