HomeĐời SốngApache spark là gì

Apache spark là gì

14:47, 05/04/2021
" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=665" />

Apabịt Spark


Apache Spark in-memory clusters đang là tiêu điểm chăm chú của đa số công ty lớn trong vấn đề ứng dụng công nghệ vào so với với cách xử trí dữ liệu mau lẹ. Trong bài viết này, tôi sẽ trình diễn một tranh ảnh tổng quan lại độc nhất vô nhị về Apađậy Spark, một trong số những gỉai pháp đòi hỏi nên gồm khi mong muốn giải pháp xử lý Big data.

Bạn đang xem: Apache spark là gì


Tổng quan lại về Spark

Apađậy Spark là 1 open source cluster computing framework được cải cách và phát triển sơ khởi vào năm 2009 vì chưng AMPLab tại ĐH California, Berkeley. Sau này, Spark đã có được trao mang lại Apabịt Software Foundation vào năm 2013 với được cách tân và phát triển cho đến lúc này.

Spark chất nhận được xây đắp cùng phân tích nhanh khô những quy mô dự đoán thù. Nhiều hơn, nó còn hỗ trợ kĩ năng truy hỏi xuất toàn cục dữ liệu cùng lúc, nhờ vào vậy ta không cần phải đem mẫu mã tài liệu – yên cầu vị các ngôn từ lập trình sẵn nhỏng R. Thêm vào đó, Spark còn cung cấp tuấn kiệt streaming, được dùng để làm gây ra các quy mô real-time bằng cách hấp thụ toàn bộ tài liệu vào bộ nhớ.

lúc ta bao gồm một tác vụ như thế nào đó qúa béo mà lại thiết yếu cách xử trí bên trên một laptop hay một hệ thống, Spark chất nhận được ta phân chia tác vụ này thành gần như phần dễ dàng quản lý rộng. Sau kia, Spark sẽ chạy các tác vụ này trong bộ nhớ lưu trữ, bên trên các cluster của khá nhiều VPS khác biệt để khai quật vận tốc tróc nã xuất nkhô hanh từ bỏ RAM. Spark áp dụng API Resilient Distributed Dataphối (RDD) nhằm cách xử lý dữ liệu.


" data-medium-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=665" />

spark-mesos


Spark dấn được không ít sự hưởng trọn ứng trường đoản cú cộng đồng Big data bên trên thế giới bởi cung cấp kĩ năng tính tân oán nhanh khô với những thỏng viện đi kèm theo có lợi nhỏng Spark Squốc lộ (với giao diện dữ liệu DataFrames), Spark Streaming, MLlib (machine learning: classification, regression, clustering, collaborative sầu filtering, và dimensionality reduction) với GraphX (màn biểu diễn vật thị nhờ vào kết qủa tính tân oán song song).


" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=588" />

Apađậy Spark components


Những điểm lưu ý gía ko kể vận tốc tính toán nhanh

Sự đối kháng gỉan: trong số những chỉ trích hay gặp gỡ sinh sống Hadoop đó là sự phức hợp trong qúa trình cải tiến và phát triển, mặc dù đây là một giữa những cách thức tính tân oán đơn gỉan với hiệu qủa gíup tăng vận tốc cách xử trí của khối hệ thống. Ttốt vày đòi hỏi người tiêu dùng buộc phải hiểu rẽ ròi về MapReduce với xây dựng Java, Spark sinh ra nhằm gíup số đông người tiếp cận cùng với technology tính tân oán tuy nhiên tuy vậy tiện lợi rộng không ít. Người dùng chỉ cần một vài ba kiến thức và kỹ năng cơ phiên bản về database cùng cùng với lập trình sẵn Pyhạn hẹp hay Scala là hoàn toàn có thể áp dụng được.

Xem thêm: Xerath Mid Mùa 8 - Xerath Mùa 11: Bảng Ngọc, Cách Lên Đồ Xerath

Độc lập cùng với các công ty cung cấp dịch vụ Hadoop: Hầu không còn những nhà cung cấp hình thức Hadoop những cung ứng Spark. Điều này có nghĩa Spark không phụ thuộc vào những bên hỗ trợ này. Nếu bạn muốn biến hóa đơn vị hỗ trợ hình thức, ta chỉ cần đem hệ thống Spark qua nhà hỗ trợ mới cơ mà không lúng túng Việc mất non lên tiếng.

Một vài những thống kê thụ vị

62% số người điều tra khảo sát sử dụng Spark với HDFS, 46% sử dụng cùng với những hệ quản ngại trị CSDL nlỗi Cassandra, HBase, Hive, Tachyon, 41% đang sử dụng với Kafka, và 29% sẽ sử dụng thuộc Amazon S3.Đối với hệ quản lí trị cluster, 56% đang chạy chủ quyền Spark, 42% sử dụng YARN, với 26% thực hiện Apabịt Mesos.Đối với ngôn từ xây dựng, 88% thực hiện Scala, 44% sử dụng Java, và 22% sử dụng Pynhỏ bé.Mức độ quyên tâm của doanh nghiệp về Spark: 91% về tốc độ tính toán, 77% về vấn đề dễ dàng xây dựng, 71% về bài toán dễ dàng phát triển, 64% về các dụng cụ đối chiếu tài liệu tiên tiến, 52% về real-time streaming.Sử dụng Spark trên 206 khối hệ thống EC2 để sắp xếp 100TB tài liệu chỉ tốn 23 phút ít. Trong khi đó, kỉ lục trước đây bên trên Hadoop thực hiện MapReduce trên 2,100 máy tính nên tiêu tốn 72 phút. Điều này có nghĩa rằng Spark sắp xếp dữ liệu nhanh hao vội vàng 3 lần Hadoop mà chỉ sử dụng ít hơn 10 lần số laptop.Các yếu tắc được áp dụng vào Spark: 69% thực hiện Spark Squốc lộ, 62% thực hiện Dataframes, 58% áp dụng MLib + GraphX, 58% sử dụng Streaming.
" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=665&h=375" />Top 10 industries using spark" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=665&h=514" />Shark vs SparkSQLKết luận

Đối cùng với những bên cung cấp gỉai pháp, Apache Spark là 1 lá bài đặc trưng vào bài toán sử dụng các technology chủ quản nhằm thiết kế đông đảo data warehouses tiến bộ. Đây là 1 trong phân khúc thị phần phệ trong nghề IT có tác dụng bỏ túi hàng tỉ đô lệch giá từng năm.

Spark giới thiệu một có mang new mang những có tương lai sau này sẽ là data lakes. Đây là một nơi tàng trữ một lượng dữ liệu to con với khá nhiều định dạng khác nhau cùng được truy nã vấn để cách xử lý khi quan trọng. Data lakes đưa ra một framework tmùi hương mại có thể tạo nên một môi trường xung quanh tàng trữ vô hạn ngẫu nhiên các loại dữ liệu làm sao.

Spark Demo


Danh mục Khái niệm Thẻ apache spark,big data Để lại comment Điều phía bài bác viết
Hadoop là gì
Google File System – Tìm gọi về kiểu cách cai quản cửa hàng tài liệu của Google

Viết một phản hồi Hủy

Bình luận

TênTlỗi năng lượng điện tửTrang web

Lưu tên của mình, gmail, và trang web trong trình chu đáo này cho lần bình luận tiếp nối của tớ.


Tìm kiếm cho:
Hành Trang Lập Trình

Thẻ


.htaccess.net coreangularangular cliangularjsapabịt sparkAWSAWS LambdaBAbig dataBootstrapBootstrap 4Business AnalystCC#C++ccucloud computingCSSDapperelasticsearchgitgithubHadoopHọc lập trìnhJavajavascriptLập trình gameLập trình webNgôn ngữ lập trìnhNgôn ngữ xây dựng webNodeJSNPMOwnCloudphppythonReactJSReact Nativesearch engineServerlessswiftTrí tuệ nhân tạotypescriptTự học Lập trìnhwordpress
*
Đây là CMS bởi vì thiết yếu tôi code, Ko sử dụng Wordpress, Ko PHP., không dính vi khuẩn, CLOUD cùng kiến tạo web chỉ sử dụng kéo thả, CSS ...