data warehouse di azure sql

Data Warehouse di Azure SQL

SQL Data Warehouse juga merupakan gudang data berbasis cloud yang menggunakan Massively Parallel Processing (MPP) untuk menjalankan kueri kompleks lintas petabyte data dengan cepat. Gunakan Gudang Data SQL sebagai bagian penting dari solusi data besar Anda.

Impor big data ke SQL Data Warehouse menggunakan kueri T-SQL PolyBase sederhana, lalu manfaatkan kekuatan MPP untuk menjalankan analisis performa tinggi. Saat Anda menganalisis dan mengintegrasikan, gudang data menjadi satu versi kebenaran yang dapat diandalkan bisnis Anda untuk wawasan.

Solusi Big Data

SQL Data Warehouse adalah bagian penting dari solusi data besar yang komprehensif di cloud. Solusi data cloud menerima data dari berbagai sumber ke gudang data besar. Begitu berada di gudang data besar, algoritme Hadoop, Spark, dan pembelajaran mesin menyiapkan dan melatih data.

Saat data siap untuk analisis kompleks, Gudang Data SQL menggunakan PolyBase untuk membuat kueri penyimpanan data besar. PolyBase menggunakan kueri T-SQL standar untuk mentransfer data ke Gudang Data SQL. Gudang Data SQL menyimpan data dalam tabel relasional dengan penyimpanan kolom.

Format ini meningkatkan kinerja kueri dan mengurangi biaya penyimpanan data. Setelah data disimpan di Gudang Data SQL, Anda dapat menjalankan analitik dalam skala besar. Dibandingkan dengan sistem database tradisional, kueri analitik berakhir dalam hitungan detik, bukan menit atau jam, bukan hari.

Hasil analisis dapat masuk ke database atau aplikasi global. Analis bisnis kemudian dapat memperoleh wawasan untuk membuat keputusan bisnis yang terinformasi dengan baik.

solusi big data warehouse

Bekerja di SQL Data Warehouse

Ini dirancang untuk implementasi gudang data tingkat industri dan menyimpan data dalam jumlah besar di cloud Microsoft Azure. Ini menggunakan tampilan berbasis SQL tunggal di penyimpanan data besar non-relasional dan basis data relasional, memungkinkan bisnis menyatukan data terstruktur, tidak terstruktur, dan streaming dalam gudang data cloud.

Pengguna dapat mengoperasikan Azure SQL Data Warehouse menggunakan SQL Server Management Studio (SSMS) atau menulis kueri menggunakan Azure Data Studio (ADS). SQL Data Warehouse menggunakan PolyBase untuk menanyakan penyimpanan data besar seperti sistem Hadoop secara langsung.

Polybase memungkinkan organisasi menggunakan kueri T-SQL standar untuk mendorong data ke Gudang Data SQL dan menyediakan satu area kueri berbasis SQL untuk semua data. itu menyimpan data dalam tabel relasional menggunakan penyimpanan kolom, yang mengurangi biaya penyimpanan data dan meningkatkan kinerja kueri.

Gudang Data SQL menggunakan arsitektur yang dapat diskalakan untuk mendistribusikan pemrosesan data ke beberapa node. Arsitektur Azure SQL Data Warehouse memisahkan komputasi dan penyimpanan, memungkinkan pengguna untuk menskalakan secara mandiri dan hanya membayar untuk pemrosesan dan penyimpanan yang dibutuhkan organisasi.

Opsi Pengoptimalan

Ini menawarkan tingkatan kinerja yang dirancang untuk fleksibilitas untuk memenuhi kebutuhan data Anda. Anda dapat memilih gudang yang dioptimalkan untuk komputasi atau elastisitas.

Lapisan kinerja Dioptimalkan untuk elastisitas memisahkan lapisan komputasi dan penyimpanan dalam arsitektur. Opsi ini unggul dalam beban kerja yang dapat memanfaatkan sepenuhnya pemisahan antara komputasi dan penyimpanan dengan sering melakukan penskalaan untuk mendukung aktivitas jangka pendek. Tingkat komputasi memiliki harga masuk dan skala terendah untuk mendukung sebagian besar beban kerja pelanggan.

Tingkat kinerja Dioptimalkan untuk daya komputasi, ia menggunakan perangkat keras Azure terbaru untuk memperkenalkan cache Disk Solid State NVMe baru yang menyimpan data yang paling sering digunakan dekat dengan prosesor, tepat di tempat yang Anda inginkan. Pelapisan penyimpanan otomatis membuat lapisan kinerja ini unggul dengan kueri kompleks karena semua I/O disimpan secara lokal ke lapisan komputasi.

Selain itu, Penyimpanan kolom ditingkatkan untuk menyimpan data dalam jumlah besar di gudang data. Ini Dioptimalkan untuk tingkat kinerja Komputasi dan memberikan tingkat skalabilitas tertinggi, memungkinkan Anda untuk menskalakan hingga 30.000 unit komputasi gudang data (cDWU).

Melakukan Operasi dan Query

Anda dapat memprioritaskan arsitektur gudang data untuk operasi tersebut jika Anda sudah mengetahui operasi utama dan kueri untuk dijalankan di gudang data Anda. Kueri dan operasi ini mungkin berisi:

  • Terapkan untuk menggabungkan satu atau dua tabel fakta dengan tabel dimensi, memfilter tabel gabungan, lalu menghubungkan hasilnya ke data mart.
  • Membuat pembaruan besar atau kecil untuk fakta penjualan.
  • Menggabungkan hanya data di tabel Anda.

Mengetahui jenis operasi terlebih dahulu akan membantu mengoptimalkan desain tabel.

Catatan

  • Anda selalu dapat Memulai dengan Round Robin tetapi menginginkan strategi distribusi hash untuk memanfaatkan arsitektur paralel yang masif.
  • Pastikan kunci hash umum memiliki format data yang sama.
  • Jangan mendistribusikan dalam format data varchar.
  • Tabel dimensi dengan kunci hash yang mirip dengan tabel fakta dengan operasi gabungan yang sering dapat didistribusikan secara hash.
  • Gunakan sys.dm_nodes_db_partition_stats untuk menganalisis setiap distorsi data.
  • Gunakan sys.dm_request_steps untuk menganalisis perpindahan data di balik permintaan dan memantau waktu siaran dan operasi acak. Ini berguna untuk memeriksa distribusi data Anda.

Partitioning

Anda dapat membagi tabel jika Anda memiliki tabel fakta yang besar (lebih dari 1 miliar baris). Dalam kasus 99 persen kasus, kunci partisi harus berbasis tanggal. Ingatlah untuk tidak mempartisi, terutama ketika Anda memiliki indeks columnstore berkerumun.

Dengan lembar kerja yang membutuhkan ELT, Anda bisa mendapatkan keuntungan dari partisi. Memfasilitasi manajemen siklus hidup data. Ingatlah untuk tidak mempartisi data Anda, terutama dalam indeks columnstore berkerumun.

Incremental Load

Jika Anda akan memuat data secara bertahap, pastikan Anda mengalokasikan kelas sumber daya yang lebih besar untuk memuat data. Kami merekomendasikan penggunaan PolyBase dan ADF V2 untuk mengotomatiskan umpan ELT Anda ke Gudang Data SQL.

Hapus data yang relevan terlebih dahulu untuk sejumlah besar pembaruan pada data historis Anda. Kemudian lakukan penyisipan massal data baru. Pendekatan dua langkah ini lebih efisien.

Simpan Statistik

Hingga statistik otomatis tersedia secara umum, Gudang Data SQL memerlukan pemeliharaan manual. Penting untuk memperbarui statistik Anda ketika ada perubahan signifikan pada data Anda. Ini membantu mengoptimalkan rencana kueri.

Jika menurut Anda perlu waktu terlalu lama untuk mempertahankan semua statistik, lebih selektif tentang kolom mana yang memuatnya. Anda juga dapat menentukan frekuensi pembaruan. Misalnya, Anda mungkin ingin memperbarui kolom tanggal setiap hari, yang mungkin ditambahkan nilai baru.

Anda akan mendapat manfaat dari memiliki statistik tentang kolom yang terlibat dalam gabungan, kolom yang digunakan dalam klausa WHERE, dan kolom yang ditemukan dalam GROUP BY.

Resource Class

SQL Data Warehouse menggunakan grup sumber daya untuk mengalokasikan memori untuk kueri. Anda harus mengalokasikan kelas sumber daya yang lebih tinggi jika Anda membutuhkan lebih banyak memori untuk meningkatkan kecepatan polling atau pemuatan.

Di sisi lain, menggunakan kelas sumber daya yang lebih besar memengaruhi konkurensi. Pertimbangkan ini sebelum Anda memindahkan semua pengguna ke kelas sumber daya yang besar. Jika Anda melihat bahwa kueri memakan waktu terlalu lama, periksa apakah pengguna Anda tidak menjalankan kelas sumber daya yang besar.

Kelas sumber daya besar menggunakan banyak slot bersamaan. Mereka dapat menyebabkan kueri tambahan diantrekan. Terakhir, dengan menggunakan Tingkat Dioptimalkan Komputasi, setiap kelas sumber daya mendapatkan memori 2,5 kali lebih banyak daripada Tingkat Dioptimalkan Elastis.

Kurangi Biaya Anda

Fitur utama Gudang Data SQL adalah kemampuan untuk menjeda saat tidak digunakan, yang menghentikan biaya sumber daya komputasi. Jeda dan penskalaan dapat dilakukan melalui perintah Azure Portal atau PowerShell.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top