SQL Flashcards

Question

Dimensional Model là gì ?

Answer 1

📌 Khái niệm * **Fact Table (Bảng sự kiện):** Chứa dữ liệu cần phân tích như doanh thu, số lượng bán. Mỗi dòng đại diện cho một sự kiện kinh doanh cụ thể. * **Dimension Table (Bảng chiếu):** Chứa thông tin bổ sung cho fact table, mô tả ngữ cảnh như thời gian, sản phẩm, khách hàng, địa điểm... --- 🧭 Phân loại Schema 🌟 Star Schema * Fact table ở trung tâm, các dimension table xung quanh → tạo hình ngôi sao. * Mô hình đơn giản, dễ hiểu. * Truy vấn nhanh, tối ưu cho hệ thống phân tích (OLAP). --- ❄️ Snowflake Schema * Là biến thể của Star Schema. * Các dimension table được chuẩn hóa thêm, chia nhỏ và liên kết qua nhiều bảng phụ. **Ưu điểm:** * Giúp giảm dư thừa dữ liệu. * Phù hợp với hệ thống cần chuẩn hóa cao và quản lý dữ liệu phức tạp. **Nhược điểm:** * Làm truy vấn trở nên phức tạp hơn. * Có thể gây khó khăn khi xây dựng dashboard hoặc cho người không chuyên. --- ⚙️ Ưu điểm của Dimensional Model * Thiết kế đơn giản, dễ hiểu. * Tối ưu hóa hiệu suất truy vấn và phân tích. * Phù hợp với người dùng không chuyên kỹ thuật (analyst, marketing...). --- 🧠 So sánh với Entity-Relationship Model * **Dimensional Model:** Dùng trong các hệ thống phân tích dữ liệu. Biểu diễn dữ liệu dưới dạng fact và dimension, rất thân thiện với người dùng phân tích. * **ER Model:** Biểu diễn dữ liệu dưới dạng thực thể (entities), thuộc tính (attributes) và mối quan hệ (relationships). Thường dùng trong hệ thống giao dịch (OLTP), yêu cầu logic nghiệp vụ phức tạp. --- 📌 Ghi nhớ nhanh * **Star Schema:** Truy vấn nhanh, dễ hiểu, không chuẩn hóa, dùng tốt cho dashboard và báo cáo. * **Snowflake Schema:** Chuẩn hóa hơn, ít dư thừa, nhưng truy vấn chậm hơn, phức tạp hơn.

Answer 2

**Slow Changing Dimension (SCD)** là kỹ thuật lưu trữ dữ liệu cho các thuộc tính (dimension) trong kho dữ liệu (Data Warehouse) mà giá trị có thể thay đổi từ từ theo thời gian (ví dụ: địa chỉ khách hàng, chức vụ nhân viên…). * 🧠 Mục tiêu chính: Giữ lại lịch sử thay đổi để phục vụ phân tích dữ liệu theo từng thời điểm khác nhau. --- 🎯 2. Mục đích của SCD * 📜 **Lưu giữ lịch sử thay đổi:** Biết được một thuộc tính đã thay đổi ra sao qua các thời kỳ. * ⏳ **Phân tích dữ liệu theo thời điểm:** Trả lời câu hỏi như "Khách hàng này vào năm 2020 ở đâu?" * 🛡️ **Đảm bảo tính toàn vẹn dữ liệu:** Tránh mất mát dữ liệu cũ khi có cập nhật mới. --- 🧩 3. Các loại SCD phổ biến 🔁 SCD Type 1 – Ghi đè dữ liệu cũ * 🛠️ **Cách hoạt động:** Ghi đè dữ liệu mới lên dữ liệu cũ. Không lưu lịch sử. * ✅ **Ưu điểm:** Đơn giản, tiết kiệm không gian lưu trữ. * ⚠️ **Nhược điểm:** Mất toàn bộ lịch sử thay đổi. * 📌 **Ví dụ:** Cập nhật số điện thoại khách hàng – chỉ cần lưu thông tin mới nhất. 🧾 SCD Type 2 – Lưu chi tiết lịch sử * 🛠️ **Cách hoạt động:** Mỗi lần thay đổi, tạo một bản ghi mới. Lưu thời gian hiệu lực (start\_date, end\_date). * ✅ **Ưu điểm:** Lưu trữ đầy đủ lịch sử, hỗ trợ phân tích theo thời gian. * ⚠️ **Nhược điểm:** Bảng dữ liệu lớn, truy vấn phức tạp hơn. * 📌 **Ví dụ:** Theo dõi lịch sử địa chỉ khách hàng. 🧭 SCD Type 3 – Lưu một phần lịch sử * 🛠️ **Cách hoạt động:** Lưu giá trị hiện tại và giá trị trước đó trong 2 cột riêng biệt. * ✅ **Ưu điểm:** Đơn giản, dễ truy vấn. * ⚠️ **Nhược điểm:** Chỉ lưu được 1–2 lần thay đổi gần nhất. * 📌 **Ví dụ:** Lưu địa chỉ hiện tại và địa chỉ trước đó của khách hàng. --- 🧪 4. Ứng dụng thực tế và lưu ý khi triển khai 🚀 Ứng dụng thực tế: * 📊 Báo cáo lịch sử: Xem lại thông tin khách hàng, nhân viên theo thời điểm. * 📈 Phân tích hành vi: Theo dõi xu hướng thay đổi của người dùng hoặc thị trường. * 📝 Hỗ trợ kiểm toán: Lưu vết thay đổi dữ liệu phục vụ compliance. ⚙️ Lưu ý triển khai: * 🎯 Chọn đúng loại SCD theo yêu cầu nghiệp vụ. * 🔐 Thiết kế khóa chính/phụ rõ ràng (sử dụng surrogate key cho SCD2). * ⏱️ Quản lý thời gian hiệu lực bằng start\_date, end\_date hoặc flag `is_current`. * 📉 Tối ưu truy vấn dữ liệu lịch sử để tránh giảm hiệu năng. --- 🧰 5. Công cụ và kỹ thuật hỗ trợ * 🧑‍💻 **SQL (MERGE, UPSERT):** Hỗ trợ cập nhật/chèn dữ liệu theo logic SCD. * 🔄 **ETL Tools:** Informatica, Talend, SSIS, Apache NiFi – tự động hóa cập nhật SCD. * 🏗️ **Data Modeling Tools:** PowerDesigner, ER/Studio – thiết kế bảng dimension theo chuẩn SCD.

Answer 3

🔒 **Exclusive Lock (Khóa độc quyền)** * ✅ **Dùng khi:** Cần **ghi dữ liệu** (WRITE). * ⛔ **Chặn hết** transaction khác: Không ai được đọc hay ghi. * 📌 **Chỉ 1 transaction** được phép giữ khóa tại một thời điểm. * 🧠 **Ứng dụng:** Cập nhật số dư tài khoản, thay đổi thông tin người dùng… 🔍 **Ví dụ:** Transaction T1 đặt `exclusive lock` để cập nhật dòng `user_id=42` → T2 muốn đọc dòng đó sẽ **bị chặn** đến khi T1 commit hoặc rollback. --- 👥 **Shared Lock (Khóa chia sẻ)** * ✅ **Dùng khi:** Chỉ cần **đọc dữ liệu** (READ). * 🤝 **Cho phép nhiều** transaction cùng đọc một lúc. * ⛔ **Chặn ghi**, không ai được update/insert/delete trong thời gian khóa tồn tại. * 🧠 **Ứng dụng:** Truy vấn báo cáo, kiểm tra thông tin sản phẩm… 🔍 **Ví dụ:** T1 và T2 cùng đọc dòng `product_id=7` → OK. Nhưng nếu T3 muốn cập nhật giá sản phẩm → **bị chặn** đến khi các shared lock được giải phóng. --- ⚔️ **Deadlock (Khóa chết)** * ❗ **Hiện tượng:** 2 (hoặc nhiều) transaction **giữ khóa nhau và chờ nhau mãi mãi** → không ai nhúc nhích được. * 🔄 **Mô hình:** Gọi là vòng chờ tài nguyên (wait-for cycle). * 🧨 **Hậu quả:** Hệ thống **treo cứng**, phải có cơ chế **phát hiện và huỷ bỏ** 1 bên để phá deadlock. 🔍 **Ví dụ kinh điển:** * T1: giữ khóa bảng A → đòi thêm B * T2: giữ khóa bảng B → đòi thêm A → **Deadlock xảy ra** vì ai cũng chờ ai. --- 🛡️ Mẹo tránh Deadlock * 🔁 **Truy cập tài nguyên theo thứ tự cố định** (A rồi B, không đảo lộn). * 🧺 **Gộp truy vấn batch** để giảm số lần lock. * ⏱️ **Giữ khóa trong thời gian ngắn nhất có thể**. * 🚫 **Tránh vòng chờ**, ví dụ: không cập nhật nhiều bảng trong 1 transaction khi không cần thiết. --- Nếu muốn học thuộc nhanh, hãy nhớ 3 câu chốt: > 🔒 **Exclusive lock** là “một mình tao làm, cấm đứa nào chạm”. > 👥 **Shared lock** là “tụi mình cùng đọc, nhưng đừng ai sửa”. > ⚔️ **Deadlock** là “tao chờ mày – mày chờ tao – cùng chết”.

Answer 4

Giải thích dễ hiểu – dễ nhớ – vẫn technical nhé: --- 🔐 **Row-level Lock vs Table-level Lock** Đây là **cách mà hệ quản trị CSDL khóa dữ liệu khi một transaction đang chạy**. Khóa có thể áp dụng ở **mức dòng (row)** hoặc **mức bảng (table)**. --- 🧩 **Row-level Lock (Khóa mức dòng)** * 🔹 **Khóa từng dòng** dữ liệu cụ thể. * 🔹 Cho phép nhiều transaction cùng **truy cập vào bảng**, **chỉ cần khác dòng**. * ✅ **Ưu điểm:** **Concurrency cao**, phù hợp với hệ thống có nhiều người dùng cùng lúc (OLTP). * ❌ **Nhược điểm:** Cần quản lý nhiều khóa → tốn RAM và phức tạp hơn. 🔍 **Ví dụ:** ```sql UPDATE customers SET status = 'VIP' WHERE id = 123; ``` → Chỉ **dòng có id=123** bị khóa → transaction khác vẫn có thể truy cập các dòng khác. --- 📄 **Table-level Lock (Khóa mức bảng)** * 🔸 **Khóa toàn bộ bảng**, dù chỉ đọc/ghi một dòng. * ⛔ Các transaction khác **không thể đọc/ghi** bất kỳ dòng nào trong bảng đó. * ✅ **Ưu điểm:** **Quản lý đơn giản**, ít tốn tài nguyên. * ❌ **Nhược điểm:** **Concurrency thấp**, dễ gây nghẽn nếu có nhiều transaction. 🔍 **Ví dụ:** ```sql LOCK TABLE customers IN EXCLUSIVE MODE; ``` → **Toàn bộ bảng `customers` bị khóa** → không ai khác được đọc hay ghi. --- 🧠 Mẹo học thuộc: > 🔹 **Row-level lock** = khóa "có chọn lọc", nhiều người làm việc song song. > 🔸 **Table-level lock** = khóa "cả phòng", ai cũng phải chờ. --- Nếu đang xây hệ thống **hiệu năng cao** (như ngân hàng, e-commerce), dùng **row-level**. Nếu xử lý **batch, báo cáo lớn**, không cần concurrency → **table-level** đơn giản hơn.

SQL Flashcards

(28 cards)