SQL Flashcards

Question

Как найти накопленную сумму?

Answer 1

SELECT date, amount, SUM(amount) OVER (ORDER BY date) AS cumulative_sum FROM Sales;

Answer 2

COUNT(*) – считает все строки COUNT(column) – считает строки с не-NULL значениями в указанном столбце

Answer 3

Индекс, содержащий все поля, необходимые для запроса, что позволяет избежать чтения самой таблицы: -- Создание покрывающего индекса CREATE INDEX idx_cover ON Orders (customer_id, order_date, amount); -- Запрос использует только индекс SELECT customer_id, order_date, amount FROM Orders WHERE customer_id = 123;

Answer 4

-- MySQL EXPLAIN SELECT * FROM Employees WHERE department_id = 5; -- PostgreSQL EXPLAIN ANALYZE SELECT * FROM Employees WHERE department_id = 5; -- SQL Server SET SHOWPLAN_TEXT ON; GO SELECT * FROM Employees WHERE department_id = 5;

Answer 5

1) При использовании функций над полями, если нет функционального индекса: WHERE UPPER(name) = 'ИВАН' 2) При условиях (когда отбирается >15-20% данных) 3) При маленьких таблицах 4) При оператарах, которые делают полную выборку данных (not in, not exists, not like)

Answer 6

Статистика запросов — это набор данных о таблицах и колонках (количество строк, уникальность значений, гистограммы, частоты), которые оптимизатор использует для построения оптимального плана выполнения запроса. На основе статистики оптимизатор решает: 1) какие индексы использовать, 2) какой порядок join выбрать, 3) какие таблицы читать первыми, 4) как оценить селективность условий.

Answer 7

Индекс по нескольким столбцам, эффективный для запросов с префиксными полями (первой частью): -- Создание индекса CREATE INDEX idx_composite ON Employees (department_id, salary); -- Эффективные запросы SELECT * FROM Employees WHERE department_id = 5; SELECT * FROM Employees WHERE department_id = 5 AND salary > 50000; -- Неэффективные запросы SELECT * FROM Employees WHERE salary > 50000;

Answer 8

WHERE created_at > NOW() - INTERVAL '30 days'

Answer 9

SUM(amount) OVER (PARTITION BY user_id)

Answer 10

AVG(amount) OVER ( PARTITION BY user_id ORDER BY event_time RANGE BETWEEN INTERVAL '3 hours' PRECEDING AND CURRENT ROW )

Answer 11

1) Использовать индексы на полях соединения 2) Фильтровать данные до соединения (с помощью cte или подзапросов) 3) Использовать наименьшую из таблиц первой (это делается из-за того, что левая таблица загружается в память) 4) Избегать преобразования типов в условиях JOIN

Answer 12

1) Замедление операций INSERT/UPDATE/DELETE 2) Увеличение размера базы данных (памяти)

Answer 13

1( Полное резервное копирование (Full): Копирование всех данных 2) Дифференциальное (Differential): Копирование изменений с момента последнего полного бэкапа (как ком собирает данные) (быстрое восстановление, максимальная отказоустойчивость) 3) Инкрементальное (Incremental): Копирование изменений с момента последнего бэкапа любого типа (чтобы восстановить, нужно по цепочке собрать данные) (большие данные, частые бэкапы)

Answer 14

from join where group by having window functions select distinct order by limit/offset/fetch

Answer 15

WITH RECURSIVE EmployeeHierarchy AS ( -- Якорь рекурсии SELECT id, name, manager_id, 1 AS level FROM Employees WHERE manager_id IS NULL UNION ALL -- Рекурсивная часть SELECT e.id, e.name, e.manager_id, eh.level + 1 FROM Employees e JOIN EmployeeHierarchy eh ON e.manager_id = eh.id ) SELECT * FROM EmployeeHierarchy;

Answer 16

Ответ: Автоматически выполняемый код при событиях в БД: Типы по времени: BEFORE, AFTER, INSTEAD OF Типы по событию: INSERT, UPDATE, DELETE Типы по уровню: ROW-LEVEL (исполнится для каждой строки), STATEMENT-LEVEL (исполнится один раз) CREATE TRIGGER update_timestamp BEFORE UPDATE ON Orders FOR EACH ROW SET NEW.updated_at = NOW();

Answer 17

1. **Нет `RETURN`** — процедура не возвращает значение. 2. **Вызываются через `CALL`**, а не через `SELECT`. 3. **Часто изменяют данные** (`INSERT`, `UPDATE`, `DELETE`). 4. **Могут работать с транзакциями** (`COMMIT`, `ROLLBACK`) — то, чего нельзя в функциях. 5. Могут иметь **`IN`, `OUT`, `INOUT` параметры**, через которые можно передавать или получать значения.

Answer 18

Ответ: Представление, которое физически хранит результаты запроса и периодически обновляется: Ускоряет сложные запросы Требует обновления при изменении данных Полезно для отчетности и аналитики ``` -- PostgreSQL CREATE MATERIALIZED VIEW sales_summary AS SELECT product_id, SUM(amount) FROM Sales GROUP BY product_id; -- Обновление REFRESH MATERIALIZED VIEW sales_summary; ```

Answer 19

column :: int

Answer 20

До 12 версии Postgres - да, после - нет. with cte as not materialized(...)

Answer 21

CREATE INDEX index_name ON table_name (column); DROP INDEX index_name;

Answer 22

Будет использован cross join, то бишь декартовое произведение. А на практике, я проверил, будет ошибка.

Answer 23

SET enable_hashjoin = off; SET enable_nestejoin = off; SET enable_mergejoin = off;

Answer 24

Seq Scan – последовательное сканирование всей таблицы. Используется когда: * нет подходящего индекса; * условие низко-селективное (выбирается большая часть таблицы); * таблица маленькая (индекс не даёт выигрыша). Index Scan – поиск строк через индекс с последующим обращением к таблице по TID. Эффективен когда: *выбирается малая доля строк (высокая селективность); * индекс точный и хорошо подходит под условие. Недостаток: много случайных чтений (random I/O). Bitmap Index Scan + Bitmap Heap Scan – оптимизатор строит битовую карту строк, удовлетворяющих условиям, а затем читает их пачками. Используется когда: * выбирается “средний” процент строк; * несколько индексных условий AND/OR; * random I/O слишком дорогой, а пачки читать выгоднее.

Answer 25

**Hash Join** Используется, когда: - выполняется соединение по равенству (=) - индексов нет или слишком дорого их использовать - хотя бы одна сторона помещается в память (или частично) Плюсы: - быстрый при больших объёмах данных - хорошо работает параллельно - не требует индексов Минусы: - требует много памяти (work_mem) - может перейти на дисковые batch-и → это замедляет --- **Merge Join** Используется, когда: - обе таблицы отсортированы по join-ключу (или могут быть отсортированы) - join по “=”, “<”, “>”, “<=”, “>=” Плюсы: - один из самых быстрых join’ов - стабилен для больших таблиц - может быть очень эффективным при использовании индексов Минусы: - требует сортировки, если нет индекса - работает только с упорядочиваемыми условиями --- **Nested Loop** Используется, когда: - одна таблица маленькая (малое количество строк) - по второй можно быстро искать через индекс Плюсы: - лучший выбор при высокоселективном запросе - быстрый, когда индекс хороший Минусы: - без индекса — может работать очень медленно - не оптимален для больших выборок

Answer 26

1) B-tree - почти всегда используется 2) Hash - работает только с операциями (=). Редка используется, почти всегда B-tree 3) Gin - для поиска в тексте в таких операциях как like, rglike

Answer 27

Селективность — это доля строк таблицы, которые соответствуют условию фильтра или join’а. Оптимизатор PostgreSQL использует селективность для оценки стоимости плана (`cost`) и выбора оптимального способа доступа к данным. Например: - высокая селективность (мало строк) → выгодно использовать Index Scan или Nested Loop, - низкая селективность (много строк) → лучше Seq Scan или Hash Join. Если статистика устарела или неточная, оптимизатор может выбрать неоптимальный план.

Answer 28

Позволяет вывести одну первую запись для группы. Аналог: select user_id, max(amout) from users group by user_id;

Answer 29

``` select * from table_name t1 join table_name t2 on t1.id = t2.id; ```

Answer 30

FLOOR(column) Просто округлять round(column, 2) Важно: column должно быть numeric

Answer 31

Нужно использовать left join на все айдюки

Answer 32

Fact tables - центральные таблицы, хранят внешние ключи на dimension table. Dimension tables - таблицы измерений, хранят основную информацию о объектах.

Answer 33

-- По диапазону дат CREATE TABLE Sales ( id INT, sale_date DATE, amount DECIMAL ) PARTITION BY RANGE (sale_date); -- Создание партиций CREATE PARTITION sales_q1 VALUES LESS THAN ('2025-04-01'); CREATE PARTITION sales_q2 VALUES LESS THAN ('2025-07-01');

Answer 34

Позволяет удалять старые строки в postgres.

Answer 35

1) Грязное чтение 2) Non-repeatable read (два select в одной транзакции дают разные результаты) 3) Фантомное чтение (два select в одной транзакции дают разное количество строк) 4) Update lost (два update из разных транзакций затирают друг друга) Решение: uncomited read 1 - commited read 1, 2, частично остальные - repeatable read 1, 2, 3, 4 - serializable

Answer 36

``` DO $$ DECLARE d DATE; BEGIN FOR d IN SELECT generate_series(DATE '2025-12-05', DATE '2025-12-13', INTERVAL '1 day')::DATE LOOP RAISE NOTICE 'Date: %', d; END LOOP; END $$; ```

Answer 37

ROW_NUMBER - задает порядок от 1 до n (если будут одинаковые записи, то первая будет i, вторая i + 1) [1 2 3 4] RANK - задает ранк каждой строке (если записи одинаковые, то они имеют один и тот же номер, но следующая запись будет i + (сколько записей пропустили)) [1 1 1 4] DENSE_RANK - то же, что и RANK, только ничего не пропускает [1 1 1 2]

Answer 38

Три решения: 1) Оконные функции 2) Через max 3) Через limit offset with c1 as ( select salary, dense_rank() over (order by salary desc) as rnk from Employee ) select max(salary) as SecondHighestSalary from c1 where rnk = 2; with c1 as ( select salary from Employee where salary != (select max(salary) from Employee) ) select max(salary) as SecondHighestSalary from c1; select max(salary) as SecondHighestSalary from ( select distinct salary from Employee order by salary desc limit 1 offset 1) t1;

SQL Flashcards

(64 cards)