SQL Flashcards

Question 1

Q

Индексы в SQL. Что это?

Answer

A

Это ключ, построенный с помощью одного или нескольких столбцов в БД, который ускоряет выборку. При этом, если данные не селективные, то индексы замедлят работу БД.
Чтобы добавить индекс в большую и часто используемую таблицу, не блокируя к ней доступ, нужно сделать так:
CREATE INDEX CONCURRENTLY
По умолчанию в БД установлен B-tree индекс.
Индексы хранят в себе ссылки на данные. Эти ссылки могут быть представлены в виде:
- Указателей на строки в таблице, где хранятся данные
- Идентификаторов записей

Question 2

Q

Уровни изоляции (read uncommitted, read committed, repeatable read, serializable)

Answer

A

READ UNCOMMITTED (Транзакции могут читать данные, которые еще не зафиксированы другими транзакциями).
READ COMMITTED (Транзакции могут читать только те данные, которые зафиксированы другими транзакциями).
REPEATABLE READ (В пределах одной транзакции, если вы читаете одну и ту же запись несколько раз, данные гарантировано не изменятся).
SERIALIZABLE (Транзакции выполняются друг за другом, эмулируя последовательное выполнение).

Во многих бд по стандарту стоит Read commited,
но в MySQL стоит Repeatable Read B PostgreSQL нет read uncommited

Архитектура MVCC (Multi-Version Concurrency
Control):
PostgreSQL использует механизм МVСС, который позволяет нескольким транзакциям работать с данными одновременно, не блокируя друг друга.
В MVCC каждая транзакция видит снимок данных (snapshot) на момент своего начала. Это означает, что транзакция не может видеть изменения, которые ещё не зафиксированы.
Поэтому нет read uncommited

Question 3

Q

Оптимизация запросов, какие инструменты?

Answer

A

EXPLAIN (Показывает план выполнения запроса).
EXPLAIN ANALYZE (Выполняет запрос и показывает реальный план выполнения).
Indexes (ускоряют доступ к данным, особенно при использовании в условиях WHERE).
pg_stat_statements (модуль для сбора статистики выполнения запросов).
Если запрос в норме, но выполнение все равно долгое, следует проверить:
- Правильность использования индексов
- План выполнения
- Возможность отрефакторить запрос
- Ресурсные ограничения

Question 4

Q

Расскажите про ACID

Answer

A

Это набор свойств, согласно которым должны работать транзакции.
- Атомарность: транзакция выполняется полностью или не выполняется вовсе.
- Согласованность: после выполнения транзакции все данные должны соблюдать правила целостности.
- Изолированность: транзакции выполняются изолированно друг от друга.
- Долговечность: изменения, внесенные транзакцией, остаются в БД после коммита.

Question 5

Q

Виды JOIN. Как работает каждый JOIN?

Answer

A

INNER JOIN — возвращает только общие значения между таблицами.
LEFT JOIN — возвращает все значения из левой таблицы и соответствующие из правой.
RIGHT JOIN — возвращает все значения из правой таблицы и соответствующие из левой.
FULL JOIN — возвращает все записи из обеих таблиц, даже если нет соответствий.
CROSS JOIN — создает декартово произведение двух таблиц.
SELF JOIN — соединяет таблицу сама с собой.

Question 6

Q

Блокировки и локи. Оптимистичная и Пессимистичная

Answer

A

Блокировки — механизм управления параллельным доступом к данным, предотвращающий конфликтные изменения.
- Оптимистичная блокировка: при сохранении проверяет, не изменились ли данные с момента чтения; при изменении — откатывает транзакцию.
- Пессимистичная блокировка: сразу блокирует данные, чтобы другие транзакции не могли их изменить.

Question 7

Q

EXPLAIN vs EXPLAIN ANALYZE

Answer

A

EXPLAIN — дает план выполнения запроса без фактического выполнения.
EXPLAIN ANALYZE — выполняет запрос и показывает реальное время, количество обработанных строк (ROWS) и количество повторений шага (LOOPS).

Question 8

Q

Что такое транзакции?

Answer

A

Это набор логически связанных запросов, которые выполняются атомарно.

Question 9

Q

Плюсы и минусы индексов

Answer

A

Плюсы:
- Улучшают производительность для SELECT и сортировки по определенным полям.
Минусы:
- Замедляют операции INSERT, UPDATE, DELETE.
- Требуют дополнительного места (чем больше ключ, тем больше весит индекс).

Question 10

Q

Какие виды индексов знаешь?

Answer

A

Типы индексов:
Кластеризованные - физический порядок хранения строк в таблице, он может быть в ней только один. Primary key автоматически кластерный индекс. Записи на диске будут храниться по возрастанию.
Некластеризованные - отдельная структура, которая ссылается на данные, их может быть много в таблице. Содержит только выбранные колонки + ссылку на основную строку в таблице.
Виды индексов:
B-tree - по стандарту используется, сбалансированное дерево
Composite index - индекс для нескольких столбцов, используется, когда много запросов с фильтрами по этим столбцам
Hash index - использует хэш-функцию для поиска точных значений, не поддерживает диапазоны
Unique index - для обеспечения уникальности
Bitmap index - побитовые карты, нужны для малого кол-ва уникальных значений, типо пол, или регионы заказов
Gist Index - используется для индексации геоданных чаще всего, по-моему в PostGIS

Question 11

Q

Чем WHERE отличается от HAVING? Можно ли их использовать в одном запросе?

Answer

A

WHERE применяется до выполнения агрегатных функций, а HAVING – после. Да, можно использовать в одном запросе: сначала FILTER с помощью WHERE, затем группировка и условие HAVING.

Question 12

Q

Нормализация и денормализация. Перечислите формы.

Answer

A

Нормализация — процесс преобразования отношений БД к виду без избыточной информации. Избыточность — когда одни и те же данные хранятся в разных местах.
Нормальные формы:
1NF: одна ячейка — одно значение.
2NF: все неключевые атрибуты зависят от полного ключа.
3NF: каждый неключевой атрибут зависит только от ключа (нет транзитивных зависимостей).

Денормализация — процесс обратный нормализации, используется для ускорения чтения.

Question 13

Q

Проблемы параллельных транзакций

Answer

A

Потерянное обновление: при одновременном изменении данных вступают в силу только последние изменения. Решение: уровень изоляции REPEATABLE READ и выше.
Грязное чтение: транзакция читает незакомиченные данные другой транзакции. Решение: уровень изоляции READ COMMITTED и выше.
Неповторяющееся чтение: транзакция A читает X, транзакция B изменяет X, транзакция A снова читает X и получает другое значение. Решение: REPEATABLE READ и выше.
Фантомное чтение: транзакция A делает выборку, транзакция B добавляет новую запись, транзакция A повторяет выборку и получает больше строк. Решение: SERIALIZABLE.

Question 14

Q

Что такое селективность

Answer

A

Это доля строк, которые будут отобраны запросом. Чем меньше строк отбирается, тем более селективен запрос.

Question 15

Q

Primary key

Answer

A

Идентифицирует строку, гарантирует уникальность, ускоряет поиск и связывает таблицы.

Question 16

Q

Foreign key

Answer

Study These Flashcards

A

Связывает таблицы и указывает, что значение в одном столбце должно соответствовать значению в другой таблице.

Question 17

Q

Блокировка строки с помощью SQL

Answer

Study These Flashcards

A

FOR UPDATE

Question 18

Q

Lateral

Answer

Study These Flashcards

A

Позволяет подзапросу использовать данные из внешней таблицы для каждой строки

Question 19

Q

Оконные функции. Partition by

Answer

Study These Flashcards

A

Оконные функции позволяют выполнять вычисления над строками, разделенными на групы или на весь набор данных
PARTITION BY - работает с агрегирующими функциями, разбивает данные на групы, но не схлопывает их, а к каждой строке добавляет результат агрегирующих функций
GROUP BY - так же работает с агрегирующими функциями, но схлопывает данные, возвращает только группы и агрегаты

Question 20

Q

View vs MaterializedView

Answer

Study These Flashcards

A

View - просто хранит sql запрос, который будет выполняться при обращении ко view (данные не хранятся физически)
Materialized view - хранит результат выполненного запроса, необходим в REFRESH для актуализации данных

Question 21

Q

SELECT FOR UPDATE & SELECT FOR SHARE

Answer

Study These Flashcards

A

Пессимистичная:
SELECT FOR UPDATE - используется для блокировки обновляемой строки (для изменения), пока текущая транзакция выполняет работу другая не сможет её обновить
SELECT FOR SHARE - тоже блокирует строку, только уже для считывания, пока текущая транзакция выполняет работу другая не сможет получить к ней доступ

Question 22

Q

Табличные выражения

Answer

Study These Flashcards

A

Табличные выражения - временные именованные наборы данных (сохраняют результат запроса в переменную), создается с помощью WITH
Подзапрос - тоже вид табличного выражения

Question 23

Q

Database Connection Pool. HikariCP

Answer

Study These Flashcards

A

HikariCP - самый популярный пул соединений
Пулы нужны для оптимизации работы с соединениями к базе данных, мы не пересоздаем их каждый раз, а просто кладем обратно в пул.

SQL Flashcards

(23 cards)