SQL Flashcards

Question

Расскажите про операторы BETWEEN, IN, LIKE, ANY, IS DISTINCT FROM

Answer 1

**BETWEEN** - выдает диапазон включительно **IN** перечисляет точные значения к поиску, сокращая использование `OR`. Можно использовать с `NOT` **LIKE** проверяет соответствует ли строка шаблону: - - `%` - любое кол-во символов: %с% -> ...c... - - `_` - один символ. _c_ -> aca / bcs / ccc / ... **ANY** сравнивает значение ячейки из первой таблицы со всеми значениями заданной колонки второй таблицы и возвращает подходящее значение из первой. Найти учителей-ровестников учеников: SELECT * FROM Teachers WHERE age = ANY ( SELECT age FROM Students ); **IS DISTINCT FROM** : `!= / <>` `NULL IS NOT DISTINCT FROM NULL => TRUE` `WHERE city IS DISTINCT FROM 'New-York'; => name 'John' city 'null' `

Answer 2

MERGE служит для обмена данными между таблицами: позволяет осуществить слияние данных одной таблицы с данными другой таблицы. При слиянии таблиц проверяется условие, и если оно TRUE, то выполняется UPDATE, а если нет – INSERT, если в целевой таблице присутствует значение, отсутствующее в исходной - DELETE При этом изменять поля таблицы в секции UPDATE, по которым идет связывание двух таблиц, нельзя. ``` MERGE TargetProducts AS Target USING SourceProducts AS Source ON Source.ProductID = Target.ProductID -- For Inserts WHEN NOT MATCHED BY Target THEN INSERT (ProductID,ProductName, Price) VALUES (Source.ProductID,Source.ProductName, Source.Price) -- For Updates WHEN MATCHED THEN UPDATE SET Target.ProductName = Source.ProductName, Target.Price = Source.Price -- For Deletes WHEN NOT MATCHED BY Source THEN DELETE; ```

Answer 3

Агрегатных функции – функции, которые берут группы значений и сводят их к одиночному значению. ``` SELECT FUNCTION(column_name) FROM table_name ...; ``` * **CONCAT** соединяет строки; * **COUNT** производит подсчет записей, удовлетворяющих условию запроса SELECT COUNT( * / [DISTINCT] column ), AVG(column) FROM * **SUM** вычисляет арифметическую сумму всех значений колонки; * **AVG** вычисляет среднее арифметическое всех значений; * **MAX** определяет наибольшее из всех выбранных значений; * **MIN** определяет наименьшее из всех выбранных значений.

Answer 4

Ограничения ( CONSTRAINT ) – это ключевые слова, которые помогают установить правила размещения данных в базе. ``` CONSTRAINT pk_employee PRIMARY KEY (department_id, employee_id) CONSTRAINT uq_id_last_name UNIQUE (personal_id, last_name) ALTER TABLE employees DROP INDEX uq_id_last_name; ``` **NOT NULL** указывает, что значение не может быть пустым. **UNIQUE** обеспечивает отсутствие дубликатов. **PRIMARY KEY** один на таблицу **FOREIGN KEY** один на таблицу **CHECK** проверяет, вписывается ли значение в заданный диапазон (s_id int CHECK(s_id > 0)). **DEFAULT** устанавливает значение по умолчанию, если значения не предоставлено (name VARCHAR(20) DEFAULT 'noname').

Answer 5

Суррогатный ключ – это служебное поле, задача которого гарантировать уникальность конкретного ряда, независимо от содержащейся в нем информации, в отличии от РК, который используется для разграничения рядов как единиц информации. Мы оставляем системе следить за уникальностью суррогатного ключа и как правило используем его в качестве PK. Значение суррогата выбирается один раз для каждой строки и потом никогда не изменяется. CREATE TABLE Example ( SurrogateKey INT IDENTITY(1,1) -- A surrogate key that increments automatically ) CREATE TABLE Example ( PrimaryKey INT PRIMARY KEY -- A primary key is just an unique identifier)

Answer 6

Индексы относятся к настройке производительности, и позволяют быстрее извлекать записи из таблицы, засчет создания дополнительной стр-ры данных, элементы которой хранят ссылки на адрес соответствующих рядов таблицы. но - требует дополнитульного места. - при изменении данных в БД сначала обновляется исходная таблица, а затем все её индексы, таким образом если БД постоянно обновляется, ее индексы обновляться не будут и станут бесполезны. - Чем больше в таблице индексов, тем дольше обновляются данные в БД.

Answer 7

- **simple / compound** - одно / несколко полей. - **Unique Index:** гарантирует уникальность поля или уникальную комбинацию включенных в него полей. Создание уникального индекса для СУБД равносильно объявлению unique constraint при создании таблицы или модификации таблицы. Считается, сто последнее предпочтительнее в силу наглядности. - **Partial** - создаётся на сабсет данных таблицы: CREATE INDEX unpaidOrdersIdx ON orders (order_id) WHERE is_paid = false; - **Кластеризованный индекс (Clustered Index)**: Создается автоматически при объявлении РК и физически изменяет порядок строк, сортируя их на основе РК. Для поиска использует бинарный поиск. Это ускоряет операции чтения из БД. -** Некластеризованный индекс (Non-Clustered Index):** не меняет структуру данных а создает отдельную структуру, хранящую ссылки на элементы таблицы. NB: таблица может содержать 1 кластеризованный и анлим некластеризованных.

Answer 8

- B-Tree: самобалансирующееся дерево - дефолтная структура данных для хранения индексов - Hash TAble - Bitmap - переводит значения в битовое представление, подходит для узкой области значений (true / false) - Spatial - для хранения координат и прочих геометрических данных. DBSM сама решает какую структуру данных выбрать, но мы можем задать её явно: CREATE INDEX index_name ON table_name (column_name) **USING BTREE**;

Answer 9

1) в небольших таблицах 2) в таблицах с частыми массовыми update & insert 3) в столбцах, значение которых часто меняется 4) в столбцах, где много null

Answer 10

Следуя правилу "left-prefix-rule": CREATE INDEX full_date ON people(year, month, day) - пойдёт для поиска по year only year and month year, month, and day Он не поможет при поиске по day / month and day

Answer 11

СУБД сама сначала просканирует по индексированным полям, а потом просканирует получившийся результат по неинексированной колонке.

Answer 12

СУБД анализирует все возможные пути выполнения запроса и оптимизатор запроса `(!1)` выбирает оптимальный и исполняет его. Каждый возможный путь - **ПЛАН ЗАПРОСА**. План имеет древовидную структуру (как диспетчер файлов) и читается снизу вверх: SELECT * FROM customers WHERE age > 25 => *SELECT -> Filter: (age > 25) -> Table scan on customers* EXPLAIN [ANALIZE] - позволяет увидеть план запроса с ключевыми метриками cost & rows, алгоритмы поиска, ... - ANALIZE помимо вывода предполагаемых метрик запроса исполнит этот запрос и выведет фактические метрики !1 - компонент СУБД, анализирующий возможные пути выполнения запроса и выбирающий оптимальный из них.

Answer 13

**DELETE** Медленнее, чем TRUNCATE, так как удаляет записи по одной. Есть возможность восстановить данные (вызвав ROLLBACK). Её лучше использовать когда в таблице есть foreign key, так как будет использована referential action. **TRUNCATE** – DDL оператор, удаляет всю таблицу и создает её заново. Нет возможность восстановить данные – сделать ROLLBACK. Её не стоит использовать если на таблицу ссылается foreigh_key, но мы можем применить TRUNCATE сначала на дочернюю таблицу, затем на основную, тогда всё сработает.

Answer 14

Объект базы данных, представляющий собой набор SQL- инструкций, который хранится DBMS. **CREATE PROCEDURE** my_procedure () **BEGIN** UPDATE table SET col_1 = 100 WHERE col_2 = 'a'; SELECT * FROM table; **END;** **CALL** my_procedure; DROP PROCEDURE my_procedure; Хранимые процедуры очень похожи на обыкновенные методы языков высокого уровня, у них могут быть входные и выходные параметры и локальные переменные, в них могут производиться числовые вычисления и операции над символьными данными, результаты которых могут присваиваться переменным и параметрам. В хранимых процедурах могут выполняться стандартные операции с базами данных (как DDL, так и DML). Кроме того, в хранимых процедурах возможны циклы и ветвления, то есть в них могут использоваться инструкции управления процессом исполнения. Хранимые процедуры позволяют повысить производительность, расширяют возможности программирования и поддерживают функции безопасности данных. В большинстве СУБД при первом запуске хранимой процедуры она компилируется (выполняется синтаксический анализ и генерируется план доступа к данным) и в дальнейшем ее обработка осуществляется быстрее. PROCEDURE с параметрами: CREATE PROCEDURE SomeName( IN SomeParameter VARCHAR(50), OUT SomeParameter1 INT, ) BEGIN -- PROCEDURE BODY; END; CALL SomeName("foo", @value) SELECT @value;

Answer 15

View – виртуальная таблица, представляющая данные одной или более таблиц в виде хранимого в памяти именного SELECT стэйтмента. Они работают в запросах и операторах DML точно так же, как и таблицы-родители, но не содержат никаких собственных данных. Выполнять DML команды над View можно лишь если соблюдён ряд условий по его созданию: 1) не использовались подзапросы, агрегатные функции & GROUP BY & DISTINCT 2) использовалась только одна таблицп 3) вью должен содержать уникальный или праймари ключ 4) все значения должны быть NOT NULL Позволяют: - дать публичный доступ к некоторой информации из основной таблицы. - сократить код сложных запросов - кастомизировать вид таблицы для разных пользоователей таблицы. ``` CREATE [OR REPLACE] VIEW view_name AS SELECT column1, column2, ... FROM table_name WHERE condition; ```

Answer 16

Нужна - для сложных запросов, требующих промежуточных результатов. 2 Вида: 1) Локальные: # - Таблица, которая существует только в период текущей сессии и доступна только внутри неё. Удаляется автоматически по её окончании. 2) Глобальные: ## - Таблица, которая доступна всем открытым сессиям и удалится, когда прекратся последняя сессия, использовавшая её. CREATE TABLE #ProductSummary (ProdId INT IDENTITY, ProdName NVARCHAR(20), Price MONEY)

Answer 17

Транзакция – это единица работы DBMS, выраженная в переводе БД из одного целостного состояния в другое. Состояния транзакции: active / partially commited / failed state / aborted / commited

Answer 18

* **Атомарность (atomicity)** гарантирует, что транзакция будет полностью выполнена или полностью отменена. Это означает, что при сбое любой части транзакции происходит сбой всей транзакции и состояние базы данных остается неизменным. * **Согласованность (consistency).** Выполненная транзакция не нарушает согласованность базы данных (соблюдение всех правил и ограничений схемы). * **Изолированность (isolation).** параллельные транзакции не должны оказывать влияние на результат друг друга: изменения, сделанные транзакцией не видны другим транзакциям, до её завершения. * **Долговечность (durability).** Независимо от проблем (потеря питания, сбои / ошибки любого рода) изменения, сделанные успешно завершенной транзакцией, обязаны быть отражены в системе.

Answer 19

**Lost Update** - когда две транзакции меняют один сегмент, первая транзакция успешно коммитится, а вторая делает ролбэк. В итоге апдэйт теряется **Dirty Read** - первая транзакция производит запись. Между тем вторая транзакция считывает ту же cамую запись до завершения первой. Позже первая транзакция делает ролбэк, и теперь у нас есть грязные данные во второй транзакции. **Non-Repeatable Read**: Когда первая транзакция дважды читает данные, но между этими чтениями вторая транзакция изменяет эти данные и делает commit. В результате первая транзакция получает 2 разных результата. *Last Commit Wins* - частный случай NRR, когда 2 транзакции параллельно читают и меняют данные, в базусохранятся результаты последней закоммиченной транзакции. **Phantom Read**: Первая транзакция читает набор записей. Затем вторая транзакция вставляет или удаляет запись в диапазон первой транзакции. Позднее первая транзакция снова считывает тот же диапазон и в том числе получает запись, которую только что вставила транзакция B.

Answer 20

1) **Read Uncommited** : транзакция читает любую инфу, независимо от того, закоммичена ли она. Исключается **Lost Update** , возможен **Dirty Read**: 2) **Read Commited**: транзакция видит состояние базы на момент своего старта. Исключается **Dirty Read**. При нескольких селектах возможен **non-repeatable read**: 3) **Repeatable Read** : вся читаемая текущей т. инфа блокируется от модификации другими транзакциями до конца текущей т. Исключается **non-repeatable read**, При нескольких селектах возможен **phantom read**. 4) **Serializable**: исключает все возможные аномалии.

Answer 21

**Избыточность** - когда одни и те же данные хранятся в базе в нескольких местах, что приводит к аномалиям (). **Нормализация** - последовательный обратимый процесс приведения БД к эталонному виду (от одной нормальной формы к следующей) с целью достижения минимальной избыточности. **Нормальная форма** - Состояние схемы БД, отвечающее определенному набору критериев. Перед нормализацией нужно, чтобы база соответствовала реляционной модели (отсутствие нумерации строк и столбцов). 1) Первая нормальная форма (1NF): таблица соответствует реляционной модели и соблюдает правила: - строки не дублируются - в каждой ячейке хранится атомарное значение (одно несоставное значение) - в столбце хранятся данные одного типа - отсутствуют массивы и списки в любом виде 2) Вторая нормальная форма (2NF): Таблица находится в 1NF и соблюдает принципы: - Таблица должна иметь ключ - Все неключевые столбцы должны зависеть от полного ключа (не должно быть данных, которые можно получить по части составного ключа) *PK{ project | participant }* | **position** | project duration 3) Третья нормальная форма (3NF): Таблица находится в 2NF и соблюдает принципы: * Отсутствие транзитивной зависимости: когда один неключевой столбец связан с РК через другой неключевой столбец: - uuid | name | department | **department description** 3 * ) Нормальная форма Бойса-Кодда: таблица находится в 3НФ и * Часть составного РК не должна зависеть от неключевого столбца: *PK{ проект | направление }* | **куратор** 4) В таблице не должно быть мгогозначных зависимостей: B !-> C & A --> B & A --> C ; (курс- препод - аудитория) 5) невозможно определить без понимания предметной области - - **декомпозиция**: разделение таблицы на несколько - **Денормализация** базы данных – это процесс обратный от нормализации. Эта техника добавляет избыточные данные в таблицу, учитывая частые запросы к базе данных, которые объединяют данные из разных таблиц в одну таблицу. Необходимо для повышения производительности и скорости извлечения данных за счет увеличения избыточности данных. Каждая сущность должна храниться в отдельной таблице.

Answer 22

DATE, TIME, DATETIME, TIMESTAMP, and INTERVAL **DATETIME** Хранит время в виде целого числа в формате YYYYMMDDHHMMSS, используя для этого 8 байт. Это время не зависит от временной зоны. Оно всегда отображается при выборке точно так же, как было сохранено, независимо от того какой часовой пояс установлен в SQL. create table dt1 ( col **datetime** NOT NULL ); SET @@session.time_zone='+00:00'; insert into dt1 values(now()); select * from dt1; => 2009-06-04 18:14:10 SET @@session.time_zone='+01:00'; select * from dt1; => 2009-06-04 18:14:10 **TIMESTAMP** хранит значение равное количеству секунд, прошедших с полуночи 1 января 1970 года по усредненному времени Гринвича. При получении из базы отображается с учетом часового пояса. Размер 4 байта. Часовой пояс может быть задан в операционной системе, глобальных настройках MySQL или в конкретной сессии. TIMESTAMP по умолчанию NOT NULL, а его значение по умолчанию равно NOW(). create table tm1 (col timestamp not null); set @@session.time_zone = '+00:00'; insert into tm1 values(now()); select * from tm1; => 2009-06-04 **18**:25:08 mysql> set @@session.time_zone = '+01:00'; select * from tm1; => 2009-06-04 **19**:25:08 SELECT CURDATE() / CURTIME() / CURRENT_TIMESTAMP() SELECT DATEDIFF(first_date, second_date); SELECT EXTRACT(MONTH FROM '2020-11-04'); SELECT DATE_ADD / DATE_SUB(CURDATE(), INTERVAL 10 DAY);

SQL Flashcards

(46 cards)