Создание запросов в ClickHouse с использованием данных GitHub

Этот набор данных содержит все коммиты и изменения в репозитории ClickHouse. Его можно сгенерировать с помощью штатного инструмента git-import, поставляемого вместе с ClickHouse.

Сгенерированные данные представляют собой TSV‑файл для каждой из следующих таблиц:

commits — коммиты со статистикой.
file_changes — файлы, изменённые в каждом коммите, с информацией об изменении и статистикой.
line_changes — каждая изменённая строка в каждом изменённом файле в каждом коммите с полной информацией о строке и сведениями о предыдущем изменении этой строки.

По состоянию на 8 ноября 2022 года каждый TSV имеет примерно следующие размер и количество строк:

commits — 7,8M — 266 051 строк
file_changes — 53M — 266 051 строк
line_changes — 2,7G — 7 535 157 строк

Генерация данных

Этот шаг не обязателен. Мы уже предоставляем эти данные для свободного скачивания — см. Downloading and inserting the data.

git clone git@github.com:ClickHouse/ClickHouse.git
cd ClickHouse
clickhouse git-import --skip-paths 'generated\.cpp|^(contrib|docs?|website|libs/(libcityhash|liblz4|libdivide|libvectorclass|libdouble-conversion|libcpuid|libzstd|libfarmhash|libmetrohash|libpoco|libwidechar_width))/' --skip-commits-with-messages '^Merge branch '

Выполнение этой операции для репозитория ClickHouse займет около 3 минут (оценка по состоянию на 8 ноября 2022 года на MacBook Pro 2021).

Полный список доступных параметров можно получить во встроенной справке инструмента.

clickhouse git-import -h

В этой справке также приведён DDL для каждой из перечисленных выше таблиц, например:

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

Эти запросы подходят для любого репозитория. Свободно экспериментируйте и делитесь своими результатами. Некоторые рекомендации по времени выполнения (по состоянию на ноябрь 2022 года):

Linux — ~/clickhouse git-import — 160 мин

Загрузка и вставка данных

Следующие данные можно использовать для воссоздания рабочего окружения. Также этот набор данных доступен на play.clickhouse.com — см. раздел Queries для подробностей.

Сгенерированные файлы для следующих репозиториев доступны ниже:

ClickHouse (8 ноября 2022 г.)
Linux (8 ноября 2022 г.)

Чтобы вставить эти данные, подготовьте базу данных, выполнив следующие запросы:

DROP DATABASE IF EXISTS git;
CREATE DATABASE git;

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.file_changes
(
    change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.line_changes
(
    sign Int8,
    line_number_old UInt32,
    line_number_new UInt32,
    hunk_num UInt32,
    hunk_start_line_number_old UInt32,
    hunk_start_line_number_new UInt32,
    hunk_lines_added UInt32,
    hunk_lines_deleted UInt32,
    hunk_context LowCardinality(String),
    line LowCardinality(String),
    indent UInt8,
    line_type Enum('Empty' = 0, 'Comment' = 1, 'Punct' = 2, 'Code' = 3),

    prev_commit_hash String,
    prev_author LowCardinality(String),
    prev_time DateTime,

    file_change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    file_lines_added UInt32,
    file_lines_deleted UInt32,
    file_hunks_added UInt32,
    file_hunks_removed UInt32,
    file_hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

Загрузите данные с помощью оператора INSERT INTO SELECT и функции s3. В следующем примере мы загружаем файлы ClickHouse в соответствующие таблицы:

commits

INSERT INTO git.commits SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/commits.tsv.xz', 'TSV', 'hash String,author LowCardinality(String), time DateTime, message String, files_added UInt32, files_deleted UInt32, files_renamed UInt32, files_modified UInt32, lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32')

0 rows in set. Elapsed: 1.826 sec. Processed 62.78 thousand rows, 8.50 MB (34.39 thousand rows/s., 4.66 MB/s.)

file_changes

INSERT INTO git.file_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/file_changes.tsv.xz', 'TSV', 'change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6), path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32, commit_hash String, author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 2.688 sec. Processed 266.05 thousand rows, 48.30 MB (98.97 thousand rows/s., 17.97 MB/s.)

line_changes

INSERT INTO git.line_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/line_changes.tsv.xz', 'TSV', '    sign Int8, line_number_old UInt32, line_number_new UInt32, hunk_num UInt32, hunk_start_line_number_old UInt32, hunk_start_line_number_new UInt32, hunk_lines_added UInt32,\n    hunk_lines_deleted UInt32, hunk_context LowCardinality(String), line LowCardinality(String), indent UInt8, line_type Enum(\'Empty\' = 0, \'Comment\' = 1, \'Punct\' = 2, \'Code\' = 3), prev_commit_hash String, prev_author LowCardinality(String), prev_time DateTime, file_change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6),\n    path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), file_lines_added UInt32, file_lines_deleted UInt32, file_hunks_added UInt32, file_hunks_removed UInt32, file_hunks_changed UInt32, commit_hash String,\n    author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 50.535 sec. Processed 7.54 million rows, 2.09 GB (149.11 thousand rows/s., 41.40 MB/s.)

Запросы

Инструмент предлагает несколько запросов в своей справочной информации. Мы рассмотрели вопросы, соответствующие этим запросам, а также добавили несколько дополнительных, представляющих интерес. Запросы расположены примерно в порядке возрастания сложности, в отличие от произвольного порядка, в котором они выводятся инструментом.

Этот набор данных доступен на play.clickhouse.com в базе данных git_clickhouse. Для всех запросов мы приводим ссылку на эту среду, при необходимости изменяя имя базы данных. Обратите внимание, что результаты в play могут отличаться от представленных здесь из‑за различий во времени сбора данных.

История одного файла

Самый простой запрос. Здесь мы просматриваем все сообщения коммитов для StorageReplicatedMergeTree.cpp. Поскольку они, как правило, наиболее интересны, мы сортируем результаты, начиная с самых свежих сообщений.

выполнить

SELECT
    time,
    substring(commit_hash, 1, 11) AS commit,
    change_type,
    author,
    path,
    old_path,
    lines_added,
    lines_deleted,
    commit_message
FROM git.file_changes
WHERE path = 'src/Storages/StorageReplicatedMergeTree.cpp'
ORDER BY time DESC
LIMIT 10

┌────────────────time─┬─commit──────┬─change_type─┬─author─────────────┬─path────────────────────────────────────────┬─old_path─┬─lines_added─┬─lines_deleted─┬─commit_message───────────────────────────────────┐
│ 2022-10-30 16:30:51 │ c68ab231f91 │ Modify      │ Alexander Tokmakov │ src/Storages/StorageReplicatedMergeTree.cpp │          │          13 │            10 │ fix accessing part in Deleting state             │
│ 2022-10-23 16:24:20 │ b40d9200d20 │ Modify      │ Anton Popov        │ src/Storages/StorageReplicatedMergeTree.cpp │          │          28 │            30 │ better semantic of constsness of DataPartStorage │
│ 2022-10-23 01:23:15 │ 56e5daba0c9 │ Modify      │ Anton Popov        │ src/Storages/StorageReplicatedMergeTree.cpp │          │          28 │            44 │ remove DataPartStorageBuilder                    │
│ 2022-10-21 13:35:37 │ 851f556d65a │ Modify      │ Igor Nikonov       │ src/Storages/StorageReplicatedMergeTree.cpp │          │           3 │             2 │ Remove unused parameter                          │
│ 2022-10-21 13:02:52 │ 13d31eefbc3 │ Modify      │ Igor Nikonov       │ src/Storages/StorageReplicatedMergeTree.cpp │          │           4 │             4 │ Replicated merge tree polishing                  │
│ 2022-10-21 12:25:19 │ 4e76629aafc │ Modify      │ Azat Khuzhin       │ src/Storages/StorageReplicatedMergeTree.cpp │          │           3 │             2 │ Fixes for -Wshorten-64-to-32                     │
│ 2022-10-19 13:59:28 │ 05e6b94b541 │ Modify      │ Antonio Andelic    │ src/Storages/StorageReplicatedMergeTree.cpp │          │           4 │             0 │ Polishing                                        │
│ 2022-10-19 13:34:20 │ e5408aac991 │ Modify      │ Antonio Andelic    │ src/Storages/StorageReplicatedMergeTree.cpp │          │           3 │            53 │ Simplify logic                                   │
│ 2022-10-18 15:36:11 │ 7befe2825c9 │ Modify      │ Alexey Milovidov   │ src/Storages/StorageReplicatedMergeTree.cpp │          │           2 │             2 │ Update StorageReplicatedMergeTree.cpp            │
│ 2022-10-18 15:35:44 │ 0623ad4e374 │ Modify      │ Alexey Milovidov   │ src/Storages/StorageReplicatedMergeTree.cpp │          │           1 │             1 │ Update StorageReplicatedMergeTree.cpp            │
└─────────────────────┴─────────────┴─────────────┴────────────────────┴─────────────────────────────────────────────┴──────────┴─────────────┴───────────────┴──────────────────────────────────────────────────┘

10 rows in set. Elapsed: 0.006 sec. Processed 12.10 thousand rows, 1.60 MB (1.93 million rows/s., 255.40 MB/s.)

Мы также можем просматривать построчные изменения, исключая переименования, то есть не показывать изменения до события переименования, когда файл существовал под другим именем:

Генерация данных​

Загрузка и вставка данных​

Запросы​

История одного файла​

Определить текущие активные файлы​

Список файлов с наибольшим количеством изменений​

В какой день недели чаще всего делают коммиты?​

История подкаталога/файла — количество строк, коммитов и контрибьюторов во времени​

Список файлов с наибольшим числом авторов​

Самые старые строки кода в репозитории​

Файлы с самой длинной историей изменений​

Распределение контрибьюторов между документацией и кодом в течение месяца​

Авторы с наиболее разнообразным вкладом​

Избранные файлы для автора​

Самые большие файлы с наименьшим числом авторов​

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для отдельных подкаталогов​

Матрица авторов, показывающая, какие авторы склонны переписывать код других авторов​

Кто является крупнейшим контрибьютором (по доле коммитов) для каждого дня недели?​

Распределение возраста кода в репозитории​

Какой процент написанного автором кода был удалён другими участниками?​

Список файлов, которые изменялись чаще всего​

В какой день недели у кода наибольший шанс остаться в репозитории?​

Файлы, отсортированные по среднему «возрасту» кода​

Кто, как правило, пишет больше тестов / CPP-кода / комментариев?​

Как со временем меняются коммиты автора с точки зрения доли кода и комментариев?​

Какое среднее время проходит до того, как код будет переписан, и какова медиана (период «полураспада» кода)?​

В какое время хуже всего писать код — в том смысле, что у него наибольший шанс быть переписанным?​

У какого автора код «живет» дольше всего?​

Наибольшее количество последовательных дней с коммитами у автора​

Построчная история коммитов файла​

Открытые вопросы​

Git blame​

Генерация данных

Загрузка и вставка данных

Запросы

История одного файла

Определить текущие активные файлы

Список файлов с наибольшим количеством изменений

В какой день недели чаще всего делают коммиты?

История подкаталога/файла — количество строк, коммитов и контрибьюторов во времени

Список файлов с наибольшим числом авторов

Самые старые строки кода в репозитории

Файлы с самой длинной историей изменений

Распределение контрибьюторов между документацией и кодом в течение месяца

Авторы с наиболее разнообразным вкладом

Избранные файлы для автора

Самые большие файлы с наименьшим числом авторов

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для отдельных подкаталогов

Матрица авторов, показывающая, какие авторы склонны переписывать код других авторов

Кто является крупнейшим контрибьютором (по доле коммитов) для каждого дня недели?

Распределение возраста кода в репозитории

Какой процент написанного автором кода был удалён другими участниками?

Список файлов, которые изменялись чаще всего

В какой день недели у кода наибольший шанс остаться в репозитории?

Файлы, отсортированные по среднему «возрасту» кода

Кто, как правило, пишет больше тестов / CPP-кода / комментариев?

Как со временем меняются коммиты автора с точки зрения доли кода и комментариев?

Какое среднее время проходит до того, как код будет переписан, и какова медиана (период «полураспада» кода)?

В какое время хуже всего писать код — в том смысле, что у него наибольший шанс быть переписанным?

У какого автора код «живет» дольше всего?

Наибольшее количество последовательных дней с коммитами у автора

Построчная история коммитов файла

Открытые вопросы

Git blame