版本：1.0

快速开始

在继续阅读之前，请确保你已经安装了 GreptimeDB。

本指南通过引导你创建一个 metric 表和一个 log 表来介绍 GreptimeDB 的核心功能。

你将学习（10-15 分钟）

在本地启动并连接到 GreptimeDB
创建 metrics 和 logs 表并插入示例数据
查询和聚合数据
计算 5 秒窗口内的 p95 和 ERROR 计数并对齐它们
关联 metrics 和 logs 来发现异常主机和时间点
结合 SQL 和 PromQL 查询数据

连接到 GreptimeDB

GreptimeDB 支持多种协议与数据库进行交互。在本快速入门文档中，我们使用 SQL 作为实例。

如果你的 GreptimeDB 实例运行在 127.0.0.1 中，并且使用 MySQL 客户端默认端口 4002 或 PostgreSQL 客户端默认端口 4003，你可以使用以下命令连接到数据库。

GreptimeDB 默认不开启鉴权认证。在本章节中你可以在连接数据库时不提供用户名密码。

mysql -h 127.0.0.1 -P 4002

或者

psql -h 127.0.0.1 -p 4003 -d public

你也可以通过浏览器访问 DB 内置的 Dashboard 地址 http://127.0.0.1:4000/dashboard 运行本文档中的 SQL。

创建表

假设你有一个名为 grpc_latencies 的事件（Events）表，用于存储的 gRPC 调用接口以及它的处理时间。表 schema 如下：

-- Metrics: gRPC 调用延迟（毫秒）
CREATE TABLE grpc_latencies (
  ts TIMESTAMP TIME INDEX,
  host STRING INVERTED INDEX,
  method_name STRING,
  latency DOUBLE,
  PRIMARY KEY (host, method_name)
);

ts：收集指标时的时间戳，时间索引列。
host：主机名，设置了倒排索引。
method_name：RPC 请求方法的名称，tag 列。
latency：RPC 请求的响应时间。

此外，还有一个名为 app_logs 的表用于存储日志：

-- Logs: 应用程序日志
CREATE TABLE app_logs (
  ts TIMESTAMP TIME INDEX,
  host STRING INVERTED INDEX,
  api_path STRING,
  log_level STRING,
  log_msg STRING FULLTEXT INDEX WITH('case_sensitive' = 'false'),
  PRIMARY KEY (host, log_level)
) with('append_mode'='true');

ts：日志条目的时间戳，时间索引列。
host：主机名，设置了倒排索引。
api_path：API 路径。
log_level：日志级别，tag 列。
log_msg：日志消息内容，设置了全文索引。

通过将 append_mode 设置为 true 来启用 Append Only模式，这通常对性能有帮助。同时也支持其他表选项，如数据保留期等。

提示

我们在下面使用 SQL 来导入数据，因此需要手动创建表。但 GreptimeDB 本身是 schemaless 的，在使用其他写入方法时可以自动生成 schema。

写入数据

让我们插入一些模拟数据来模拟收集的指标和错误日志。

假设有两个服务器 host1 和 host2 记录着 gRPC 延迟。从 2024-07-11 20:00:10 开始，host1 的延迟显著增加。

下图显示了 host1 的不稳定延迟。

使用以下 SQL 语句插入模拟数据。

在 2024-07-11 20:00:10 之前，主机正常运行：

INSERT INTO grpc_latencies (ts, host, method_name, latency) VALUES
  ('2024-07-11 20:00:06', 'host1', 'GetUser', 103.0),
  ('2024-07-11 20:00:06', 'host2', 'GetUser', 113.0),
  ('2024-07-11 20:00:07', 'host1', 'GetUser', 103.5),
  ('2024-07-11 20:00:07', 'host2', 'GetUser', 107.0),
  ('2024-07-11 20:00:08', 'host1', 'GetUser', 104.0),
  ('2024-07-11 20:00:08', 'host2', 'GetUser', 96.0),
  ('2024-07-11 20:00:09', 'host1', 'GetUser', 104.5),
  ('2024-07-11 20:00:09', 'host2', 'GetUser', 114.0);

在 2024-07-11 20:00:10 之后，host1 的响应时间变得不稳定，处理时间大幅波动，偶尔会出现数千毫秒的峰值：

INSERT INTO grpc_latencies (ts, host, method_name, latency) VALUES
  ('2024-07-11 20:00:10', 'host1', 'GetUser', 150.0),
  ('2024-07-11 20:00:10', 'host2', 'GetUser', 110.0),
  ('2024-07-11 20:00:11', 'host1', 'GetUser', 200.0),
  ('2024-07-11 20:00:11', 'host2', 'GetUser', 102.0),
  ('2024-07-11 20:00:12', 'host1', 'GetUser', 1000.0),
  ('2024-07-11 20:00:12', 'host2', 'GetUser', 108.0),
  ('2024-07-11 20:00:13', 'host1', 'GetUser', 80.0),
  ('2024-07-11 20:00:13', 'host2', 'GetUser', 111.0),
  ('2024-07-11 20:00:14', 'host1', 'GetUser', 4200.0),
  ('2024-07-11 20:00:14', 'host2', 'GetUser', 95.0),
  ('2024-07-11 20:00:15', 'host1', 'GetUser', 90.0),
  ('2024-07-11 20:00:15', 'host2', 'GetUser', 115.0),
  ('2024-07-11 20:00:16', 'host1', 'GetUser', 3000.0),
  ('2024-07-11 20:00:16', 'host2', 'GetUser', 95.0),
  ('2024-07-11 20:00:17', 'host1', 'GetUser', 320.0),
  ('2024-07-11 20:00:17', 'host2', 'GetUser', 115.0),
  ('2024-07-11 20:00:18', 'host1', 'GetUser', 3500.0),
  ('2024-07-11 20:00:18', 'host2', 'GetUser', 95.0),
  ('2024-07-11 20:00:19', 'host1', 'GetUser', 100.0),
  ('2024-07-11 20:00:19', 'host2', 'GetUser', 115.0),
  ('2024-07-11 20:00:20', 'host1', 'GetUser', 2500.0),
  ('2024-07-11 20:00:20', 'host2', 'GetUser', 95.0);

当 host1 的 gRPC 请求的响应时间遇到问题时，收集了一些错误日志：

INSERT INTO app_logs (ts, host, api_path, log_level, log_msg) VALUES
  ('2024-07-11 20:00:10', 'host1', '/api/v1/resource', 'ERROR', 'Connection timeout'),
  ('2024-07-11 20:00:10', 'host1', '/api/v1/billings', 'ERROR', 'Connection timeout'),
  ('2024-07-11 20:00:11', 'host1', '/api/v1/resource', 'ERROR', 'Database unavailable'),
  ('2024-07-11 20:00:11', 'host1', '/api/v1/billings', 'ERROR', 'Database unavailable'),
  ('2024-07-11 20:00:12', 'host1', '/api/v1/resource', 'ERROR', 'Service overload'),
  ('2024-07-11 20:00:12', 'host1', '/api/v1/billings', 'ERROR', 'Service overload'),
  ('2024-07-11 20:00:13', 'host1', '/api/v1/resource', 'ERROR', 'Connection reset'),
  ('2024-07-11 20:00:13', 'host1', '/api/v1/billings', 'ERROR', 'Connection reset'),
  ('2024-07-11 20:00:14', 'host1', '/api/v1/resource', 'ERROR', 'Timeout'),
  ('2024-07-11 20:00:14', 'host1', '/api/v1/billings', 'ERROR', 'Timeout'),
  ('2024-07-11 20:00:15', 'host1', '/api/v1/resource', 'ERROR', 'Disk full'),
  ('2024-07-11 20:00:15', 'host1', '/api/v1/billings', 'ERROR', 'Disk full'),
  ('2024-07-11 20:00:16', 'host1', '/api/v1/resource', 'ERROR', 'Network issue'),
  ('2024-07-11 20:00:16', 'host1', '/api/v1/billings', 'ERROR', 'Network issue');

查询数据

根据 tag 和时间索引进行过滤

你可以使用 WHERE 子句来过滤数据。例如，要查询 2024-07-11 20:00:15 之后 host1 的延迟：

SELECT *
  FROM grpc_latencies
  WHERE host = 'host1' AND ts > '2024-07-11 20:00:15';

+---------------------+-------+-------------+---------+
| ts                  | host  | method_name | latency |
+---------------------+-------+-------------+---------+
| 2024-07-11 20:00:16 | host1 | GetUser     |    3000 |
| 2024-07-11 20:00:17 | host1 | GetUser     |     320 |
| 2024-07-11 20:00:18 | host1 | GetUser     |    3500 |
| 2024-07-11 20:00:19 | host1 | GetUser     |     100 |
| 2024-07-11 20:00:20 | host1 | GetUser     |    2500 |
+---------------------+-------+-------------+---------+
5 rows in set (0.14 sec)

你还可以在过滤数据时使用函数。例如，你可以使用 approx_percentile_cont 函数按主机分组计算响应时间的 95 百分位数：

SELECT 
  approx_percentile_cont(0.95) WITHIN GROUP (ORDER BY latency) AS p95_latency, 
  host
FROM grpc_latencies
WHERE ts >= '2024-07-11 20:00:10'
GROUP BY host;

+-------------------+-------+
| p95_latency       | host  |
+-------------------+-------+
| 4164.999999999999 | host1 |
|               115 | host2 |
+-------------------+-------+
2 rows in set (0.11 sec)

通过关键词搜索日志

通过关键词 timeout 过滤日志消息：

SELECT
  *
FROM
  app_logs
WHERE
  lower(log_msg) @@ 'timeout'
  AND ts > '2024-07-11 20:00:00'
ORDER BY
  ts;

+---------------------+-------+------------------+-----------+--------------------+
| ts                  | host  | api_path         | log_level | log_msg            |
+---------------------+-------+------------------+-----------+--------------------+
| 2024-07-11 20:00:10 | host1 | /api/v1/billings | ERROR     | Connection timeout |
| 2024-07-11 20:00:10 | host1 | /api/v1/resource | ERROR     | Connection timeout |
| 2024-07-11 20:00:14 | host1 | /api/v1/billings | ERROR     | Timeout            |
| 2024-07-11 20:00:14 | host1 | /api/v1/resource | ERROR     | Timeout            |
+---------------------+-------+------------------+-----------+--------------------+

@@ 操作符用于短语搜索。

Range query

你可以使用 range query来实时监控延迟。例如，按 5 秒窗口计算请求的 p95 延迟：

SELECT
  ts,
  host,
  approx_percentile_cont(0.95) WITHIN GROUP (ORDER BY latency)
    RANGE '5s' AS p95_latency
FROM
  grpc_latencies
ALIGN '5s' FILL PREV
ORDER BY
  host,ts;

+---------------------+-------+-------------+
| ts                  | host  | p95_latency |
+---------------------+-------+-------------+
| 2024-07-11 20:00:05 | host1 |       104.5 |
| 2024-07-11 20:00:10 | host1 |        4200 |
| 2024-07-11 20:00:15 | host1 |        3500 |
| 2024-07-11 20:00:20 | host1 |        2500 |
| 2024-07-11 20:00:05 | host2 |         114 |
| 2024-07-11 20:00:10 | host2 |         111 |
| 2024-07-11 20:00:15 | host2 |         115 |
| 2024-07-11 20:00:20 | host2 |          95 |
+---------------------+-------+-------------+
8 rows in set (0.06 sec)

Range query 是一个非常强大的功能，用于基于时间窗口查询和聚合数据，请阅读手册以了解更多。

指标和日志的关联查询

通过组合两个表的数据，你可以快速地确定故障时间和相应的日志。以下 SQL 查询使用 JOIN 操作关联指标和日志：

-- 将指标和日志对齐到 5 秒时间桶，然后关联
WITH
  -- 指标: 每个主机在 5 秒时间桶内的 p95 延迟
  metrics AS (
    SELECT
      ts,
      host,
      approx_percentile_cont(0.95) WITHIN GROUP (ORDER BY latency) RANGE '5s' AS p95_latency
    FROM grpc_latencies
    ALIGN '5s' FILL PREV
  ),
  -- 日志: 相同 5 秒时间桶内每个主机的 ERROR 计数
  logs AS (
    SELECT
      ts,
      host,
      count(log_msg) RANGE '5s' AS num_errors
    FROM app_logs
    WHERE log_level = 'ERROR'
    ALIGN '5s'
  )
SELECT
  m.ts,
  m.p95_latency,
  COALESCE(l.num_errors, 0) AS num_errors,
  m.host
FROM metrics m
LEFT JOIN logs l
  ON m.host = l.host AND m.ts = l.ts
ORDER BY m.ts, m.host;

+---------------------+-------------+------------+-------+
| ts                  | p95_latency | num_errors | host  |
+---------------------+-------------+------------+-------+
| 2024-07-11 20:00:05 |       104.5 |          0 | host1 |
| 2024-07-11 20:00:05 |         114 |          0 | host2 |
| 2024-07-11 20:00:10 |        4200 |         10 | host1 |
| 2024-07-11 20:00:10 |         111 |          0 | host2 |
| 2024-07-11 20:00:15 |        3500 |          4 | host1 |
| 2024-07-11 20:00:15 |         115 |          0 | host2 |
| 2024-07-11 20:00:20 |        2500 |          0 | host1 |
| 2024-07-11 20:00:20 |          95 |          0 | host2 |
+---------------------+-------------+------------+-------+
8 rows in set (0.02 sec)

我们可以看到当 gRPC 响应时间增大的时间窗口内（2024-07-11 20:00:10 ~ 2024-07-11 20:00:15），错误日志也显著增多（从 0 增长到 10 个错误），并且确定问题在 host1。

通过 PromQL 查询数据

GreptimeDB 支持 Prometheus 查询语言及其 API，允许你使用 PromQL 查询指标。例如，你可以使用以下查询获取每个主机在过去 5 秒内的 p95 响应时间：

quantile_over_time(0.95, grpc_latencies{host!=""}[5s])

要测试这个查询，使用以下 curl 命令：

curl -X POST \
  -H 'Authorization: Basic {{authorization if exists}}' \
  --data-urlencode 'query=quantile_over_time(0.95, grpc_latencies{host!=""}[5s])' \
  --data-urlencode 'start=2024-07-11 20:00:00Z' \
  --data-urlencode 'end=2024-07-11 20:00:20Z' \
  --data-urlencode 'step=15s' \
  'http://localhost:4000/v1/prometheus/api/v1/query_range'

这里我们设置 step 为 15 秒。

输出：

{
  "status": "success",
  "data": {
    "resultType": "matrix",
    "result": [
      {
        "metric": {
          "__name__": "grpc_latencies",
          "host": "host1",
          "method_name": "GetUser"
        },
        "values": [
          [
            1720728015.0,
            "3400"
          ]
        ]
      },
      {
        "metric": {
          "__name__": "grpc_latencies",
          "host": "host2",
          "method_name": "GetUser"
        },
        "values": [
          [
            1720728015.0,
            "114"
          ]
        ]
      }
    ]
  }
}

更强大的是，你可以使用 SQL 来执行 PromQL 并混合使用两者，例如：

TQL EVAL ('2024-07-11 20:00:00Z', '2024-07-11 20:00:20Z','15s')
    quantile_over_time(0.95, grpc_latencies{host!=""}[5s]);

这个 SQL 查询将输出：

+---------------------+---------------------------------------------------------+-------+-------------+
| ts                  | prom_quantile_over_time(ts_range,latency,Float64(0.95)) | host  | method_name |
+---------------------+---------------------------------------------------------+-------+-------------+
| 2024-07-11 20:00:15 |                                                    3400 | host1 | GetUser     |
| 2024-07-11 20:00:15 |                                                     114 | host2 | GetUser     |
+---------------------+---------------------------------------------------------+-------+-------------+

重写上面的关联示例：

WITH
  metrics AS (
    TQL EVAL ('2024-07-11 20:00:00Z', '2024-07-11 20:00:20Z', '5s')
      quantile_over_time(0.95, grpc_latencies{host!=""}[5s])
  ),
  logs AS (
    SELECT
      ts,
      host,
      COUNT(log_msg) RANGE '5s' AS num_errors
    FROM app_logs
    WHERE log_level = 'ERROR'
    ALIGN '5s'
  )
SELECT
  m.*,
  COALESCE(l.num_errors, 0) AS num_errors
FROM metrics AS m
LEFT JOIN logs AS l
  ON m.host = l.host
 AND m.ts = l.ts
ORDER BY
  m.ts,
  m.host;

+---------------------+---------------------------------------------------------+-------+-------------+------------+
| ts                  | prom_quantile_over_time(ts_range,latency,Float64(0.95)) | host  | method_name | num_errors |
+---------------------+---------------------------------------------------------+-------+-------------+------------+
| 2024-07-11 20:00:10 |                                      140.89999999999998 | host1 | GetUser     |         10 |
| 2024-07-11 20:00:10 |                                                   113.8 | host2 | GetUser     |          0 |
| 2024-07-11 20:00:15 |                                                    3400 | host1 | GetUser     |          4 |
| 2024-07-11 20:00:15 |                                                     114 | host2 | GetUser     |          0 |
| 2024-07-11 20:00:20 |                                                    3375 | host1 | GetUser     |          0 |
| 2024-07-11 20:00:20 |                                                     115 | host2 | GetUser     |          0 |
+---------------------+---------------------------------------------------------+-------+-------------+------------+

通过使用 TQL 命令，你可以结合 SQL 和 PromQL 的强大功能，使关联分析和复杂查询不再困难。

GreptimeDB 控制台

GreptimeDB 提供了一个仪表板用于数据探索和管理。

数据探索

按照安装部分中的说明启动 GreptimeDB 后，你可以通过 HTTP 地址 http://localhost:4000/dashboard 访问控制台。

点击 + 按钮添加一个新的查询，在命令文本中编写你的 SQL 命令，然后点击 Run All。下方的 SQL 会查询 grpc_latencies 表中的所有数据。

SELECT * FROM grpc_latencies;

然后点击结果面板中的 Chart 按钮来可视化数据。

select gRPC latencies

使用 InfluxDB Line Protocol 导入数据

除了 SQL，GreptimeDB 还支持多种协议，其中最常用之一是 InfluxDB Line Protocol。在仪表板中点击 Ingest 图标，你可以以 InfluxDB Line Protocol 格式上传数据。

例如，将以下数据粘贴到输入框中：

grpc_metrics,host=host1,method_name=GetUser latency=100,code=0 1720728021000000000
grpc_metrics,host=host2,method_name=GetUser latency=110,code=1 1720728021000000000

然后点击 Write 按钮来导入数据到 grpc_metrics 表。如果该表不存在，将会自动创建该表。

下一步

你现在已经体验了 GreptimeDB 的核心功能。要进一步探索和利用 GreptimeDB：

快速开始

连接到 GreptimeDB​

创建表​

写入数据​

查询数据​

根据 tag 和时间索引进行过滤​

通过关键词搜索日志​

Range query​

指标和日志的关联查询​

通过 PromQL 查询数据​

GreptimeDB 控制台​

数据探索​

使用 InfluxDB Line Protocol 导入数据​

下一步​