PostgreSQL 时序数据管理

在 PostgreSQL 中处理时序数据，最常用的方案是借助TimescaleDB扩展。它在保留 PostgreSQL 强大功能（完整 SQL 支持、JOIN 能力、事务一致性）的同时，针对时间序列数据进行了深度优化，适用于物联网传感器、监控指标、日志分析、金融交易等高频数据场景。

核心概念

Hypertable（超级表） 是 TimescaleDB 的核心抽象，它将普通表按时间维度自动分区为多个chunk，结合空间分区（可选）、自动索引和查询优化器，实现高效的写入与查询。

关键特性：

自动分区：按时间范围自动创建和管理 chunk
连续聚合：物化视图自动刷新，聚合查询性能提升 10-100 倍
数据压缩：列式压缩降低 90%+ 存储空间
保留策略：自动清理过期数据
分布式集群：支持多节点水平扩展

安装与初始化

Docker 快速体验（推荐）

docker run -d --name timescaledb \
  -p 5432:5432 \
  -e POSTGRES_PASSWORD=postgres \
  timescale/timescaledb:latest-pg16

Linux 安装

# Ubuntu/Debian
sudo add-apt-repository ppa:timescale/timescaledb-ppa
sudo apt-get update
sudo apt-get install timescaledb-2-postgresql-16

# 初始化配置
sudo timescaledb-tune

启用扩展

-- 连接到数据库后执行
CREATE EXTENSION IF NOT EXISTS timescaledb CASCADE;

-- 验证安装
SELECT timescaledb_version();

创建超级表

基础示例

-- 1. 创建普通表（定义 schema）
CREATE TABLE conditions (
  time TIMESTAMPTZ NOT NULL,
  device_id TEXT NOT NULL,
  temperature DOUBLE PRECISION,
  humidity DOUBLE PRECISION,
  battery_level INTEGER
);

-- 2. 转换为超级表，按 7 天分区
SELECT create_hypertable(
  'conditions',
  'time',
  chunk_time_interval => INTERVAL '7 days'
);

-- 3. 添加空间分区（可选，按设备 ID 哈希）
SELECT add_dimension('conditions', 'device_id', number_partitions => 4);

分区策略建议

数据量	时间间隔	空间分区
< 1000 万行	1 天	不需要
1000 万 -1 亿行	7 天	按设备/区域
> 1 亿行	30 天	多列组合

数据写入与查询

高效写入

-- 单条插入
INSERT INTO conditions (time, device_id, temperature, humidity)
VALUES (NOW(), 'sensor_001', 23.5, 55.0);

-- 批量插入（推荐）
INSERT INTO conditions (time, device_id, temperature, humidity)
VALUES
  (NOW(), 'sensor_001', 23.5, 55.0),
  (NOW(), 'sensor_002', 24.1, 52.3),
  (NOW(), 'sensor_003', 22.8, 58.1);

-- 使用 COPY 命令（超大批量）
COPY conditions FROM '/data/sensors.csv' WITH CSV HEADER;

时间聚合查询

-- 按小时统计平均温度
SELECT
  time_bucket('1 hour', time) AS hour,
  device_id,
  AVG(temperature) AS avg_temp,
  MAX(temperature) AS max_temp,
  MIN(temperature) AS min_temp
FROM conditions
WHERE time > NOW() - INTERVAL '24 hours'
GROUP BY hour, device_id
ORDER BY hour DESC;

-- 降采样：1 分钟数据聚合为小时级别
SELECT
  time_bucket('1 hour', time) AS hour,
  AVG(temperature) AS avg_temp
FROM conditions
WHERE time >= '2025-01-01' AND time < '2025-01-02'
GROUP BY hour;

高级查询功能

-- 时间窗口函数：计算移动平均
SELECT
  time,
  device_id,
  AVG(temperature) OVER (
    PARTITION BY device_id
    ORDER BY time
    ROWS BETWEEN 5 PRECEDING AND CURRENT ROW
  ) AS moving_avg
FROM conditions
ORDER BY time DESC
LIMIT 100;

-- 最新值查询（每个设备最新一条）
SELECT DISTINCT ON (device_id)
  time, device_id, temperature, humidity
FROM conditions
ORDER BY device_id, time DESC;

-- 时间范围 JOIN
SELECT
  c.time,
  c.device_id,
  c.temperature,
  e.event_type
FROM conditions c
LEFT JOIN events e
  ON c.device_id = e.device_id
  AND c.time >= e.start_time
  AND c.time < e.end_time;

连续聚合表

连续聚合（Continuous Aggregates）是 TimescaleDB 的核心优化，它创建物化视图自动维护聚合结果，查询时直接读取预计算数据。

创建聚合视图

-- 创建小时级聚合视图
CREATE MATERIALIZED VIEW hourly_conditions
WITH (timescaledb.continuous) AS
SELECT
  device_id,
  time_bucket('1 hour', time) AS bucket,
  AVG(temperature) AS avg_temp,
  MAX(temperature) AS max_temp,
  MIN(temperature) AS min_temp,
  AVG(humidity) AS avg_humidity
FROM conditions
GROUP BY device_id, bucket
WITH NO DATA;

-- 添加聚合策略（自动刷新）
SELECT add_continuous_aggregate_policy(
  'hourly_conditions',
  start_offset => INTERVAL '1 hour',
  end_offset => INTERVAL '1 minute',
  schedule_interval => INTERVAL '5 minutes'
);

查询优化效果

-- 直接查询聚合视图（毫秒级响应）
SELECT * FROM hourly_conditions
WHERE bucket > NOW() - INTERVAL '7 days'
ORDER BY bucket DESC;

-- 层级聚合：在小时聚合基础上再聚合为天
CREATE MATERIALIZED VIEW daily_conditions
WITH (timescaledb.continuous) AS
SELECT
  device_id,
  time_bucket('1 day', bucket) AS day,
  AVG(avg_temp) AS daily_avg_temp,
  MAX(max_temp) AS daily_max_temp
FROM hourly_conditions
GROUP BY device_id, day
WITH NO DATA;

刷新策略

-- 手动刷新
CALL refresh_continuous_aggregate('hourly_conditions', NULL, NULL);

-- 查看刷新状态
SELECT * FROM timescaledb_information.continuous_aggregates;

数据压缩

TimescaleDB 支持列式压缩，可降低 90%+ 存储空间，同时提升查询性能。

启用压缩

-- 对历史数据启用压缩（30 天前的数据）
SELECT add_compression_policy(
  'conditions',
  older_than => INTERVAL '30 days'
);

-- 手动压缩指定时间范围
SELECT compress_chunk(
  chunk => '_timescaledb_internal.conditions_2025_01',
  if_compressed => TRUE
);

压缩配置

-- 查看压缩统计
SELECT
  chunk_name,
  before_compression_size_bytes,
  after_compression_size_bytes,
  compression_ratio
FROM timescaledb_information.compressed_chunks;

-- 解压数据（需要更新时）
SELECT decompress_chunk('_timescaledb_internal.conditions_2025_01');

数据保留策略

自动清理

-- 保留最近 90 天数据
SELECT add_retention_policy(
  'conditions',
  INTERVAL '90 days',
  cascade_to_materializations => TRUE  -- 同时清理聚合视图
);

-- 删除保留策略
SELECT remove_retention_policy('conditions');

自定义清理逻辑

-- 创建自定义清理函数
CREATE OR REPLACE FUNCTION cleanup_old_data()
RETURNS VOID AS $$
BEGIN
  -- 归档 365 天前的数据到历史表
  INSERT INTO conditions_archive
  SELECT * FROM conditions
  WHERE time < NOW() - INTERVAL '365 days';
  
  -- 删除原始数据
  DELETE FROM conditions
  WHERE time < NOW() - INTERVAL '365 days';
END;
$$ LANGUAGE plpgsql;

-- 添加定时任务
SELECT add_job('cleanup_old_data', INTERVAL '1 day');

性能优化最佳实践

1. 索引策略

-- 超级表自动创建时间索引
-- 手动添加复合索引（加速特定查询）
CREATE INDEX idx_device_time
ON conditions (device_id, time DESC);

-- 部分索引（只索引热数据）
CREATE INDEX idx_recent_data
ON conditions (time, device_id)
WHERE time > NOW() - INTERVAL '7 days';

2. 写入优化

-- 使用事务批量写入
BEGIN;
INSERT INTO conditions VALUES ...;  -- 1000+ 条
COMMIT;

-- 调整 WAL 配置（高吞吐场景）
ALTER SYSTEM SET wal_buffers = '256MB';
ALTER SYSTEM SET checkpoint_completion_target = 0.9;

3. 查询优化

-- 使用 EXPLAIN 分析查询计划
EXPLAIN (ANALYZE, TIMING, BUFFERS)
SELECT time_bucket('1 hour', time), AVG(temperature)
FROM conditions
WHERE time > NOW() - INTERVAL '1 day'
GROUP BY bucket;

-- 强制使用索引
SET enable_seqscan = off;

监控与维护

查看超级表状态

-- 查看 chunk 分布
SELECT * FROM timescaledb_information.hypertables;

-- 查看 chunk 大小
SELECT
  hypertable_name,
  chunk_name,
  size_bytes,
  num_rows
FROM timescaledb_information.chunks
ORDER BY size_bytes DESC;

-- 查看压缩统计
SELECT * FROM timescaledb_information.compressed_chunks;

常见问题排查

-- 查看后台作业状态
SELECT * FROM timescaledb_information.jobs;

-- 查看作业执行历史
SELECT * FROM timescaledb_information.job_stats;

-- 重新平衡 chunk（分布式场景）
SELECT rebalance_chunks();

完整示例：物联网监控系统

-- 1. 创建设备数据表
CREATE TABLE sensor_data (
  time TIMESTAMPTZ NOT NULL,
  device_id TEXT NOT NULL,
  sensor_type TEXT NOT NULL,
  value DOUBLE PRECISION,
  unit TEXT,
  metadata JSONB
);

SELECT create_hypertable('sensor_data', 'time',
  chunk_time_interval => INTERVAL '7 days');

SELECT add_dimension('sensor_data', 'device_id', number_partitions => 8);
SELECT add_dimension('sensor_data', 'sensor_type', number_partitions => 4);

-- 2. 创建小时聚合视图
CREATE MATERIALIZED VIEW hourly_sensor_stats
WITH (timescaledb.continuous) AS
SELECT
  device_id,
  sensor_type,
  time_bucket('1 hour', time) AS bucket,
  AVG(value) AS avg_value,
  MAX(value) AS max_value,
  MIN(value) AS min_value,
  COUNT(*) AS reading_count
FROM sensor_data
GROUP BY device_id, sensor_type, bucket;

SELECT add_continuous_aggregate_policy('hourly_sensor_stats',
  start_offset => INTERVAL '2 hours',
  end_offset => INTERVAL '5 minutes',
  schedule_interval => INTERVAL '10 minutes');

-- 3. 启用压缩（30 天前数据）
SELECT add_compression_policy('sensor_data', INTERVAL '30 days');

-- 4. 设置保留策略（保留 1 年）
SELECT add_retention_policy('sensor_data', INTERVAL '1 year');

-- 5. 创建告警函数
CREATE OR REPLACE FUNCTION check_temperature_alerts()
RETURNS VOID AS $$
BEGIN
  INSERT INTO alerts (time, device_id, alert_type, value)
  SELECT NOW(), device_id, 'HIGH_TEMP', avg_value
  FROM hourly_sensor_stats
  WHERE sensor_type = 'temperature'
    AND avg_value > 50
    AND bucket > NOW() - INTERVAL '1 hour';
END;
$$ LANGUAGE plpgsql;

SELECT add_job('check_temperature_alerts', INTERVAL '5 minutes');

总结

TimescaleDB 让 PostgreSQL 具备了企业级时序数据处理能力：

特性	优势
PB 级存储	自动分区 + 压缩，存储成本降低 90%+
毫秒级查询	连续聚合 + 索引优化
SQL 兼容性	完整 PostgreSQL 生态，无需学习新语法
平滑迁移	现有 PostgreSQL 项目可直接升级
云原生支持	Timescale Cloud、Kubernetes Operator

适用场景：

✅ 物联网设备监控（传感器数据）
✅ IT 运维监控（指标、日志）
✅ 金融交易分析（股票、期货）
✅ 业务数据分析（用户行为、转化率）

不适用场景：

❌ 超低延迟写入（< 1ms）→ 考虑 InfluxDB
❌ 纯内存实时分析 → 考虑 ClickHouse
❌ 简单键值查询 → 考虑 Redis