PHP对PostgreSQL的全文搜索（Full-Text Search）：性能优化与中文分词集成 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

PHP对PostgreSQL的全文搜索：性能优化与中文分词集成

大家好，今天我们来聊聊PHP中如何高效地利用PostgreSQL的全文搜索功能，并探讨如何集成中文分词以提升搜索效果。全文搜索不仅仅是简单的关键词匹配，而是理解文本内容，提供更准确、更相关的搜索结果。

一、PostgreSQL全文搜索基础

PostgreSQL内置了强大的全文搜索功能，它依赖于tsvector（文档向量）和tsquery（查询向量）两种数据类型，以及一系列函数和操作符。

tsvector: 表示经过分词和规范化的文档内容。它存储的是词位（lexeme）及其在文档中的位置。
tsquery: 表示搜索查询，可以包含关键词、布尔运算符（AND, OR, NOT）和词位匹配规则。
to_tsvector(): 函数，将文本转换为tsvector。需要指定一个配置（configuration），决定如何分词和规范化。
to_tsquery(): 函数，将查询字符串转换为tsquery。
@@ 操作符: 判断一个tsvector是否匹配一个tsquery。

示例：基本全文搜索

-- 创建一个简单的表
CREATE TABLE articles (
    id SERIAL PRIMARY KEY,
    title VARCHAR(255),
    content TEXT,
    content_tsvector TSVECTOR
);

-- 创建一个触发器，自动更新content_tsvector列
CREATE TRIGGER articles_tsvector_update
BEFORE INSERT OR UPDATE
ON articles
FOR EACH ROW
EXECUTE FUNCTION tsvector_update_trigger('content_tsvector', 'pg_catalog.english', 'title', 'content');

-- 插入数据
INSERT INTO articles (title, content) VALUES
('PostgreSQL Full-Text Search', 'This article discusses full-text search capabilities in PostgreSQL.');

-- 创建索引 (稍后讨论索引优化)
CREATE INDEX articles_content_tsvector_idx ON articles USING GIN (content_tsvector);

-- 查询
SELECT id, title FROM articles WHERE content_tsvector @@ to_tsquery('english', 'full & text');

这段代码演示了如何在PostgreSQL中进行基本的全文搜索。关键点包括：

创建一个表 articles，包含 title，content 和 content_tsvector 列。content_tsvector 用来存储文档的 tsvector。
创建一个触发器 articles_tsvector_update，它会在插入或更新文章时自动更新 content_tsvector 列。tsvector_update_trigger 函数接受四个参数：
- 要更新的 tsvector 列名 (content_tsvector)。
- 使用的配置 (pg_catalog.english)。
- 要用于生成 tsvector 的文本列 (title, content)。
插入一些示例数据。
创建一个GIN索引来加速全文搜索。
使用 @@ 操作符和 to_tsquery() 函数进行查询。to_tsquery('english', 'full & text') 将查询字符串 ‘full & text’ 转换为一个 tsquery 对象，表示要查找同时包含 ‘full’ 和 ‘text’ 的文档。

二、PHP集成PostgreSQL全文搜索

PHP可以通过pg_query()函数与PostgreSQL交互，执行SQL查询。

<?php

$dbconn = pg_connect("host=localhost dbname=mydb user=myuser password=mypassword")
    or die('Could not connect: ' . pg_last_error());

$searchTerm = $_GET['q']; // 从GET请求获取搜索词

// 使用 pg_escape_string 防止 SQL 注入
$escapedSearchTerm = pg_escape_string($dbconn, $searchTerm);

// 构建SQL查询
$query = "SELECT id, title FROM articles WHERE content_tsvector @@ to_tsquery('english', '$escapedSearchTerm')";

$result = pg_query($dbconn, $query);

if (!$result) {
    echo "An error occurred.n";
    exit;
}

echo "<ul>";
while ($row = pg_fetch_assoc($result)) {
    echo "<li><a href="article.php?id={$row['id']}">{$row['title']}</a></li>";
}
echo "</ul>";

pg_free_result($result);
pg_close($dbconn);

?>

这段PHP代码从GET请求中获取搜索词，使用pg_escape_string函数进行转义以防止SQL注入，然后构建并执行SQL查询。查询结果以列表的形式显示。

三、性能优化

全文搜索的性能至关重要。以下是一些优化技巧：

GIN索引: GIN（Generalized Inverted Index）索引是专门为全文搜索设计的。它可以显著加速tsvector的搜索。
```
CREATE INDEX articles_content_tsvector_idx ON articles USING GIN (content_tsvector);
```
数据类型选择: tsvector适合存储文档向量。尽量避免在运行时将文本转换为tsvector，而是在数据插入/更新时预先计算并存储。
触发器优化: 触发器用于自动更新tsvector列。确保触发器的执行效率，避免不必要的计算。
查询优化:
- 使用to_tsquery()而不是plainto_tsquery()，后者更适合简单的关键词搜索，而前者可以处理更复杂的查询，例如布尔运算符。
- 使用ts_rank()或ts_rank_cd()函数对搜索结果进行排序，将最相关的结果排在前面。
- 限制搜索结果的数量，使用LIMIT子句。
```
SELECT id, title, ts_rank_cd(content_tsvector, to_tsquery('english', '$escapedSearchTerm')) AS rank
FROM articles
WHERE content_tsvector @@ to_tsquery('english', '$escapedSearchTerm')
ORDER BY rank DESC
LIMIT 10;
```
配置优化: 选择合适的配置（configuration）对于分词和规范化至关重要。PostgreSQL提供了多种内置配置，例如english、simple和german。你可以创建自定义配置以满足特定的需求。
分区表: 对于大型数据集，可以考虑使用分区表来提高查询性能。

四、中文分词集成

PostgreSQL内置的全文搜索功能主要针对英文设计。对于中文，需要集成中文分词器。这里我们介绍两种方法：

1. 使用zhparser扩展

zhparser 是一个流行的 PostgreSQL 中文分词扩展。

安装 zhparser:

# Debian/Ubuntu
sudo apt-get install postgresql-server-dev-all  # 安装 PostgreSQL 开发包
git clone https://github.com/amutu/zhparser.git
cd zhparser
make
sudo make install
sudo su postgres -c "psql -d your_database -c 'CREATE EXTENSION zhparser;'"

配置 zhparser:

-- 创建自定义配置
CREATE TEXT SEARCH CONFIGURATION chinese (PARSER = zhparser);

-- 添加词典
ALTER TEXT SEARCH CONFIGURATION chinese ADD MAPPING FOR n,v,a,e,i,l TO simple;

-- 设置默认配置 (可选)
ALTER DATABASE your_database SET default_text_search_config = 'chinese';

使用 zhparser:

-- 使用 to_tsvector 和 to_tsquery 函数
SELECT to_tsvector('chinese', '这是一个使用zhparser进行中文分词的例子');
SELECT to_tsquery('chinese', '中文 分词');

-- 更新触发器
CREATE TRIGGER articles_tsvector_update
BEFORE INSERT OR UPDATE
ON articles
FOR EACH ROW
EXECUTE FUNCTION tsvector_update_trigger('content_tsvector', 'chinese', 'title', 'content');

-- 查询
SELECT id, title FROM articles WHERE content_tsvector @@ to_tsquery('chinese', '中文 & 分词');

2. 使用其他外部分词工具 (例如：jieba)

这种方法涉及到在PHP端进行分词，然后将分词结果作为关键词传递给PostgreSQL。

PHP端分词：

可以使用PHP的jieba扩展或者其他分词库进行分词。

<?php
require_once "vendor/autoload.php"; // 假设你使用 Composer 安装了 jieba-php

use FukuballJiebaJieba;
use FukuballJiebaFinalseg;

Jieba::init();
Finalseg::init();

$text = "这是一个使用jieba-php进行中文分词的例子";
$segments = Jieba::cut($text);

$keywords = implode(" & ", $segments); // 将分词结果用 & 连接

echo $keywords; // 输出例如：这 & 是 & 一个 & 使用 & jieba-php & 进行 & 中文 & 分词 & 的 & 例子
?>

PostgreSQL查询：

将分词结果传递给PostgreSQL，构建查询。

<?php
// ... (连接数据库等代码) ...

$text = "这是一个使用jieba-php进行中文分词的例子";
$segments = Jieba::cut($text);
$keywords = implode(" & ", $segments);

$escapedKeywords = pg_escape_string($dbconn, $keywords);

$query = "SELECT id, title FROM articles WHERE content_tsvector @@ to_tsquery('simple', '$escapedKeywords')"; // 使用 'simple' 配置，因为分词已经在PHP端完成

// ... (执行查询等代码) ...
?>

两种方法的比较：

特性	zhparser	外部分词工具 (jieba-php)
分词位置	PostgreSQL服务器端	PHP客户端
性能	理论上服务器端分词性能更好（减少数据传输）	可能受到PHP性能限制
安装配置	较为复杂，需要编译和配置	相对简单，只需要安装PHP扩展或库
灵活性	配置相对固定	更灵活，可以自定义分词算法和词典
与PostgreSQL集成	更紧密，可以直接使用PostgreSQL的全文搜索功能	需要手动构建查询，集成度较低
更新	更新分词规则需要更新扩展	更新分词词典或算法更方便

五、示例：集成zhparser的完整PHP代码

<?php

$dbconn = pg_connect("host=localhost dbname=mydb user=myuser password=mypassword")
    or die('Could not connect: ' . pg_last_error());

$searchTerm = $_GET['q'];

$escapedSearchTerm = pg_escape_string($dbconn, $searchTerm);

// 使用 'chinese' 配置进行中文分词
$query = "SELECT id, title, ts_rank_cd(content_tsvector, to_tsquery('chinese', '$escapedSearchTerm')) AS rank
          FROM articles
          WHERE content_tsvector @@ to_tsquery('chinese', '$escapedSearchTerm')
          ORDER BY rank DESC
          LIMIT 10";

$result = pg_query($dbconn, $query);

if (!$result) {
    echo "An error occurred.n";
    exit;
}

echo "<ul>";
while ($row = pg_fetch_assoc($result)) {
    echo "<li><a href="article.php?id={$row['id']}">{$row['title']}</a> (Rank: {$row['rank']})</li>";
}
echo "</ul>";

pg_free_result($result);
pg_close($dbconn);

?>

六、一些需要注意的点

SQL注入: 始终使用pg_escape_string()或预处理语句来防止SQL注入。
字符编码: 确保数据库、PHP脚本和HTML页面使用相同的字符编码（通常是UTF-8）。
配置选择: 根据你的具体需求选择合适的配置。如果内置配置不满足需求，可以创建自定义配置。
测试: 充分测试你的全文搜索功能，确保它能够正确地处理各种查询。
持续优化: 定期评估全文搜索的性能，并根据需要进行优化。

七、高级技巧

自定义词典: 创建自定义词典可以提高分词的准确性。PostgreSQL允许你创建和管理自定义词典。
停用词: 停用词是指在搜索中忽略的常见词语（例如，“的”、“是”）。你可以配置停用词列表以提高搜索效率。
词干提取: 词干提取是将词语还原到其基本形式的过程（例如，“running”还原为“run”）。PostgreSQL支持词干提取，可以提高搜索的相关性。
模糊搜索: 可以使用fuzzystrmatch扩展来实现模糊搜索。

八、更简洁的概括

PostgreSQL 的全文搜索功能强大，通过恰当的PHP集成、性能优化以及中文分词方案，能构建高效且智能的搜索应用。选择合适的分词策略并持续优化是关键。

PHP对PostgreSQL的全文搜索：性能优化与中文分词集成

发表回复 取消回复

发表回复取消回复