專題文章 :

PHP判斷字串中最少要有一個中文字

作者網頁設計師於 2025年05月22日 18:50:00 (2789 次閱讀)

有使用者詢問如何在 PHP 中判斷字串中最少要有一個中文字。這是一個關於 PHP 字串處理和正則表達式的技術問題。

我提供幾種方法來檢測字串中是否包含至少一個中文字符：

使用正則表達式 (preg_match)
使用 Unicode 範圍來匹配中文字符
可能還有其他方法

中文字符的 Unicode 範圍主要包括：

基本中文字符：\u4e00-\u9fff
也可以考慮其他中文相關的範圍

這裡我提供清晰的代碼示例和解釋。

在 PHP 中判斷字串是否包含至少一個中文字符，可以使用正則表達式配合 Unicode 字符範圍來實現。

主要實現方法

使用 preg_match() 函數搭配正則表達式是最有效的解決方案。中文字符主要位於 Unicode 範圍 \u4e00-\u9fff 中，這涵蓋了常用的中日韓統一表意文字。

php
function hasChinese($string) {
    return preg_match('/[\x{4e00}-\x{9fff}]/u', $string);
}

// 使用範例
$test1 = "Hello World";           // 無中文
$test2 = "Hello 世界";            // 有中文
$test3 = "完全是中文";            // 全中文
$test4 = "123abc";                // 無中文

var_dump(hasChinese($test1)); // int(0) - false
var_dump(hasChinese($test2)); // int(1) - true
var_dump(hasChinese($test3)); // int(1) - true
var_dump(hasChinese($test4)); // int(0) - false

更完整的實現

若需要涵蓋更廣泛的中文字符範圍，可以擴展正則表達式：

php
function hasChineseExtended($string) {
    // 包含基本中文、擴展A區、擴展B區等
    $pattern = '/[\x{4e00}-\x{9fff}\x{3400}-\x{4dbf}\x{20000}-\x{2a6df}]/u';
    return preg_match($pattern, $string);
}

實用的驗證函數

結合實際應用需求，可以建立更完整的驗證函數：

php
function validateChineseRequired($string) {
    // 移除空白字符後檢查
    $trimmed = trim($string);
    
    // 檢查是否為空
    if (empty($trimmed)) {
        return false;
    }
    
    // 檢查是否包含中文
    return preg_match('/[\x{4e00}-\x{9fff}]/u', $trimmed) > 0;
}

// 使用範例
$inputs = [
    "   ",                    // 空字串
    "English only",          // 純英文
    "產品名稱123",           // 包含中文
    "  Chinese 中文  "       // 包含中文（有空格）
];

foreach ($inputs as $input) {
    $result = validateChineseRequired($input) ? '通過' : '不通過';
    echo "'{$input}': {$result}\n";
}

重要注意事項

在使用正則表達式處理 Unicode 字符時，務必在模式末尾加上 u 修飾符，這確保 PHP 正確處理 UTF-8 編碼的字符。同時，請確認您的 PHP 檔案和資料庫都使用 UTF-8 編碼，避免字符處理上的問題。

這種方法效率高且可靠，適合在表單驗證、資料處理等場景中使用。

中文擴展A區與擴展B區介紹

Unicode 中日韓統一表意文字擴展區域概述

Unicode 標準中的中日韓統一表意文字（CJK Unified Ideographs）分佈在多個不同的編碼區塊中。除了基本區域 U+4E00-U+9FFF 包含最常用的漢字外，還設立了多個擴展區域來容納更多的漢字變體和歷史文字。

擴展A區（Extension A）

擴展A區位於 Unicode 範圍 U+3400-U+4DBF，包含 6,592 個字符位置。此區域於 Unicode 3.0 版本中首次引入，主要收錄較少使用的漢字、古代文字以及地名人名中出現的特殊字符。

擴展A區的字符通常出現在學術研究、古典文獻以及特定的地理名稱中。這些字符在日常應用中相對罕見，但在處理歷史文獻、族譜資料或專業學術內容時具有重要意義。現代作業系統和字體通常都支援此區域的字符顯示。

擴展B區（Extension B）

擴展B區涵蓋 Unicode 範圍 U+20000-U+2A6DF，是一個significantly更大的區域，包含 42,720 個字符位置。此區域於 Unicode 3.1 版本中加入，收錄了大量的罕見漢字、古代變體字以及各種方言中使用的特殊字符。

擴展B區的字符極為罕見，主要用於專業的漢字研究、古籍整理以及特定的學術應用。由於這些字符的使用頻率極低，許多標準字體並不包含此區域的字符，可能需要特殊的字體支援才能正確顯示。

實際應用考量

在開發涉及中文處理的系統時，需要根據具體需求決定是否包含擴展區域的支援。對於一般的商業應用和日常文本處理，基本區域已經足夠應付絕大部分需求。然而，對於學術研究平台、古籍數位化項目或需要處理歷史文獻的系統，則可能需要考慮包含擴展區域的支援。

技術實現注意事項

在 PHP 中處理這些擴展區域時，需要確保正則表達式能夠正確處理四位元組的 UTF-8 字符。擴展B區的字符需要四個位元組來編碼，這要求系統具備完整的 UTF-8 支援能力。同時，資料庫設計時也需要選擇適當的字符集設定，例如 MySQL 中的 utf8mb4，以確保能夠正確儲存和檢索這些字符。

開發人員在決定是否包含擴展區域支援時，應該評估目標使用者的實際需求、系統效能影響以及字體支援的可用性，以制定最適合的技術方案。