PHP – 解決fgetcsv()讀取CSV時發生中文字首亂碼問題

一般使用fgetcsv()可以讀取CSV格式文件

我的csv文件是utf-8的編碼,但還是遇到字首會變成亂碼的問題

測了一下發現是因為兩種格式不同產生。

如果CSV檔長這樣「1,李小姐,女」,那麼姓名的欄位可能會變成「�小姐

這時候你加上「"」雙引號,通常就能正常輸出了,也就是強制標準寫法「"1","李小姐","女"」……..

but

整批文件用這個方法勢必不太可行,

況且我用微軟的excel 轉成 csv 並沒有強制欄位使用雙引號的功能,我家的 open officer轉csv就可以選擇,

但公司電腦還要慣open officer我想我懶得弄了~
 
所以以下仰賴網友的重新編寫function 囉!

 
—————————————————————————————————————————————————-

PHP相關的函式真的是很多,而且都蠻簡單操作的
單單要讀CSV檔,只要透過fgetcsv 函式就可以處理,而且還可以把擾人的雙引號問題一併排除,不過在使用時,發現中文的處理上有一些瑕疵

上網找了一些資料,針對此問題有蠻多解法,不過還是要看一下問題發生原因

1.如果你的資料檔是big5,就要在讀入時進行iconv or mb_convert_encoding 轉成UFT-8才能使用

2.如果你都是utf-8還遇到問題,就是fgetcsv 的問題啦(我就是這個啦)

所以找到一篇有人重寫了fgetcsv ,試用後發現問題排除了,所以也分享一下解法

function __fgetcsv(&$handle, $length = null, $d = “,", $e = '"') {
    $d = preg_quote($d);
    $e = preg_quote($e);
    $_line = “";
    $eof=false;
    while ($eof != true) {
        $_line .= (empty ($length) ? fgets($handle) : fgets($handle, $length));
        $itemcnt = preg_match_all('/' . $e . '/', $_line, $dummy);
        if ($itemcnt % 2 == 0)
            $eof = true;
    }
   $_csv_line = preg_replace('/(?: |[ ])?$/', $d, trim($_line));

    $_csv_pattern = '/(' . $e . '[^' . $e . ']*(?:' . $e . $e . '[^' . $e . ']*)*' . $e . '|[^' . $d . ']*)' . $d . '/';
    preg_match_all($_csv_pattern, $_csv_line, $_csv_matches);
    $_csv_data = $_csv_matches[1];

    for ($_csv_i = 0; $_csv_i < count($_csv_data); $_csv_i++) {
        $_csv_data[$_csv_i] = preg_replace(“/^" . $e . “(.*)" . $e . “$/s", “$1″, $_csv_data[$_csv_i]);
        $_csv_data[$_csv_i] = str_replace($e . $e, $e, $_csv_data[$_csv_i]);
    }
    return empty ($_line) ? false : $_csv_data;
}

經過使用上面的函式,中文字解析出來,字首不會再是亂碼了,但有點要特別注意的,如果你後方有帶很多空值的欄位,他會一併清除,這和原本的fgetcsv 不太一樣,在轉換時要特別注意。

—————————————————————————————————————————————————-

from: http://herolin.twbbs.org/entry/fgetcsv-chinese-solution-for-php/
 
 

發表迴響