PHP – 解決fgetcsv()讀取CSV時發生中文字首亂碼問題
一般使用fgetcsv()可以讀取CSV格式文件
我的csv文件是utf-8的編碼,但還是遇到字首會變成亂碼的問題
測了一下發現是因為兩種格式不同產生。
如果CSV檔長這樣「1,李小姐,女」,那麼姓名的欄位可能會變成「�小姐」
這時候你加上「"」雙引號,通常就能正常輸出了,也就是強制標準寫法「"1","李小姐","女"」……..
but
整批文件用這個方法勢必不太可行,
況且我用微軟的excel 轉成 csv 並沒有強制欄位使用雙引號的功能,我家的 open officer轉csv就可以選擇,
但公司電腦還要慣open officer我想我懶得弄了~
所以以下仰賴網友的重新編寫function 囉!
—————————————————————————————————————————————————-
PHP相關的函式真的是很多,而且都蠻簡單操作的
單單要讀CSV檔,只要透過fgetcsv 函式就可以處理,而且還可以把擾人的雙引號問題一併排除,不過在使用時,發現中文的處理上有一些瑕疵
上網找了一些資料,針對此問題有蠻多解法,不過還是要看一下問題發生原因
1.如果你的資料檔是big5,就要在讀入時進行iconv or mb_convert_encoding 轉成UFT-8才能使用
2.如果你都是utf-8還遇到問題,就是fgetcsv 的問題啦(我就是這個啦)
所以找到一篇有人重寫了fgetcsv ,試用後發現問題排除了,所以也分享一下解法
$d = preg_quote($d);
$e = preg_quote($e);
$_line = “";
$eof=false;
while ($eof != true) {
$_line .= (empty ($length) ? fgets($handle) : fgets($handle, $length));
$itemcnt = preg_match_all('/' . $e . '/', $_line, $dummy);
if ($itemcnt % 2 == 0)
$eof = true;
}
$_csv_line = preg_replace('/(?: |[ ])?$/', $d, trim($_line));
$_csv_pattern = '/(' . $e . '[^' . $e . ']*(?:' . $e . $e . '[^' . $e . ']*)*' . $e . '|[^' . $d . ']*)' . $d . '/';
preg_match_all($_csv_pattern, $_csv_line, $_csv_matches);
$_csv_data = $_csv_matches[1];
for ($_csv_i = 0; $_csv_i < count($_csv_data); $_csv_i++) {
$_csv_data[$_csv_i] = preg_replace(“/^" . $e . “(.*)" . $e . “$/s", “$1″, $_csv_data[$_csv_i]);
$_csv_data[$_csv_i] = str_replace($e . $e, $e, $_csv_data[$_csv_i]);
}
return empty ($_line) ? false : $_csv_data;
}
經過使用上面的函式,中文字解析出來,字首不會再是亂碼了,但有點要特別注意的,如果你後方有帶很多空值的欄位,他會一併清除,這和原本的fgetcsv 不太一樣,在轉換時要特別注意。
—————————————————————————————————————————————————-
from: http://herolin.twbbs.org/entry/fgetcsv-chinese-solution-for-php/