URL 含中文路径名称的终极解法 - 利用 mod_fileiri 解决中文档名问题
当然,对付中文档名问题的最好的解决方法就是「绝对不要用中文档名」,然而在许多不得已的状况下,我们还是被迫要使用中文档名,这时候问题就来了....
在 Web Server 上使用中文档名最常遇到的问题就是会发生无法存取的错误
发生这种状况最主要的原因就是在 URL 的定义当中,并没有任何关于字符集(Charset)的信息。只有要求对于 URL 中的非 ASCII 符号,要用百分比符号的方式去编码 (例如: %A4 )
举个例子来说,对于下面这个含中文档名的 URL
http://bbs.giga.net.tw/fileiri/中文.html
由于「中文」两个字并非合法的 ASCII 字符,因此当你在浏览器的网址列输入上面这串 URL 时,浏览器会把非 ASCII 字符部分转换成 %HH 的形式输出
(关于 URL 的编码方式,可参阅 Non-ASCII characters in URI attribute values 一文的说明)
但是,URL 中的中文字到底要用 BIG5 还是用 UTF-8 字符集来表示并编码呢?
在微软的 IE 里面,工具→因特网选项→进阶 有个选项「永远将 URL 传送成 UTF-8」
如果是英文版则是「Always send URLs as UTF-8」
这个选项打勾的时候(这也是大部分计算机内定的状况),URL 中的中文字会被当成 Unicode,并用 UTF-8 编码方式送出,因此 URL 会被浏览器偷偷转成:
http://bbs.giga.net.tw/fileiri/%E4%B8%AD%E6%96%87.html
也就是说,「中文」这两个字会被浏览器用 UTF-8 编码成「%E4%B8%AD%E6%96%87」的型式后,再把这个编码过的 URL 送去给服务器
大部分的中文字用 UTF-8 编码会变成 3 个 bytes,所以「中文」两字就变成上面这 6 个 bytes 的编码「%E4%B8%AD%E6%96%87」
但如果前述的「永远将 URL 传送成 UTF-8」选项是没有打勾的,那情况就不一样了,
这时候 URL 中的中文字会以 BIG5 的形式编码送出,URL 就会变成这样:
http://bbs.giga.net.tw/fileiri/%A4%A4%A4%A5.html
每个中文字用 BIG5 编码会变成 2 个 bytes,所以「中文」这两个字就变成上面这 4 个 bytes 的编码「%A4%A4%A4%A5」
这是在客户端浏览器的乱象,不同的浏览器或甚至只是不同的设定,对同样中文档名所送出的 URL 编码格式都可能会不一样
那服务器收到这串 URL 要怎么处理呢?
如同前面所述,URL 网址本身并不含字符集(Charset)的信息,因此服务器当然也无法知道客户端浏览器采用那个字符集来对 URL 中的中文文件名解释、编码
所以服务器的标准动作就变成「收到什么档名就去读什么档案」
收到 UTF-8 编码的 URL,就用这个 UTF-8 的文件名称去 File System 找档案,收到 BIG5 编码的 URL,就用这个 BIG5 的文件名称去 File System 找档案
所以如果档案系统中的文件名是采用 UTF-8 编码,那用 BIG5 编码的 URL 去找档案就会找不到... 相反的,如果档案系统中的文件名是采用 BIG5 编码,那么用 UTF-8 编码的 URL 也会找不到档案!
尤其在 Apache/UNIX 的环境下,从 Windows 用 FTP 把档案上传时,中文文件名称大多会使用 BIG5 的档名格式上传储存
所以大多数这类的系统都会要求用户不要在上述「永远将 URL 传送成 UTF-8」这个选项打勾,这样存取 BIG5 的中文档名就不会有问题了
不过,这种方式不是很友善,对于大多数的网友而言,要去改浏览器设定是很不方便的!
那有没有办法让浏览器不用更改设定就可以完美解决呢?
其实是有的,那就是这篇文章要介绍的 mod_fileiri 这个 Apache module
mod_fileiri 的最主要功用就是让服务器可以想办法去判断 URL 的编码,然后帮忙做转码、转址的动作,让服务器可以同时处理 UTF-8 及其它字符集的 URL 编码
以下是在 FreeBSD 下安装及设定 mod_fileiri 的方法:
首先是从 CVS 中取得这个 module:
# fetch http://dev.w3.org/cvsweb/~checkout~/apache-modules/mod_fileiri/mod_fileiri.c
然后用 apxs 来编译及安装这个 module... (请用 root 身份执行)
# /usr/local/sbin/apxs -i -a -c mod_fileiri.c
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
cp .libs/mod_fileiri.so /usr/local/libexec/apache2/mod_fileiri.so
----------------------------------------------------------------------
Libraries have been installed in:
/usr/local/libexec/apache2
If you ever happen to want to link against installed libraries
in a given directory, LIBDIR, you must either use libtool, and
specify the full pathname of the library, or use the `-LLIBDIR'
flag during linking and do at least one of the following:
- add LIBDIR to the `LD_LIBRARY_PATH' environment variable
during execution
- add LIBDIR to the `LD_RUN_PATH' environment variable
during linking
- use the `-Wl,--rpath -Wl,LIBDIR' linker flag
See any operating system documentation about shared libraries for
more information, such as the ld(1) and ld.so(8) manual pages.
----------------------------------------------------------------------
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
Warning! dlname not found in /usr/local/libexec/apache2/mod_fileiri.la.
Assuming installing a .so rather than a libtool archive.
chmod 755 /usr/local/libexec/apache2/mod_fileiri.so
[activating module `fileiri' in /usr/local/etc/apache2/httpd.conf]
apxs 不但会产生 mod_fileiri.so 并把它复制到 /usr/local/libexec/apache2/ 下面,
甚至还会帮你把 httpd.conf 的设定改好喔!
然后你只要重新启动 Apache 就完成了,简单吧!
# /usr/local/etc/rc.d/apache2.sh restart
接下来就要开始设定 mod_fileiri 的工作了...
mod_fileiri 有三个 directives 可用,分别是 FileIRI、FilenameCharset、OldFilenameCharset,位置可以放在 Server Config / Directory / Virtual Host 里面,甚至 .htaccess 里面也可..
FileIRI 有四个选项: Off、On、Backwards、Only
Off 就不用说了,设定成 Off 等于是没有设定的状况
On 则是指档案系统上面的目录或文件名称使用的是比较旧的编码方式(Legacy Encoding),例如 BIG5,然后提供档案给所有采用 UTF-8 编码过的 URL,同时,如果 mod_fileiri 发现 URL 并不是采用 UTF-8 编码,就会对该 URL 做一个 HTTP/1.0 301 Moved Permanently,把它 redirect 到 UTF-8 型式的 URL
如果以前述的例子来看,设定应该是这样的 (我习惯直接设在目录的 .htaccess 下面)
<IfModule mod_fileiri.c>
FileIRI On
FilenameCharset Big5
</IfModule>
这样设定之后,我们用 wget 来测试一下:
# wget -S -O /dev/null http://bbs.giga.net.tw/fileiri/中文.html
--10:29:34-- http://bbs.giga.net.tw/fileiri/%A4%A4%A4%E5.html
=> `/dev/null'
Resolving bbs.giga.net.tw... 203.187.29.180
Connecting to bbs.giga.net.tw|203.187.29.180|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.0 301 Moved Permanently
Date: Thu, 08 Sep 2005 02:29:37 GMT
Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
Content-Length: 354
Content-Type: text/html; charset=iso-8859-1
X-Cache: MISS from WebAmpRP@GIGAMEDIA
Connection: keep-alive
Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html [following]
--10:29:34-- http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
=> `/dev/null'
Reusing existing connection to bbs.giga.net.tw:80.
HTTP request sent, awaiting response...
HTTP/1.0 200 OK
Date: Wed, 07 Sep 2005 12:36:30 GMT
Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
Last-Modified: Wed, 07 Sep 2005 12:31:33 GMT
ETag: "30bd3-14-b986f340;bc359880"
Accept-Ranges: bytes
Content-Length: 20
Content-Type: text/html
Age: 451
X-Cache: HIT from WebAmpRP@GIGAMEDIA
Connection: keep-alive
Length: 20 [text/html]
100%[====================================>] 20
10:29:34 (1.59 MB/s) - `/dev/null' saved [20/20]
从上面可以看到,原本用 BIG5 编码的 URL,被 redirect 成 UTF-8 型式的 URL,然后就可以正确取得档案,而这个档案「中文.html」在档案系统上是用 BIG5 型式命名的
因此,利用 FileIRI On 就可以顺利解决大部分的中文档名问题了!
那如果你的文件名称是采用 UTF-8 命名的呢?这时候你就需要使用 Backwards 这个选项,例如:
<IfModule mod_fileiri.c>
FileIRI Backwards
OldFilenameCharset Big5
</IfModule>
上述设定的意思是说,所有档案系统上的档案都是用 UTF-8 命名,但是对于不是使用 UTF-8 编码方式的 URL,就会把它 redirect 到 UTF-8 的版本,一样可以提供服务
FileIRI 还有另外一个选项 Only,这个选项则是设定只提供服务给 UTF-8 编码过的 URL,而档案系统上的档案则是使用 Legacy Encoding。这个方式较不常用,就不多作介绍了
各种设定组合产生的效果可以参考 mod_fileiri 原始网站上面的说明:
http://www.w3.org/2003/06/mod_fileiri/
关于 URL 的字符集编码问题,可以参考下面这篇更详细的说明:
An Introduction to Multilingual Web Addresses - Handling the path