用代理自动配置文件PAC给iPhone和iPad设备添加socks代理

iOS实际上支持socks代理的,但在 iPhone和iPad设备的

Setting -> WLAN 下只能看到HTTP Proxy

HTTP Prxoy有3种模式: 关闭Off/手动Manual/自动Auto

用自动配置文件,就可以支持socks代理

1
2
3
4
function FindProxyForURL(url, host)
{
     return "SOCKS proxy_host:proxy_port";
}

将上面的proxy_host和proxy_port换成socks服务器实际的IP地址和端口
然后保存为 proxy.pac
放到 http://you_http_server/proxy.pac

在 iPhone设备中,添加自动配置 URL 为上面的地址,就可以使用socks代理了

扩展1:
局域网流量不要用代理

1
2
3
4
5
6
7
function FindProxyForURL(url, host)
{
    if (isInNet(host, "192.168.1.0", "255.255.255.0"))
        return "DIRECT";
 
    return "SOCKS proxy_host:proxy_port";
}

参考资料  代理自动配置(Proxy Auto Config)

一个PAC文件包含一个JavaScript的函数”FindProxyForURL(url, host)”. 这个函数返回一个包含一个或多个访问规则的字符串。用户代理根据这些规则适用一个特定的代理其或者直接访问。 当一个代理服务器无法响应的时候,多个访问规则提供了其他的后备访问方法。 浏览器在访问其他页面以前,首先访问这个PAC文件。PAC文件中的URL可能是手工配置的,也可能是是通过网页的网络代理自发现协议(Web Proxy Autodiscovery Protocol)自动配置的。

为了完整性和最佳的兼容性,我们应该设置网页服务器(apache或者nginx,lighttpd等等)将这个pac文件的MIME类型声明为 application/x-ns-proxy-autoconfig 或者 application/x-javascript-config
对于现代浏览器来说,两种mime类型都没有问题, 但 application/x-ns-proxy-autoconfig 相对 application/x-javascript-config 被更多的客户端所支持, 因为它被定义在最初的Netscape规范里

FindProxyForURL的返回值,可以是以下3种之一,或者是它们的组合

DIRECT
直接连接,不使用代理

PROXY host:port
   使用指定的http代理

SOCKS host:port
   使用指定的SOCKS代理
如果是多个组合,要用 分号;拼接起来
并且,放在最左边的优先级最高,如果最左边的失败,依次往右边尝试

如果最左边的代理服务器挂掉了,并且你在右边没有指定DIRECT选项, 浏览器应该会问你
代理服务器挂了,能不能临时忽略它,直接连接网络?

参考资料  PAC Functions (强烈推荐)
Navigator Proxy Auto-Config File Format (NetScape原始规范)
The Practical Proxy PAC file guid (最最强烈推荐)

shExpMatch(str, shexp)
第1个参数str, 待比较的任意字符串,一般是url或者host
第2个参数shexp是shell表达式,随意可以有*号通配符

isPlainHostName(host)
如果host是不含有”.”, 说明是一个主机名, 就返回true;
如果有点号,说明是一个域名, 返回false
host是从URL中分离出来的主机名(不包括端口号)

isInNet(host_or_ip, pattern, mask)
这个函数将会考察第1个参数 ip地址 (如果传入的参数是主机名,会被自动转换为ip地址)
看它是否在 第2个参数pattern 和 第3个参数 mask 决定的子网络范围内

例如

1
2
3
4
5
if (isInNet(dnsResolve(host), "172.16.0.0", "255.240.0.0"))
    return "DIRECT";
 
if (isInNet(myIpAddress(), "10.10.1.0", "255.255.255.0"))
    return "PROXY 10.10.5.1:8080";

其中myIpAddress() 返回 浏览器所在的主机的当前IP地址, 很多时候这是个局域网地址

dnsResolve(host) 将host解析为ip地址

1
2
3
4
5
6
var resolved_ip = dnsResolve(host);
if (isInNet(dnsResolve(host), "10.0.0.0", "255.0.0.0") ||
    isInNet(dnsResolve(host), "172.16.0.0""255.240.0.0") ||
    isInNet(dnsResolve(host), "192.168.0.0", "255.255.0.0") ||
    isInNet(dnsResolve(host), "127.0.0.0", "255.255.255.0"))
    return "DIRECT";

这段必须用上啊

dnsDomainIs(host, domain)

if (dnsDomainIs(host, “.google.com”))
return “DIRECT”;

其中host是从URL分离出来的主机名

localHostOrDomainIs(host, hostdom)

if (localHostOrDomainIs(host, “www.google.com”))
return “DIRECT”;

hostdom 是 域名全称
host 既可以是 域名,也可以是 简短主机名
如果是域名,必须完全同 hostdom 匹配
如果是主机名,必须同 hostdom的主机名 要完全匹配

isResolvable(host)

dnsResolve(host)

dnsDomainLevels(host)

dnsDomainLevels(“www”)

返回 0

dnsDomainLevels(“www.netscape.com”)
返回 2
调试是个大问题
PAC是一个javascript脚本,浏览器在每次请求一个URL之前,都会运行它.
但它和普通的js脚本有点不同

1)在PAC中,有个几个特殊的函数,它只能在PAC运行,在普通的js脚本运行会报告
“is not defined”
比如 shExpMatch

2)PAC的执行,也不支持js的所有特性.

3)在不同的浏览器中,对pac脚本的执行有着不同的实现方式.
可以用Firefox的错误控制台来查看错误信息
IE也支持alert()
并且 pac文件可以存在于本地文件系统
用 file:///var/run/x.pac 这样的路径
而不要用 http ,方便调试

1
2
3
4
5
6
7
8
9
10
11
12
13
14
function FindProxyForURL(url, host)
   {
       if (isPlainHostName(host) || dnsDomainIs(host, ".mydomain.com"))
           return "DIRECT";
       else if (shExpMatch(host, "*.com"))
           return "PROXY proxy1.mydomain.com:8080; " +
                  "PROXY proxy4.mydomain.com:8080";
       else if (shExpMatch(host, "*.edu"))
           return "PROXY proxy2.mydomain.com:8080; " +
                  "PROXY proxy4.mydomain.com:8080";
       else
           return "PROXY proxy3.mydomain.com:8080; " +
                  "PROXY proxy4.mydomain.com:8080";
   }

我的最终版本

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
function FindProxyForURL(url, host)
{
    url  = url.toLowerCase();
    host = host.toLowerCase();
 
    if (isInNet(dnsResolve(host), "10.0.0.0", "255.0.0.0") ||
        isInNet(dnsResolve(host), "172.16.0.0""255.240.0.0") ||
        isInNet(dnsResolve(host), "192.168.0.0", "255.255.0.0") ||
        isInNet(dnsResolve(host), "127.0.0.0", "255.255.255.0"))
        return "DIRECT";
 
    if (shExpMatch(url,"*twitter*")  ||
        shExpMatch(url,"*facebook*") ||
        shExpMatch(url,"*blogspot*") ||
        shExpMatch(url,"*youtube*") ||
       )
    {
       return "SOCKS 1.2.3.4:1080; DIRECT";
    }
}

Chrome在Linux下没有代理配置界面,但可以通过命令行参数配置

–proxy-server=host:port
–no-proxy-server
–proxy-auto-detect
–proxy-pac-url=URL

pac就用
–proxy-pac-url=file:///var/run/autoproxy.pac

新的浏览器支持正则表达式
如果需要做一些较为复杂的判断,那可直接抛弃 shExpMatch 函数,而自己使用正则表达式或别的工具来进行判断,如:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
var regexpr = /[a-zA-Z]{4}.microsoft.com/;
    if(regexpr.test(host))
        return "PROXY w3proxy:8080; DIRECT";
 
调试,使用alert,在IE上没问题
 
 
function isMatchProxy(url, pattern) {
    try {
        return new RegExp(pattern.replace('.', '.')).test(url);
    } catch (e) {
        return false;
    }
}
 
function FindProxyForURL(url, host) {
    debugPAC ="PAC Debug Informationn";
    debugPAC +="-----------------------------------n";
    debugPAC +="Machine IP: " + myIpAddress() + "n";
    debugPAC +="Hostname: " + host + "n";
    if (isResolvable(host)) {
        resolvableHost = "True"
    } else {
        resolvableHost = "False"
    };
    debugPAC += "Host Resolvable: " + resolvableHost + "n";
    debugPAC += "Hostname IP: " + dnsResolve(host) + "n";
    if (isPlainHostName(host)) {
        plainHost = "True"
    } else {
        plainHost = "False"
    };
    debugPAC += "Plain Hostname: " + plainHost + "n";
    debugPAC += "Domain Levels: " + dnsDomainLevels(host) + "n";
    debugPAC += "URL: " + url + "n";
    alert(debugPAC);
    var Proxy = 'SOCKS 1.2.3.4:9625; DIRECT';
 
    var list = [
        't.co',
        'twitter.com',
        'twimg.com',
        'posterous.com',
        'tinypic.com',
        'twitpic.com',
        'bitly.com',
        'yfrog.com',
        'youtube.com',
        'facebook.com',
        'appspot.com',
        'dropbox.com',
        'flickr.com',
        'youtube.com',
        'ytimg.com',
        'plus.google.com',
        'ggpht.com',
        'talkgadget.google.com',
        'picasaweb.google.com',
        'googleusercontent.com',
        'hzmangel.info',
        'slideshare.net',
        'code.google.com',
        'golang.org',
        'vimeo.com',
        'wordpress.com',
        'dxtl.net',
        '123cha.com'
    ];
 
    for(var i=0, l=list.length; i<l; i++) {
        if (isMatchProxy(url, list[i])) {
            alert("Match");
            return Proxy;
        }
    }
 
    alert("direct");
    return 'DIRECT';
}

在PAC中,Firefox和Internet Explore都支持alert语句,IE的表现同普通js一样
Firefox是在  ”浏览器控制台”(Ctrl+Shift+J快捷键调出来) JS标签 里显示出来:


[21:32:29.568] PAC-alert: PAC Debug Information

Machine IP: 192.168.1.99
Hostname: zhiwei.li
Host Resolvable: True
Hostname IP: 199.188.204.95
Plain Hostname: False
Domain Levels: 1
URL: http://zhiwei.li/

正则表达式的另外一个例子

由于.pac 文件支持整个 JavaScript 语言,可以使用正则表达式对象,并测试方法来测试对照正则表达式的字符串。下面的代码示例演示如何使用.pac 文件中的正则表达式对象:

1
2
3
4
5
6
7
8
9
10
11
function FindProxyForURL(url, host)
{
    // For instance, if the server has 4 alphabetic characters,
    // such as "MSDN", route it through a specific proxy:
   var regexpr = /[a-zA-Z]{4}.microsoft.com/;
   if(regexpr.test(host))
      return "PROXY w3proxy:8080; DIRECT";
 
   // Or else connect directly:
   return "DIRECT";
}

http://technet.microsoft.com/en-us/library/dd361950.aspx (微软给的例子)

验证工具

https://code.google.com/p/pacparser/   (支持Python和C)

http://www.jslint.com/ (验证你的js语法)

Debian Jessie中的IceWeasel 24.1.0 对 PAC的支持有问题,
Windows版本的Firefox 26.0就能很好的支持
解决方法,安装 扩炸  foxyproxy
xul-ext-foxyproxy-standard 或者从mozilla addons下载

SOCKS SOCKS4 SOCKS5的问题

“SOCKS host:port”
有的浏览器使用SOCKS4协议,也支持DNS 解析  (IceWeasel 的代理管理,就是这个做法, 但是SOCKS4实际上是不支持 DNS解析的,socks5服务看到协议版本是4, dns请求是未知的,就会直接关掉连接
所以, 你在 firefox里选中socks4协议,就不要 让 extensions.foxyproxy.socks_remote_dns 这个选项为true
但是,如果不做远程dns的话,伟/大的-城_墙 会污染DNS)

有的浏览器使用SOCKS4协议,但不支持 DNS解析
有的浏览器直接使用SOCKS5协议,当然就支持 DNS解析了 (foxyProxy扩展,看到 SOCKS,就直接用SOCKS5了,相当聪明)

“SOCKS5 host:port”   明确说明要用 SOCKS5 代理
据说 Safari (OSX, iOS)只认识SOCKS,虽然它默认也是使用SOCKS5协议

SOCKS5 127.0.0.1:1080; SOCKS 127.0.0.1:1080; DIRECT
这种写法可以兼容绝大数浏览器
对于不认识的SOCKS5,丢掉,认识的SOCKS直接用.

---------------

使用 pac 文件来实现自动代理

pac(proxy autoconfiguration)文件其实就是一个 JavaScript 文件,文件扩展名是什么其实没有关系,但一般都名为 pac

pac 文件中必须包含 FindProxyForURL(url, host) 的函数,支持 pac 自动代理的浏览器将会根据这个函数来判断当前访问的网址走何种通道。最简单的示例如下

function FindProxyForURL(url, host) {
    return 'DIRECT';
}

上面那段代码说明对于所有 url,都直连,不走任何代理。

FindProxyForURL 函数除了可以返回 “DIRECT” 外,还可以返回指定类型、主机和端口的代理。如:

// 本地 3721 端口的 http 代理
"PROXY 127.0.0.1:3721"

// 本地 8080 端口的 socks5 代理
"SOCKS5 127.0.0.1:8080"

可以同时指定多个方式,从第一种开始,一种无法连接使用下一种,直到成功或最后失败,如:

return "PROXY 127.0.0.1:3721; SOCKS5 127.0.0.1:8080; DIRECT";


pac 文件可使用很多已预定义的函数,但在目前为应对封锁的环境中,常用的是功能是让被封锁网址走代理,普通的直连。因此,常用的一个功能函数是:shExpMatch(str, shexp)

shExpMatch 函数是判断字符串 str 是否满足 shexp 表达式。需要注意的是,尽管有着 exp 之名,但 shexp 是仅支持 ? 和 * 通配符的表达式,而非 JavaScript 中的正则表达式,如:

// google 网站走代理,别的直连
function FindProxyForURL(url, host) {
    if (shExpMatch(url, "*.google.com/*")) {
        return 'PROXY 127.0.0.1:3721';
    }

    return 'DIRECT';
}

如果需要做一些较为复杂的判断,那可直接抛弃 shExpMatch 函数,而自己使用正则表达式或别的工具来进行判断,如:

function FindProxyForURL(url, host) {
    // For instance, if the server has 4 alphabetic characters, 
    // such as "MSDN", route it through a specific proxy: 

    var regexpr = /[a-zA-Z]{4}.microsoft.com/;
    if(regexpr.test(host))
        return "PROXY w3proxy:8080; DIRECT";

    // Or else connect directly:
    return "DIRECT";
}

这样,当浏览器支持 pac 自动代理的话,所需要做的工作就是写好 FindProxyForURL 函数,收集好所有的网站数据,然后启用即可,如:

function isMatchProxy(url, pattern) {
    try {
        return new RegExp(pattern.replace('.', '\\.')).test(url);
    } catch (e) {
        return false;
    }

}

function FindProxyForURL(url, host) {
    var Proxy = 'SOCKS5 127.0.0.1:7070; DIRECT;';

    var list = [
        't.co',
        'twitter.com',
        'twimg.com',
        'posterous.com',
        'tinypic.com',
        'twitpic.com',
        'bitly.com',
        'yfrog.com',
        'youtube.com',
        'facebook.com',
        'appspot.com',
        'dropbox.com',
        'flickr.com',
        'youtube.com',
        'ytimg.com',
        'plus.google.com',
        'ggpht.com',
        'talkgadget.google.com',
        'picasaweb.google.com',
        'googleusercontent.com',
        'hzmangel.info',
        'slideshare.net',
        'code.google.com',
        'golang.org',
        'vimeo.com',
        //'appengine.google.com',
        'wordpress.com' 
    ];


    for(var i=0, l=list.length; i<l; i++) {
        if (isMatchProxy(url, list[i])) {
            return Proxy;
        }
    }
    return 'DIRECT';
}
----------------------

Chrome 使用 pac 来自动代理

之所以有此文,是因为忘记在哪个版本起 Chrome 的如 ProxySwitchy 等扩展就有问题了,在代理方面很有问题,没有 Firefox 下的 autoproxy 稳定。在过了一阵子需要翻只能开 FF 的时间后,决定还是看看 Chrome 下该如何解决这个问题。

查看 chromium / google-chrome 的帮助命令,将可以看到和代理(proxy)有关的有:

--proxy-server=host:port
--no-proxy-server
--proxy-auto-detect
--proxy-pac-url=URL

可以看到,Chrome 是支持指定 pac 文件来自动代理的。这样,便可以使用"使用 pac 文件来实现自动代理"一文提到的 pac 文件了。

这样,便可以通过类似下面的命令来启动带自动代理功能的 Chrome 了。

google-chrome --proxy-pac-url=file:///home/user/autoproxy.pac

对于 Windows 环境,直接把 --prox-pac-url=pac-file-path 参数加到快捷方式属性中的『目标』属性的后面即可。

对于 Ubuntu 环境,Chromium 可以通过把这个参数写进 /etc/chromium-browser/default 文件中的 CHROMIUM_FLAGS 变量;对于 google-chrome,暂时没找到方便写配置的地方,干脆直接写个 sh 文件,把整条命令加进去吧(可在命令后加 & 来达到终端关闭浏览器依然存在的目的)

------------------------------------

PAC一般使用一个proxy.pac文件作为配置,若使用http服务器提供pac文件,建议使用的MIME是application/x-ns-proxy-autoconfig

pac文件中其实是javascript代码,其中包含一个重要的函数:

1
function FindProxyForURL(url, host);

浏览器会将请求的URL与主机名传入到这个函数进行查询,函数FindProxyForURL返回一个包含代理服务器信息的字符串,浏览器根据这个字符串使用对应的代理服务器链接网络。

一个简单的pac文件如下:

1
2
3
function FindProxyForURL(url, host) {
return "PROXY proxy.example.com:8080; DIRECT";
}

在这个文件中,所有的网络访问都会使用proxy.example.com:8080代理,若这个代理不可用,则会直接连接(DIRECT)。

 函数列表

在pac文件中可以使用的其他javascript函数如下:

dnsDomainIs 若host匹配google.com例如map.google.com等,则直接连接:

1
2
if (dnsDomainIs(host, ".google.com"))
return "DIRECT";

shExpMatch 若url以.local结尾或在domain.com/folder/目录下则直接连接:

1
2
if (shExpMatch(url, "*.local") || shExpMatch(url, "http://domain.com/folder/*"))
return "DIRECT";

dnsResolve DNS反查IP:

isInNet 若IP在127.16.0.0/12子网内则直接访问:

1
2
if (isInNet(dnsResolve(host), "172.16.0.0", "255.240.0.0"))
return "DIRECT";

myIpAddress 返回我当前的IP

1
2
if (isInNet(myIpAddress(), "10.10.1.0", "255.255.255.0"))
return "PROXY 10.10.5.1:8080";

isPlainHostName 若host中不包含“.”则直接访问:

1
2
if (isPlainHostName(host))
return "DIRECT";

localHostOrDomainIs

1
2
if (localHostOrDomainIs(host, "www.google.com"))
return "DIRECT";

isResolvable 若DNS可以被反查则使用代理:

1
2
if (isResolvable(host))
return "PROXY proxy1.example.com:8080";

dnsDomainLevels host中“.”的个数大于0则使用代理:

1
2
3
4
if (dnsDomainLevels(host) > 0)
return "PROXY proxy1.example.com:8080";
else
return "DIRECT";

weekdayRange 周一到周五使用代理:

1
2
3
4
if (weekdayRange("MON", "FRI"))
return "PROXY proxy1.example.com:8080";
else
return "DIRECT";

dateRange 一月到三月使用代理:

1
2
3
4
if (dateRange("JAN", "MAR"))
return "PROXY proxy1.example.com:8080";
else
return "DIRECT";

timeRange 8:00到18:00使用代理:

1
2
3
4
if (timeRange(8, 18))
return "PROXY proxy1.example.com:8080";
else
return "DIRECT";

alert 函数并没有在PAC规范中指定,但IE与FireFox是支持的,用于调试:

1
2
resolved_host = dnsResolve(host);
alert(resolved_host);

 高级应用

一个复杂的pac文件示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
function FindProxyForURL(url, host) {
 
// 一些不使用代理的域名
if (dnsDomainIs(host, ".intranet.domain.com") || shExpMatch(host, "(*.abcdomain.com|abcdomain.com)"))
return "DIRECT";
 
// 对于FTP和abcdomain.com/folder/下的请求不使用代理
 
if (url.substring(0, 4)=="ftp:" || shExpMatch(url, "http://abcdomain.com/folder/*"))
return "DIRECT";
 
// 局域网中的访问不使用代理
if (isPlainHostName(host) ||
shExpMatch(host, "*.local") ||
isInNet(dnsResolve(host), "10.0.0.0", "255.0.0.0") ||
isInNet(dnsResolve(host), "172.16.0.0", "255.240.0.0") ||
isInNet(dnsResolve(host), "192.168.0.0", "255.255.0.0") ||
isInNet(dnsResolve(host), "127.0.0.0", "255.255.255.0"))
return "DIRECT";
 
// 如果我当前的IP地址在10.10.5.0/24子网内则使用代理
if (isInNet(myIpAddress(), "10.10.5.0", "255.255.255.0"))
return "PROXY 1.2.3.4:8080";
 
// 默认的,使用下面的两个代理做负载均衡
return "PROXY 4.5.6.7:8080; PROXY 7.8.9.10:8080";
}

 注意事项

有些浏览器,例如Firefox和Internet Explorer只支持系统缺省编码的PAC文件,不支持Unicode编码的PAC文件,例如UTF-8编码的PAC文件。

函数dnsResolv(及其他类似函数)在执行DNS查询时,如果DNS服务器没有回应,这个会导致你的浏览器被阻塞很长时间.