JPPF并行计算框架类加载机制研究

发表于 2013/07/12

作者 OneCoder

次浏览 9 分钟阅读

不算什么深入的研究，主要是了解下JPPF中类的加载和隔离机制。

JPPF中类的加载采用的是分布式类加载技术。这样既可在Node节点运行在node上并不存在的类。也就是类可以仅在用户的Client端存在。

如图，JPPF的class loader大致分三层。
System class loader是由JVM控制的加载器，用于启动node节点。在大多数JVM中是，该loader是java.net.URLClassloader的实例。
Server class loader是类AbstractJPPFClassloader的实现，提供了远程访问server端classpath中的类和其他资源的功能。该loader在node连接到server端的时候创建，断开连接的时候销毁。其父loader为System class loader。
Client class loader也是AbstractJPPFClassloader类的实现，提供了远程访问一个或多个客户端上的类和资源的功能。该loader在客户端提交任务的时候创建。一个node可能会持有很多client class loader。

JPPF的node节点仅持有一个与Server的连接，该连接被所有的loader共享，这样可以避免并发时潜在的的一致性，同步和冲突等问题。

Java的classloader是先从parent loader开始加载的饿，下图展示了node节点加载类的过程

node节点先从server节点请求class。如果server节点存在class，则直接加载返回。
如果class仅在client端存在，则会先访问server，server无，再通过server定位client，访问client端的class。

在JPPF框架里，每个client都有一个唯一的UUID，用于唯一标识该client。Node节点便可根据此UUID识别出当前classloader读取的是哪个client的class

每个Server也有唯一的UUID标识，这样就可以实现链式类加载：

需要注意的是，在这种情况下，node节点仍然只持有一个server classloader，仅连接跟它直接关联的server。

UUID与classloader
使用client端UUID，即可实现不同的client端在执行同一个任务的时候的classloader隔离，因为uuid不同，会使用不同的classloader加载类。不过，如果同一个UUID提交了两个不同版本的任务class，则有可能出现冲突和错误。
你也可以手动指定client端的UUID，这样classloader即可重用。哪怕你重连client也可以重用同一个classloader。不过，此时随之而来的问题就是在客户端修改的版本可能不会在node端自动生效，不同的版本还可能造成冲突。这时，你可以重启node或者更换UUID使node重新加载class。

任务预部署
对于大任务，如果担心每次走网络效率低，根据上面介绍的classloader机制，自然想到可以预先将任务文件部署到server或者node节点。不过此时需要自己管理好部署的版本，所谓各有利弊。不过，如果任务版本稳定的话，建议采用此种方式。

classloader缓存池
为了避免加载过多的类造成内存溢出，JPPF在node端增加了classloader缓存池大小的设置，如果超过上限，则会销毁最老的classloader。

jppf.classloader.cache.size = n

本地缓存资源文件
当调用getResourceAsStream(), getResource(),getResources() or getMultipleResources()方法的时候，class loader会缓存非类定义的文件至内存或者本地文件系统中。这样会避免再次请求该文件时候的网络访问，提高效率。你可以指定缓存在内存中还是文件系统中：

# either “file” (the default) or “memory“
jppf.resource.cache.storage = file

文件的保存路径当然也是可以配置的，默认是系统临时文件夹System.getProperty("java.io.tmpdir").：

jppf.resource.cache.dir = some_directory

JPPF server中的类缓存

JPPF的服务端会在内存中缓存被classloader加载进来的类和其他资。这样就可以避免与客户端的频繁的网络访问，从而提高执行速度。你也无需担心内存溢出的问题，因为这种缓存采用的是软引用，这样缓存的类就可以在必要的时候被JVM的垃圾回收机制回收。在一般情况，该缓存还是可以显著的提升效率的。

Class loader代理模型
JPPF默认采用的是”父优先“的类加载模型，也就是上面我们介绍的模型。上述模型虽然好用，但是类的加载顺序就相对固定，也就不能最大化的优化加载效率。因此，JPPF通过继承URLClassLoader，复写并开放addURL接口（jdk里是protected，JPPF为public），使得用户的自己开发任务可以直接调用该方法，形成对classloader的一种扩展。用户可调用addURL方法，指定自己想要加载类的地址。此时JPPF classloader的加载顺序会出现变化，从大的步骤看，会先查找指定的URL classpath：

* 从clientclassloader入手：代理到server的classloader
* server的classloader: 先仅查找用户指定的URL classpath
* 如果找到类，则结束查找
* 否则，回到client的classloader，也仅查找URL的classpath
* 如果找到，结束查找。

此书，如果仍未找到，则回到前面介绍的通过网络的查找顺序。
概括来说，就是如果URL优先的代理模型激活，则node会先从本地层级中查找URL指定的classpath，然后在网络上通过server查找。有三种指定代理模型的方式，最简单的就是直接配置在node节点的配置文件中：

# possible values: parent | url, defaults to parent
jppf.classloader.delegation = parent

下载文件

如我们之前的介绍的，我们可以通过addURL(URL)方法，动态指定加载类的URL地址，那么自然想到，我们可以通过先将文件下载到本地，然后指定URL地址，从而进行本地加载，以提到效率。在AbstractJPPFClassLoader类中，有方法：
public URL[] getMultipleResources(final String...names)
可以帮你同时下载多个文件到本地。

以上只是我了解到的JPPF中关于类加载部分的设计和实现。从已有掌握来看，JPPF考虑的还是非常全面周到的，隔离、效率、一致性都有考虑，应该说对并行计算来说，很有保障。

所有代码已上传至Github：https://github.com/lihongzheshuai/yummy-code
GESP 学习专题站：GESP WIKI
"luogu-"系列题目可在洛谷题库进行在线评测。
"bcqm-"系列题目可在编程启蒙题库进行在线评测。

欢迎加入：Java、C++、Python技术交流QQ群(982860385)，大佬免费带队，有问必答
欢迎加入：C++ GESP/CSP认证学习QQ频道，考试资源总结汇总
欢迎加入：C++ GESP/CSP学习交流QQ群(688906745)，考试认证学员交流，互帮互助

GESP/CSP 认证学习微信公众号

Java技术研究, JPPF

JPPF

本文由作者按照 CC BY-NC-SA 4.0 进行授权

热门标签