为何选用Python进行科学计算

发布日期： 1970-01-01 更新日期： 2015-05-19 编辑：bukun 浏览次数： 5486

标签：

摘要: 说明：本篇为翻译文章，原文的题目为：Scientific Computing with Python 。从文中可以看出，作者对在科研活动中使用Python有着深刻的见解。而这一点在国内就差许多了，所以，翻译过来放到这里，为Python摇旗呐喊一下，希望能有更...

说明：本篇为翻译文章，原文的题目为：Scientific Computing with Python 。从文中可以看出，作者对在科研活动中使用Python有着深刻的见解。而这一点在国内就差许多了，所以，翻译过来放到这里，为Python摇旗呐喊一下，希望能有更多的人加入到 Python 的行列。

摘要：

脚本语言已经为很多科学计算器的构建提供了很多强有力的工具，因为他们提供了其他解释型语言的接口。和很多用C,C++,Fortran，等编写的软件进行集成，也可以为他们提供框架单元构建。在这篇论文中，我主要描述脚本语言到科学计算工程中的进程，我强调的是使用python在科学动态研究中采用的大规模模块动态代码，实验在在洛斯阿拉莫斯国家实验室进行的。虽然这个应用程序和天文数据分析，问题，解决方案和经验教训等不想关，但是可能感兴趣的研究人员正在考虑在自己的项目中使用脚本语言。

1. 简介

作为科学的软件开发，最大的障碍之一是如何使科学软件灵活，使用方便，维护简单，易于适应规模扩大和复杂性增高的新问题。当然，是有很多原因希望这些高品质，其中很重要的一点是，他们允许科学家花费更少的时间争取更多的时间去亚牛软件，投入更多的时间在科学上。很不幸的事，当前科学计算软件的现状很不理想。首先，增加的计算能力已使科学家解决了空前的规模和复杂性的问题。但是，有一个副作用，就是需要执行这些任务的软件也已成为庞大而复杂的。二是科学家们普遍使用各种各样的系统，从模拟代码，数据分析软件包，数据库，可视化工具，到与每一个代表不同的接口和文件格式的本土软件。因此，科学家可能会花费大量的时间，只是想把所有这些组件以某种方式共同工作。最后，努力运用现代科学软件工程原理去重写软件，充其量只能产生不同的结果。第一，科学家不愿意去抛弃原有的软件。其次，这种努力对第二系统的影响也是很脆弱的，设计者想建造一个足够庞大的系统以至于不可能去实施，也不可能去满足特定问题的需要。尽管存在这些困难，较有前景的技术之一，是近年来出现的常见的脚本语言，如Python，Perl和Tcl(Python, 1999; Perl, 1999; Tcl, 1999).，它们作为一种工具，能创造更好的科研软件。在这篇文章中，我要重点强调脚本语言，尤其是python，源于我对一种特定的应用新程序4年的跟踪研究。我特别希望来说明脚本语言是多么适合的科学软件项目，以及它们可提供的开发方式去解决重要的软件工程问题，如可靠性，元器件，重用和项目管理工程。尽管讨论将集中在Python中，我想强调这些原则适用于一般的脚本语言。

2. 科学软件开发的特点

考虑到科学软件主流派别。一方面有诸如IDL和MATLAB等封装包。另一方面也有一些特定软件去解决特定问题（多数是研究人员自己写的）。即使是封装包更精致，对于更有意思的科学内容来说，更有可能被本土软件包含。例如，一个特殊用途的程序可能被写入为了解决偏微分方程，而像IDL这样的包可能会错误百出。大多数新的科学软件创建都是一个研究小组决定的，以解决新的计算问题。最初，他们的目标只是要解决一个非常具体的问题，由一组特定的方程，初始条件，边界条件和数值技术定义。在许多情况下，这个问题可以通过编写C或Fortran与一些数值方法和一些编程库援助的小程序就可以搞定。刚开始时，程序很小。但是一旦它们成功了，就会被扩大去解决一些类似的问题。为了处理这些差异，额外的灵活性通常被添加到一个的用户界面，无论是用户查询各种问题参数或要求用户提供一个系列的命令行选项的形式系统。不幸的是，随着更多的功能以这种方式被添加到工程中，科学家会在众多命令行和神秘的输入脚本中崩溃。当程序到达这个阶段，开发者可能会决定彻底改革其结构和用户界面。很多时候，往往会导致本土的命令解释器，它允许用户设置参数和执行简单的命令。当然，这并不是一个惊奇。其一，实施一个简单的命令解释器对有能力的程序员来说并不是十分艰巨。其次，这种界面可以模仿那些更精美得科学软件。不幸的是，这通常代表了许多项目开发的最后阶段。其一，超越了简单的解释器将涉及广泛的编程技能，而这正是很多编程者不具备的技能。例如，把一个完整的编程语言的命令解释器都需要一些语言解析器的设计施工和技术知识。例如，把一个命令行解释器变为整个编程语言，需要解释器构造技术和一些语言设计技巧。同样，建设一个图形用户界面需要一个同样复杂的编程技能。然而更可能的情况是，科学家们没有看到这些功能被加入所获得收益是佛值得开发。因此，科学家的工具箱全部充满了各种各样的程序，每个都是他们自己写的奇怪的语言。然而，糟糕的用户界面只是问题的一部分。相反，关键的一点是，最有用的科学软件开始时比较小，在一个相对长一段时间后变得比较零散。此外，这些项目在开始时很少创建通用软件包-虽然随着时间的推移软件的使用目的变得更加普遍。由于存在这些问题，努力提高科学软件将面临重大的挑战。首先，科学家们很少愿意放弃现有的软件，特别是如果他们熟悉其运作，并对其结果的准确性充满信心。第二，努力去吧非结构话得程序改造成正是的软件设计也是失败的。最后，需要强调简单的解决方案，也要提产刚和鼓励软件在最初创建时的发展和实验。

3. Python

Python是一种解释性的面向对象编程语言，在科学应用中开始受到极大关注。因为python，和其他脚本语言一样，为许多科学工程提供了下一个道路。Python 提供了一种解释型编程语言，可以看做是科学工学中已经使用的简单命令语言的扩展。第二，python和容易和用其他语言编写的软件进行集成。因此，它既可以作为一个控制语言驱动现有的程序，也可以作为将不同的系统结合在一起的胶水语言。最后，Python提供了大量的第三方模块集合，已经建立的用户群，以及以图书和其在线参考等形式的文档。出于这个原因，可以把python作为一种扩展，当科学家写他们自己的命令行时。

4. 集成动态应用

为了说明python的使用，这篇论文的最后部分将重点集中在把python加入到动态米快代码中获得的经验，这次试验在在洛斯阿拉莫斯国家实验室进行的。这个应用程序最初在1992年被开发，为了实现大规模的模块动态的三维展示。最迟，程序用在1024处理器，在巨型计算机上运行。后来程序也可以在SUN公司的多核处理器T3 D,上运行。虽然在这些领域取得了一些很大的成功，但是这个程序在实践当中很难使用。尤其是，当趋势线科学项目的目标时问题总会变得相当复杂。考虑到这些因素，加入 python就被提上日程。首先，高度解释的语言将为问题规范和尽可能减少C源码的改变提供了出色的机制。第二，为了解决数据分析问题，我们计划集成模拟代码和数据分析和可视化功能。然而，为了使这项工作，一个非常强大的，简单的用户界面将是必需的。最终，python作为一种系统，从表面上看就像matlab和IDL一样。从持久性和性能上考虑，python也是很好的选择。举例来说，他可移植大各种系统，对用户来说不闭有很多概念，python 也可以被加入到已经存在的代码中去。

5. 建立python接口

在描述假如python代码之前，明白一件事是很重要的，那就是大部分程序包含两部分，一部分是实现系统实际功能的函数集合，另一部分是读入输入参数或者是提供一些高级的控制和用户界面的主程序。所以将python引入到系统中有两种方式。首先，Python可以用来提供原程序接口的封装包（在这里python就像shell脚本语言）。另外，python解释器可以直接与基本应用功能集成，而这些函数大部分都是python命令行。在我的实践中，我才去的是第二种方法。展示python 接口的应用程序有两部：输出主程序和一些存在的用户界面代码。第二就是吧谢谢简单是函数封装成包。很多情况下这一步仅要增加几个文件夹就可以了。此外，删除主程序通常足以消除旧的用户界面，即使该接口部分在库中存在。过去在库的形式下，下一步是编写包装，它提供了对Python解释器和相关功能胶水的集合。如果亲自写一些代码，包和下面的代码类似：

    PyObject *wrap_foo(PyObject *self, PyObject *args) {
    int arg1;
    double arg2;
    double result;
    if (!PyArg_ParseTuple(args,”id”, &arg1;, &arg2;)) return NULL;
    result = foo(arg1,arg2); /* Call the real function */
    return Py_BuildValue(“d”,result);
    }

原则上讲，必须为每个函数写一个单独的封装包，这是极其耗时的，并且很可能在大型系统中出错。幸运的是，这个问题只要使用SWIG就可以自动解决。使用了SWIG以后，报的风格就像C（头文件中也一样）的一样。

    #include “spasm.h”
    void ic_shock(int nx, int ny, int nz, double vel, double width,
    double gap, double temp, double r0, double cutoff);
    int timesteps(int nsteps, int en, int on, int cn);
    void set_boundary_periodic();
    void init_lj(double epsilon, double sigma, double cutoff);
    void set_path(char *);

一旦这种方式指定，接口就会被SWIG包编译为C的函数包。这些封装的函数呗编译链接，和以前的C函数有一个共享库。现在这些共享库可以加载到python解释器上了。例如

    Python 1.5.2 (#1, Sep 19 1999, 16:29:25) [GCC 2.7.2.3] on linux2
    Copyright 1991-1995 Stichting Mathematisch Centrum, Amsterdam
    >>> import spasm
    >>> spasm.init_lj(1.0, 1.0, 2.5)
    >>> spasm.set_path(“/sda/sda1/beazley/MD”)
    >>> spasm.ic_shock(15,15,50,8.5,0.3333,0.10,0.01,1.09,2.5)

主要的现象就是即使程序进行重构，他们在python接口的重建中也不会被改变。而且，通过使用了像SWIG这样的自动化工具，建立接口的过程是极其快速的，只需要3 0分钟。最后，python的用户接口不会告便程序原来的操作方式。而且，它仅仅是把一些简单函数暴露给python解释器。一次，不是通过调用一个单独的C函数，他们可以在python解释器中被全部调用，就像你在debug中调用程序一样。 #### 6\. 死（无用）代码清除一旦Python接口已建成，应用程序可能还包括了和以前用户与界面相关的大量代码。因此，当代码不再执行时，要么全部移除，要不就是把它从库里拿出来放到一个文件里。它不仅会减少初始程序的大小，也能够从用户接口中分离出应用程序的功能化。因此，应用程序似乎很像一个编程库，而不是一个单片的程序。在SP中，几个月之内有成百上千行代码被删除。 #### 7.提高可靠性当与python进行接口时，用户可以在任何时间用任何命令获得交互问题的能力。不幸的是，这可以导致很多运行时问题，包括程序的崩溃或者是结果不正确。许多这样的问题是由于程序在刚开始计划是就没有考虑到以高度灵活的方式使用它。例如，主程序是战士初始化步骤的精确序列或者是在高度控制方式下指导计算过程。为了减少这些问题，通过引入额外的检查代码去改变python接口和原先的应用程序是非常有必要的。大部分情况下，通过增加一个额外的变量就可以很好的解决这个问题。例如：

    void init_memory() {
    static int initialized = 0;
    if (initialized) error(“Already initialized memory!”);
    initialized = 1;
    …
    }

在我们的例子中，这些错误在历经几个月之后逐渐消除了。在很多情况下，变量和检查知识一种展示。另外一种情况就是函数被改写，他就能满足更灵活的应用程序。 #### 8\. 异常处理与提高可靠性相关的问题就是错误处理。通常情况下，科学计算软件有着很虚弱的错误处理机制，除了打印错误信息或者是调用系统函数exit（）去终止代码运行。Pyt hon，从某种方式来说，提供了异常处理的全部支持。因此，它往往是需要修改应用程序，以便它传播错误回解释器，而不是简单地终止执行。在SPaSM中，错误处理机制被分阶段的加入到系统中。首先，功能进行了修改，在错误发生时，打印一条消息并立即返回。后来，一个增强的异常机制引入，C函数很有效的跑出一个异常，而这个异常是以python的形式交给解释器。 #### 9\. 提高模块化因为Python加载以共享库形式的扩展，Python解释是完全脱钩于底层的应用程序。并且动态加载机制允许各种各种扩展同步加载。对于SPaSM，系统在一两年内逐渐分裂成更小的模块集合。在现行制度下，当特定问题的模块，提供了具体的实验实施时一个小型库提供了应用程序的核心。这个方案有很多优点。首先不必与整个应用程序工作，用户可以仅仅关心那些包含几千行代码的特定单元。其次，把系统分成小模块，编制时间大大缩短，使用户更容易融入变化。例如，重新编译一个模块可能只需要几秒钟，而重编译整个系统要需要10分钟。最后，通过建立一个模块库，它更容易维护和管理软件。例如，一个模块的改变，只要把它放到库中就可以让所有用户自动的看到变化。 #### 10\. 变成面向对象的程序面向对象编程技术对于科学项目来说正在越来越普遍，因为他们提供了编程抽象，开发人员更容易考虑采用何种数据或者是子系统相互调用的方式。例如，一包来求解偏微分方程的包可能定义一个C++类，它描述了一组“解决者”应该实施的操作。具体的解决者，从该派生类来实现。理想的情况下，这项计划允许任何类型的求解器简单地插入到系统中，而不更改代码的其他部分。不幸的是，绝大部分软件不可能以哪种面向对象方式或者面向对象语言来写的。但是，把这些应用程序与python集成，很可能就会使用python面向对象的特点来给程序增加一个面向对象的接口。类似于SWIG这样的包可以把C结构和功能的包重新打包成类似于面向对象的接口。此外，通过编写额外的Python代码，可以获得很多面向对象的益处，避免了用C++重写代码的噩梦。我们系统的许多方面进行了修改，出现了python接口的面向对象。然而，对底层C语言的实现只需要一点点的变化。 #### 11\. 系统集成也许，把python引入到应用程序中最有用的部分就是他可能结合旧系统与新系统的代码。初始目标之一就是增加一个远程数据分析和可视化功能。为了达到这个目的，我们用了一个我们开发的小平行图形库，结合一些简单的可视化功能，知道如何从模拟代码中直接提取数据。另外为了将图像发送回用户的工作站，有少量代码被增加。所有这些代码都被编译成一个单独的 python模块，每当用户想看看他们的数据时就可以被可装载。 #### 12\. 性能问题对于好多人来说，把python加入到应用程序的想法可能会引来严重的性能问题的考虑：无论是在资源利用还是运行性能方面。在我们的情况下，Python解释器的加入只会对程序的大小有一点点影响。此外，我们精确地计算还是以C进行，它消耗了大部分CPU周期。因此，高层次的控制器已经几乎没有任何影响。 ### 结论 Python已经被证明是我们的应用程序一个非常宝贵的工具，因为它极大地改善了我们的开发和使用科学软件的方式。此外，这些改变是从已经存在的代码中以增量的方式进行的。事实上，这些交换代码无时无刻不在使用。与其他python相关的科学计算项目也应该注意。数值python扩展被加入到python中，其中包括向量和矩阵运算。MMTK 是基于python的分子模型的工具，生物python是为生命科学研究而开发的，还有一个python绑定的可视化包。而且，python社区正在开发图形图像处理与绘图方面的扩展包。 ### 致谢这项工作在洛斯阿拉莫斯国家实验室凝聚态物理和统计组（T- 11）进行的。我非常感谢我的合作伙伴：Peter Lomdahl, Tim Germann, Brad Holian and,

The newest post.