laofo (laofo) · 回帖 · 软件配置知识分享

网诺星云配置管理工程师-软件发布方向 (北京) at 2014年08月11日

这个是不是有人去面试过？

[TFS 求助] TFS 工具，咋设置 checkin 时的 changeset 的模板 at 2014年08月11日

这也是一个思路。

TFS 跟踪变更集这个功能真的很赞 at 2014年08月11日

可以查看哪些改动是从哪个分支上发生的，然后是否合并到了相应分支上，什么时候合并的。

有利于跟踪 bug fix 在不同版本之间的情况

[TFS 求助] TFS 工具，咋设置 checkin 时的 changeset 的模板 at 2014年08月11日

http://stackoverflow.com/questions/11203543/team-foundation-server-checkin-comment-template 这里有一些信息，不过貌似这个人也不同意这种做法。他是这样说的：

配置管理能做什么事情 at 2014年08月11日

最后还剩下的 5% 呢？

[ Perl 进版必看贴 ] 一句话 Perl 问答—Good at 2014年08月07日

你要找哪本？我回去看看我那有没有

SW build & integration engineer 埃森哲 (中国) 有限公司 at 2014年08月07日

这还用介绍，直接投简历就是了。

跟 Monty Taylor 和 Jim Blair 聊 OpenStack 的持续集成与自动化测试 at 2014年08月07日

InfoQ：你们都跑哪些测试任务？

Jim：首先是代码风格检测。因为我们的协作开发者人数众多，因此代码风格统一是非常重要的，我们需要确保大家都使用同样的编码方式。这是个很简单的任务，但很重要。

然后是单元测试，仅仅测试被变更的子项目，不考虑跟其他子模块之间有网络交互的情况。我们针对几个不同的平台做测试，包括 2.6、2.7 和 3.3，基本上我们在 CentOS 上跑 2.6，在 Ubuntu 上跑 2.7。

然后是集成测试。我们用 DevStack 将所有的组件安装起来，然后在安装起来的这个单节点云实例上跑不同的模板。不同的模板对不同的模块进行不同的设置，比如使用不同的数据库、不同的消息队列。可以选择的种类很多，不过基本上我们只测试那些常用的，比如 MySQL、PostgreSQL、RabbitMQ 这些。

Monty：我们最近也在考虑引入 ZeroMQ 的测试。

Jim：如果社区里认为某个子模块比较重要，使用的人也越来越多，也有更多的人愿意参与到 debug 工作当中，那我们也会将这个模块加入。

InfoQ：测试任务是由谁来写的？

Monty：开发者自己写。我们的 QA 团队很小，基本上只关注测试系统本身的工作，不会有太多精力去关注测试任务本身。所以我们要求开发者自己提供单元测试和集成测试。

Jim：我们最近在讨论的一个话题就是在这方面做更严格的限制，即只有写好了集成测试的变更提交才能够被接受。

Monty：我们总觉得未经测试的变更就是有问题的。一般来说的确是这样。

Jim：现在项目发展的这么快，有这么多组件，这里或那里的一个小错误可能就把整个系统搞死。

InfoQ：性能测试有在做吗？

Jim：还没有，不过我觉得可能差不多可以启动了。我听说 Boris Pavlovic 正在做一个叫做 Rally 的测试系统，Joe Gordon 则在进行一些可扩展性测试的工作——跟性能测试不太一样，不过关联比较大。这都是我们希望做的事情。

我们的测试显然没有覆盖所有的方面，不过我们最终希望测试所有的东西，当然这需要时间。

在本次发布周期内，我们关注于升级测试。现在我们已经在做一些，不过做的还不够，需要做更多。

InfoQ：在一个实例上运行一个测试任务大概需要多久？

Monty：一般在 20-40 分钟，具体时间长短跟实例的配置有关。

Jim：我们花了很多精力让测试变得并行化。我们构建了一个叫做 Test Repository 的框架，大多数单元测试在这个框架中已经可以并行处理，测试结果出的很快。

Monty：还有 Jim 写的 Zuul，这个工具可以一方面并行的测试成套的变更，同时又保持他们的测试顺序不变。

InfoQ：运行测试用到了多少机器？用于运行测试用例的实例配置是怎样的？

Monty：我们自己是没有机器的。所有的测试都跑在公有云上，有些来自 Rackspace，有些来自 HP，都是赞助的。他们没找我们要钱，而我们需要多少就可以用多少。

Jim：上一个版本周期内，最高的时候我们并行跑了 340 个实例，一个实例就是一个 VM。集成测试一般使用很基础的 VM——8GB 内存，系统是 Ubuntu Precise。我们把这个节点搞起来，然后让 DevStack 在这个 VM 上安装 OpenStack。

Monty：实际情况要比这个复杂，不过大概意思就是这样。我们有一个 nodepool 用来管理这些 VM，通过缓存来预备这些机器。我们需要将 DevStack 需要的依赖等东西都预先下载到本地，这样测试本身就可以离线运转。

Jim：测试跑完之后，我们再销毁这些 VM。实际创建的 VM 数量要比跑成功的测试数量多，因为 Zuul 的随机机制，有些时候它的测试跑到一半的时候才发现还需要一些其他东西，于是测试跑不下去了，我们会干掉这个 VM，起一个新的。一个大致的比例是，如果一天跑 10000 个任务，那么启动的 VM 数量差不多在 100000 的量级。

InfoQ：可以认为用于 OpenStack 的 Zuul 模式是 nvie git 分支模式的一个改进吗？感觉 Zuul 似乎不适合分支过多的情况。

Monty：实际上我们是不采用 nvie git 分支模式的，因为我们用了 Gerrit，所以我们的代码提交模式跟 Linux 内核的模式更像：人们在邮件里交换补丁。我们的做法不是建立很多的分支然后做合并，而是让每一个变更形成一个虚拟的私有分支。相对于将每一次变更生成一个新的 commit 并增添至分支的顶端的做法，我们的做法是：在之前的一次修改之上再进行修改。我们的测试针对每一个独立的 commit，而不是针对一个分支。

每一个开发者可以建立本地的分支，这些分支是私有的，没有什么发布机制。我并不知道 Jim 的笔记本上的分支是什么样的。我自己用 git 的方式比较奇葩，我不用分支，而是每次在我的 master 上重置 ref——这是个非主流的用法，git 新手最好还是不要这么尝试。

所以，OpenStack 的 git 补丁流程其实是基于 Gerrit 的。

Jim：另外，我们需要确保审查人员审查的对象是每一个 commit（而不是分支）。理想状态下，每一个进入项目的 commit 都被人仔细的检查过。分支的话就会比较混乱。把每一个 commit 把关好，把好的 commit 合并，是比较精细的做法。

InfoQ：除了 Zuul 之外，你还提到了在 Jenkins 上使用 Gearman 来提高可扩展性，使用 Logstash 做 debug，还有你上面提到的 Test Repository 将测试输出自动发给 committer。目前的反馈机制是如何运转的？理想的情况是怎样的？

Monty：反馈机制整体来说是越来越好的。你的问题涉及到几个方面。有关用 Gearman 来提高 Jenkins 的可扩展性这一点，首先 Jenkins 本身的设计是针对一个 master 的情况，让它支持多个节点是通过 hack 的方式来完成的。我们一开始的用法是跑一个 Jenkins master 和若干个 slave，并行跑的测试任务数量要比正常的 Jenkins 用法要多很多。Jenkins 在设计当中涉及到很多全局锁，所以要像我们这样用起来，会遇到很多可扩展性的问题。

Jim：因为 Jenkins 在设计的时候根本没考虑过我们这样的用法。

Monty：所以我们就写了 Gearman 插件，这个插件的作用是让 Jenkins 将所有任务注册为潜在的 Gearman 任务，标记在 Gearman 服务器上。这样一来我们就可以针对一组测试任务建立多个 Jenkins master，让 Gearman 来做任务分发，如果一个 Jenkins master 开始遇到瓶颈，我们就让 Gearman 把任务分发到下一个 Jenkins master 上。

Jim：一般来说，一个 Jenkins master 带 100 个 slave 之后就会遇到问题。我们要同时跑 340 个任务，那就需要 3.4 个 Jenkins master 来处理。

Monty：Logstash 集群是个很有意思的东西。每一次 DevStack 安装的是整个的云环境，然后针对这个小环境跑测试。仅仅是安装的过程就会制造很多日志，包括 Nova、Glance 等等。如果遇到问题，开发者根本无从下手去 debug，能够依赖的只有日志。所以，我们把所有的日志丢到一个很大的 Logstash 集群当中，这个集群通过 elastic search 的方式给所有的 log 建索引。这样，开发者就可以进去查看日志，了解到底发生了什么问题。这里面的 Elastic Recheck 是 Joe Gordon、Sean Dague 和 Clark Boylan 写的。

Joe：那个图表功能是我写的。

Monty：比如我们发现有一个任务导致测试跑失败了，我们会在 LogStash 上运行脚本，来检测这是否是我们之前见到过的错误类型。如果有匹配，我们会在邮件通知里将之前的 bug 报告附上，这样会帮助开发者更快的定位问题。

Jim：这其实是很酷，也很独特的。世界上像这种规模的项目是很少的，这种规模的测试、这种规模的日志，开发者很少能够在其他项目获取到。云平台这样的项目，开发者在自己的机器上是很难去发现代码可能会引起的问题的，因为很多问题都是要跑很多次不同的测试才能抓到——而我们的测试平台可以做到这一点！下一个发布周期内，我们会尝试让问题识别变得更加自动化，将变更和行为的特征更多的抽取出来，帮助开发者更快的定位问题。

InfoQ：你们做的这一大堆自动化测试的工作，感觉最难的地方是在哪里？

Monty：开发者很多，代码很多，测试需求量每 6 个月都会增长一倍。面对 commit 数量如此众多、快速增长的情况，我们需要提前预见到可能发生的问题，做好准备——因为如果真的遇到了问题，那么那个时候再去开发系统来解决问题就来不及了。自动化解决的问题不是今天的问题，而是三个月之后的问题。

正因为所有的测试都在我们这里，我们就必须确保这个系统一直能够正常运转。你的测试一天跑 10000 次，万一系统出了问题，给开发者发邮件说你的代码有错（而实际上根本不是他们代码出了错，是系统本身出了错），那就会很糟糕。误报比不报更糟糕，所以自动化必须做的非常靠谱。

还有就是，我们总是会遇到网络中断的问题——基本上我们有一半的时间都用来处理这个问题。所有的网站都会连不上：平时你自己去刷网页是感觉不到的，但如果你一天跑 10000 次自动化测试呢？如果 Github 平均有 1% 的时间是不可用的，你作为用户去刷页面没打开，重试一次就好；而我的测试系统每天从 Github 做 10000 次抓取，1% 的不可用就相当于 100 次失败。

由于我们在跑的这个系统，我们也成了 RackSpace 和 HP 云的性能监控器。很多时候我们发现有一个问题，就去问他们的运维：“你们这个数据中心是不是网络出问题了？” 然后他们会说：“对啊！我们也刚刚发现！”

Jim：Rackspace 和 HP 云都是基于 OpenStack 的系统，所以我们的测试系统是在 OpenStack 上运行、为 OpenStack 做测试。用自己测试自己的代码，同时又测试自己的运行状态，这是个很酷的事情。

受访者简介

Monty Taylor 是 HP 杰出工程师，OpenStack 技术委员会成员、OpenStack 基金会个人董事。他带领 OpenStack 基础架构项目、Ironic 项目和 TrippleO 项目。

Jim Blair 现在是 OpenStack 基础软件组的核心开发者，也是 OpenStack CI 项目的核心开发者。他也是 OpenStack 技术委员会成员，OpenStack 基础架构项目的技术领导者。他目前任职于 OpenStack 基金会。

查看英文原文：Monty Taylor and Jim Blair on CI and Test Automation at OpenStack

SW build & integration engineer 埃森哲 (中国) 有限公司 at 2014年08月07日

度娘谷歌一下就知道了。

这个坑出来是因为，有个人从埃森哲去了新浪

svn 重新定位问题 at 2014年08月06日

提示你去根目录做这个操作。

msbuild 调用.vcproj 文件构建 C++ 程序 at 2014年08月06日

你这个问题解决了么？

新人求大虾指导 at 2014年08月06日

跟我当年一模一样，哈哈哈哈

[ Perl 进版必看贴 ] 一句话 Perl 问答—Good at 2014年08月06日

本来是有的。但是后来考虑到版权的问题，ftp 不再开放了。但是你仍然可以在本版的帖子中翻到一些上传的书籍。

hudson 的批处理命令报错 at 2014年08月04日

群里人的意思是：加空格，加引号

hudson 的批处理命令报错 at 2014年08月04日

加上绝对路径试试

hudson 的批处理命令报错 at 2014年08月04日

[i=s] 本帖最后由 laofo 于 2014-8-4 14:44 编辑

是什么命令？报了什么错? 贴上来大家看看就知道了。

[面试总结] 配置管理员-北京联银通科技有限公司 at 2014年08月01日

所以还是去你们公司划算。

话说，大叔，您的头像是谁？

[面试总结] 配置管理员-北京联银通科技有限公司 at 2014年08月01日

那亏多了，今年如果公积金给缴到上限的话，公司就要给你月缴 2085 元

[面试总结] 配置管理员-北京联银通科技有限公司 at 2014年08月01日

社保少点没事，公积金要是按照最低的交，那可差多了。。。

上海配置工程师的岗位 ---代猎头发 JD at 2014年07月31日

既然是代猎头发的，可以报下薪水范围和工作地点

[面试总结] 配置管理员-北京联银通科技有限公司 at 2014年07月31日

乍一看，还以为是联通科技。。。

gitweb 打不开的问题 at 2014年07月30日

让启动 httpd 的用户拥有 gitweb 目录的权限

gitweb 打不开的问题 at 2014年07月30日

就是启动 gitweb 的用户和它用户的组不匹配。可能的意思就是说：应该用用启动 httpd 的用户启动 gitweb，同时要对 gitweb 的目录拥有相应的权限。

TortoiseSVN 如何检出一个单独的文件 at 2014年07月29日

如果仅有一个文件，而不是目录，那个.svn 放到哪里？在同一目录下，单独 checkout 出很多文件，.svn 目录是不是就冲突了?

[Polycom 宝利通] 招聘高级软件管理配置师 at 2014年07月25日

四有新人也不过如此。