找回密码
 FreeOZ用户注册
查看: 2681|回复: 4
打印 上一主题 下一主题

[网络技术] Google的系统工程师(System Administrator)如何工作

[复制链接]
1#
发表于 17-9-2010 00:18:14 | 显示全部楼层
原帖由 nilei 于 16-9-2010 23:34 发表
我读phd的时候写的软件做实验要200-300个分布的电脑来24/7运行,整个环境很恶劣,cpu负载超大,而且scheduler明显有问题,一个进程被一挂可能就是10分钟,最伟大的就是有个防抖动的设计,物理内存一慢发现有抖动趋势,内存使用大户直接被kill掉,哪怕这个“大户”才用100m内存。莫名其妙的问题就更多了,带宽被人为限制到ssh也不够、内存有硬件随机故障、很多系统程序莫名其妙不能用(zip等)。在如此恶劣的环境下,我把软件运行了1年多,什么大风大浪也看到过了。

1:这个是做软件实验吧。没有任何一个critical的商业系统敢这么干吧,如果任何商业公司敢这么干,董事会知道了的话估计所有技术部门的人,从一把手开始到底下所有的人全部开掉,我相信也不过分。
2:你这样的系统,如果CPU,内存或者I/O长时间的过高,即使能够正常运行,那这也是一个处与临界状态的系统,任何一点点的风吹草动就可能导致整个系统崩溃并且无法正常重新启动。
3:实验系统和商业系统有着本质的区别--我宁可维护100个高负荷的实验系统,也不愿意维护一个低负荷的商业生产系统。商业生产系统上面一出问题的话,压力非常的大,尤其是系统无法正常重启--这个时候,往往公司的领导,从1把手到10把手,全都守在你边上等你一个人--外面还有无数用户在等着。那种情况简直要人命。
回复  

使用道具 举报

您需要登录后才可以回帖 登录 | FreeOZ用户注册

本版积分规则

小黑屋|手机版|Archiver|FreeOZ论坛

GMT+10, 16-5-2024 21:31 , Processed in 0.015625 second(s), 16 queries , Gzip On, Redis On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表