Hadoop esclavos file necesario?

Estoy trabajando en un equipo que intenta crear un sistema para crear clústeres Hadoop en EC2 con un mínimo esfuerzo por parte del usuario. Lo ideal sería que las instancias de esclavo sólo requieran el nombre de host de la instancia maestra como datos de usuario en el arranque. Los esclavos entonces rsync sus configuraciones de la instancia maestra y iniciar su TaskTracker y DataNode daemons automáticamente.

Mi pregunta es la siguiente: ¿es necesario que los nombres de host de las instancias esclavas se enumeren en el file conf/slaves la instancia maestra? La única vez que he visto este file utilizado en el código de Hadoop es por los guiones start-{dfs,mapnetworking}.sh , que SSH en todas las máquinas enumeradas e iniciar los daemons. Si los demonios de los nodos esclavos se inician automáticamente, y si conocen la location de JobTracker y NameNode (a través de la configuration), ¿pueden conectarse al JobTracker / NameNode por sí solos y ser tratados como esclavos "normales"?

Supongo que la mejor manera de averiguarlo es probarlo, pero nos estamos preguntando sobre el time invertido / complejidad en tal sistema, así que pensé que vería si alguien aquí tiene experiencia con este problema. Voy a editar si encuentro una respuesta yo mismo.

EDIT: He probado esto, y todo el sistema parece funcionar bien sin esclavos listdos en la configuration. JobTracker muestra el TaskTracker esclavo en su list de nodos, y he ejecutado un trabajo de testing con éxito.

OTRO EDIT: Vale la pena notar que esto no funcionará si utiliza la list blanca del host DFS ( conf/dfs.hosts ), que es una característica al less en la distribución de Cloudera.

El file de esclavos sólo se utiliza en los guiones bin / start y stop. Si se está ejecutando en EC2, debe revisar los scripts EC2, por ejemplo, "hadoop-ec2 update-slaves-file"