Chapter 1. Our st
Quitetly, Quiggly
Quietly, Quiggly s
Release me. Now. O
Joe's Bar and Gril
Tiffany, you reall
But first, you and
Chris! I told you
Chapter 1. Once
Stop dancing like That turned dark quickly. Instead
of an update, there was a crash
from one of the team's machines.
This started a chain reaction.
We eventually found out that
it had caused other processes
to start slowing down, including
some of the most important
to the operation of the observatory.
Once we found the root cause,
we were able to solve it
by restarting the process on the other machines.
This kept things running pretty smoothly
until the end of the
current hardware service period.
The good news: It never affected
what we were collecting or analyzing,
but it did affect
what we could do.
Once it was resolved, it was like magic.
The data collection and analysis
and processing were back up and running
pretty much immediately.
It never happened again.
Of course, we take the safe bet that
if it does, we can figure it out.
Every couple of months, a
different part of the telescope
Spanish:
A lo mejor estoy dando muestras de lo que
les pasó a ustedes con sus trabajos.
Pero el caso de este ciclo no
era el único en años pasados.
En esta época, estuve en otra dirección
que tenía que manejar el hardware
de la observación de cielos
imaginando qué estaba ocurriendo,
y si la cámara estaba trabajando
normalmente, en cambio,
imaginando qué no estaba.
Por lo tanto, tenía
que averiguar por ti mismo.
Algo diferente que
tuve que hacer fue lo que
pasó a este trabajador
en la cima de la estructura
que está justo aquí. Él está
de pie en el interior
y al fondo, allá,
más abajo de la observación.
Por fortuna para nosotros,
el sistema no apagó
o perdió el archivo del disco
o cualquier otro problema,
pero lo que sucedió
fuera de la vista de la gente
fue que empezó a moverse de sí mismo,
lenta y despacio,
justo en el momento de alcanzar la noción.
Al final, el sistema fue
parcialmente reabierto
para resolver el problema.
La manera en que tú y yo
vamos a trabajar con el software
puede resultar ser algo
como lo que sucedió aquí,
que no es un buen trabajo
de ingeniería.
English:
required rebooting as well.
This time it was the data analysis
back end.
Our data processing software
is very complicated
and depends on a number of small databases,
none of which were experiencing any
problem at the moment
when the machine crashed.
They were all running fine.
The software kept running,
the output just wasn't getting processed
because the main machine
wasn't running.
What had happened?
There are a number of things
that could have been the cause of this.
For one, it could have been
the fact that the software on one
machine was running with a different
version of a library that we
expected to be compatible with
the hardware, but the new version
didn't contain the change
that was needed for the software
to work.
However, before the software
could start working on a data
set, it had to identify it
by checking a series of data
that were on the same track of
Spanish:
Era algo parecido a lo que pasó
en la cima de la estructura.
La parte delantera se
parpadeó de nuevo en el tiempo.
No sólo por el hardware
de datos sino también
por nuestra plataforma de software,
que depende de un montón de pequeñas bases de datos
cada una de las cuales no estaba teniendo ningún problema.
Todas ellas estaban corriendo bien.
El software seguía corriendo,
pero nuestro programa de
análisis estaba parpadeando,
y no estaba entrando en
la computadora,
por lo tanto no estaba
haciendo nada con el computador,
de modo que eso significaba que
las pequeñas bases de datos estaban
funcionando bien, pero al
ser puesto en el sistema, las cosas
no iban a funcionar bien.
Lo que iba a suceder?
Hay una variedad
de cosas que puede estar ocurriendo.
Por ejemplo, puede haber habido
una versión de la biblioteca
que habíamos diseñado
que funcionaba muy bien
con el hardware pero que
no contenía la implementación
que había sido necesaria para que
el software funcionara.
Pero antes de que el software
podría comenzar a trabajar
con los datos, tenía que identificar
la información buscando un conjunto de datos
Spanish:
que estaban en el mismo
paquete de archivos.
En este caso, no estábamos
buscando a través de los árboles de los árboles
que se utiliza el procesamiento,
estábamos simplemente mirando
algunos registros de archivos.
Y ahí es donde puede haber
funcionado el error.
Teníamos un pequeño error
a la hora de verificar que
una base de datos
realmente existe, que realmente
estaba en su lugar.
Entonces podría haber ocurrido
en este lado o en la otra.
A veces un tipo de error
es tan pequeño que no podemos verlo.
A veces la causa
de algún tipo de error es
inmediatamente obvia
aunque a veces, como
este último ejemplo, es un poco
más complicado.
Siempre estamos buscando por
algo que va de lo obvio a lo
desconocido, que está bien.
Y la computación es por naturaleza
una especie de búsqueda.
Algo que pasa
también ocurrió con la
versión de hibernación del telescopio,
cuyo trabajo era manejar
la luz del sol y convertirla
en imagen de alta resolución.
¿Cómo fue que terminó?
Lo que ocurrió es que los ingenieros
seleccionaron la primera opción,
la de ejecutar el programa
manualmente una vez al año
English:
the data stream,
and this is where it is entirely possible
for a small mistake to have occurred.
We had a small error at the time
of verifying that one of the
databases really did exist,
and was in its right place.
It could have happened here
or on the other side.
Sometimes one type of error
is so small that we can't see it.
Sometimes the reason for a type of error
is immediately obvious.
This can be a little bit harder
to figure out, though,
when the error is more subtle.
We're always looking
for something that is
going from obvious to unknown.
That's good.
The nature of computing is,
after all, searching for things
that are on the other side of things.
Something else that happened,
and one that is almost guaranteed to happen
once in a while,
is the annual hibernation cycle,
which turned the telescope's
telescope into an instrument
that is capable of capturing
images of the sun.
What happens when it breaks?
What happened is that
the engineers selected the first option
of running the software manually
once a year
English:
at least, and the day came
when that had to be done,
something unexpected happened.
We knew that we had
at least one version of the
software in common with another
team.
If they had experienced
the same problem,
they might have identified
the solution.
Unfortunately, they didn't have
this one bit, but
this ended up happening to us,
and it ended up ruining
our day, and we had to get
out there and run