Senior Site Reliability Engineer

hace 3 días


Santiago, Metropolitana, Chile Grupo Falabella A tiempo completo

Únete a Falabella y lleva tu carrera al próximo nivel

Estamos buscando mentes brillantes y talentosas para unirse a nuestro equipo en el Grupo Falabella

Misión:
Implementar de manera segura el producto, se pueda monitorear mediante la observación, además de colaborar con el equipo.

Funciones:

  • Desempeñar bajo un enfoque proactivo en la detección de problemas, determinación de puntos de mejora y cuellos de botella en el rendimiento de las plataformas, llevando a cabo el análisis de los sistemas, la gestión de la configuración y desarrollar mejoras para el rendimiento, la disponibilidad y la confiabilidad del software del sistema. Con la finalidad de permitir mejora continua en los procesos operacionales del ciclo de vida del producto y comprender de mejor forma el funcionamiento de ellos y asegurar estabilidad en la producción.
  • Colaborar en la construcción una cultura SRE en toda la organización al compartir mejores prácticas, enfoques, documentación y código con otros equipos de ingeniería, aplicando mecanismos de observabilidad y seguridad. Para lograr desarrollar un enfoque de comunidad que esté en constante crecimiento en base a conocimientos y experiencias conjuntas.
  • Solucionar problemas complicados multiplataforma considerando el sistema operativo, las redes y la base de datos en un entorno On Premise, SaaS, IaaS basado en la nube y manejar incidentes de producción en vivo, depurar/solucionar problemas de aplicaciones e infraestructura, seguir e implementar las mejores prácticas de SRE apalancado por la automatización y disminución del TOIL. Para asegurar la comprensión end to end y lograr soluciones efectivas a las problemáticas.
  • Documentar conocimiento sobre las plataformas a medida que se adquiere con el tiempo, crear runbooks y asegurarse de que la información crítica del sistema esté disponible para aquellos que la necesitan. Para lograr facilidad en el acceso a la información base del producto y con ello asegurar comprensión del mismo en situaciones de crisis (incidentes).
  • Diseñar e implementar mecanismos que permitan definir e implementar niveles de servicio (SLI, SLO y SLA). Con el objetivo de mantener las plataformas disponibles según compromiso, logrando indicadores reales y efectivos.
  • Ser contacto inicial en el proceso de gestión de incidentes, siendo capaz de utilizar e implementar mejoras en el proceso, aplicar conocimientos sobre Gestión de incidentes tales como análisis post-Mortem. Para asegurar respuesta rápida y efectiva ante problemas en los sistemas productivos.
  • Crear herramientas que apoyen la gestión end to end en el ciclo de vida del producto (software y otros), optimizando y priorizando la implementación y utilización de flujos continuos de despliegue (CI/CD) y aplicando automatización y Scripting a cualquier tarea o parte de las plataformas o que se identifique que realiza manualmente y que permita la identificación temprana de problemas en el código. Con la finalidad de asegurar calidad y velocidad en la puesta en producción de nuevos features y reducir el Toil y los riesgos del trabajo manual

Requisitos:

  • Observabilidad: Datadog, Prometheus, Grafana, Loki, OpenTelemetry.
  • Manejo de herramientas para Infra como codigo y despliegue como: Terraform, Helm, ArgoCD, GitOps.
  • Programación o Scripting: Bash, Python, GO, Rust
  • Expertise en Kubernetes (GKE/EKS), contenedores y networking.
  • Experiencia sólida en Cloud: IAM, VPC, Load Balancers, Storage, Compute
  • Conocimiento de seguridad en cloud: rotación de claves, OIDC, Vault, políticas IAM.
  • Experiencia con bases de datos (relacional, no relacional y en memoria) y cachés distribuidos.
  • Capacidad para documentar clara y para liderar mejoras técnicas.

Modalidad: Híbrida, 1 o 2 veces a la semana en oficina.

¿Ya te entusiasmaste? ¿Listo para dar el siguiente paso en tu carrera profesional? Postula aquí y únete a nuestro equipo No pierdas la oportunidad de formar parte de una empresa líder en su industria y hacer una diferencia real en el mundo laboral. Te esperamos para vivir una experiencia inolvidable en el Grupo Falabella.

Esta oferta laboral se rige bajo la Ley N° 21.015, que incentiva la inclusión de personas con discapacidad al mundo laboral. En caso de que necesites algún ajuste razonable, por favor no dejes de aclararlo en tu postulación.



  • Santiago, Metropolitana, Chile AudienceView A tiempo completo

    The company:AudienceView is an organization of people who are passionate about the business of Live Events. We create industry-leading software solutions that fuel attendee engagement, ticket sales and advertising solutions for thousands of sports, music and theatre venues in 16 countries around the world. AudienceView employees share a vision to help...


  • Santiago, Metropolitana, Chile Tata Consultancy Services Chile A tiempo completo

    Descripción del puesto Descripción del puesto: SRE Engineer¿Eres un apasionado por la tecnología y la fiabilidad de los sistemas? Entonces esta posición es para ti Buscamos un Ingeniero de SRE Senior para unirse a nuestro equipo en Chile. Como parte de nuestro equipo de Tecnología, Sistemas y Telecomunicaciones, tu misión será garantizar la máxima...

  • Site Reliability Engineer

    hace 2 semanas


    Santiago, Metropolitana, Chile FullStack A tiempo completo

    About FullStackFullStack is the most transparent IT talent network, connecting highly skilled individuals with top global companies and Silicon Valley startups for remote, on-demand projects. We focus on building a trusted, high-performance network where talent can thrive in a positive, respectful, and supportive environment. By prioritizing transparency,...


  • Santiago, Metropolitana, Chile EPAM Systems, Inc. A tiempo completo

    Become a key member of our team as a Lead Site Reliability Engineer, focusing on advancing enterprise application infrastructure through expert DevOps practices and innovative cloud solutions.You will lead efforts in designing robust, scalable systems utilizing Azure, AWS, Kubernetes, and Terraform. If you are prepared to leverage your leadership and...


  • Santiago, Metropolitana, Chile WALMART CHILE S.A. A tiempo completo

    ¿Tienes ganas de hacer la diferencia y alcanzar tu mejor versión? En Walmart Chile nos transformamos día a día con orgullo y pasión para brindar la mejor experiencia omnicanal y generar un impacto real en nuestros colaboradores, clientes y comunidades. Somos el Retail minorista más grande del mundo y el tercer empleador más grande de Chile. En Chile...


  • Santiago, Metropolitana, Chile Checkr A tiempo completo

    Checkr está creando una plataforma de datos para facilitar la toma de decisiones seguras y justas. Fundada en 2014, la tecnología innovadora y la sólida plataforma de datos de Checkr ayudan a los clientes a evaluar riesgos y garantizar seguridad y cumplimiento normativo para crear lugares de trabajo y comunidades de confianza. Checkr cuenta con más de...


  • Santiago, Metropolitana, Chile Checkr - Chile A tiempo completo

    About CheckrCheckr builds people infrastructure for the future of work. We've designed a faster—and fairer—way to screen job seekers. Established in 2014, Checkr puts modern technology powered by machine learning in the hands of hiring teams, helping to hire great new people with an experience that's fast, smooth, and safe. Checkr has over 100,000...


  • Santiago, Metropolitana, Chile Checkr, Inc. A tiempo completo

    About CheckrCheckr builds people infrastructure for the future of work. We've designed a faster—and fairer—way to screen job seekers. Established in 2014, Checkr puts modern technology powered by machine learning in the hands of hiring teams, helping to hire great new people with an experience that's fast, smooth, and safe. Checkr has over 100,000...


  • Santiago, Metropolitana, Chile Infosys A tiempo completo

    About Us:Infosys is a global leader in next-generation digital services and consulting. We enable clients in more than 50 countries to navigate their digital transformation. With over four decades of experience in managing the systems and workings of global enterprises, we expertly steer our clients through their digital journey. We do it by enabling the...


  • Santiago, Metropolitana, Chile Fractalia A tiempo completo

    Buscamos un/aDatabase Reliability Engineer (DBRE)para incorporarse a un equipo técnico de alto nivel, responsable de garantizar la confiabilidad, el rendimiento y la escalabilidad de nuestras plataformas de datos en entornos de misión crítica. Este rol es clave para asegurar que nuestras bases de datos soporten con eficiencia el crecimiento de la...