Tại sao hệ thống đang chạy tốt thì đừng đụng vào?

05/05/2025 0 6 7 phút đọc

Trong thế giới lập trình và vận hành hệ thống, có một “chân lý ngầm” mà hầu như dev, sysadmin hay IT nào cũng từng nghe qua: “Nếu nó đang chạy tốt thì… đừng đụng vào.” Nghe thì có vẻ tiêu cực, nhưng phía sau câu nói này là cả một rừng trải nghiệm đau thương, sự cố nửa đêm, rollback trong tuyệt vọng và những lần tự hỏi “tại sao mình lại rảnh tay đến vậy”. Bài này nói chuyện kỹ thuật, nhưng theo cách vui vẻ và rất đời.

Tại sao hệ thống đang chạy tốt thì đừng đụng vào?

Mục lục

Hệ thống chạy ổn định là kết quả của vô số thứ đang “đúng vị trí”
“Sửa cho gọn tí” là câu mở đầu cho rất nhiều thảm họa
Update không sai, sai ở chỗ update khi không cần thiết
Bug nguy hiểm nhất là bug chỉ xuất hiện trong môi trường thật
Hệ thống sống lâu thường không phải vì nó đẹp, mà vì nó ổn định
Đụng vào hệ thống đang chạy tốt đồng nghĩa với việc bạn phải chịu toàn bộ rủi ro
Nguyên tắc vàng của vận hành: Nếu không có lý do đủ lớn, thì đừng thay đổi
Tối ưu sớm khi chưa cần thiết là một dạng “tự bắn vào chân”
Hệ thống không chết vì thiếu tính năng, mà chết vì thiếu ổn định
Khi nào thì “được phép” đụng vào hệ thống đang chạy tốt?
Câu nói “đừng đụng” không phải là bảo thủ, mà là tôn trọng sự ổn định
Kết luận

Hệ thống chạy ổn định là kết quả của vô số thứ đang “đúng vị trí”

Một hệ thống đang chạy tốt không phải là do may mắn. Nó là kết quả của:

Code đang tương thích đúng với môi trường
Config đúng phiên bản
Phiên bản thư viện không xung đột
Cache, queue, database hoạt động nhịp nhàng

Bạn chỉ cần động vào một mắt xích nhỏ, toàn bộ chuỗi cân bằng đó có thể đổ domino trong vài giây.

“Sửa cho gọn tí” là câu mở đầu cho rất nhiều thảm họa

Rất nhiều sự cố lớn trong IT đều bắt đầu từ những câu nghe cực vô hại:

“Anh tối ưu lại tí cho gọn nhé”
“Update bản mới cho an toàn”
“Sửa chút config chắc không sao đâu”

Và sau đó… hệ thống chết ngay trong lúc đông user nhất.

Update không sai, sai ở chỗ update khi không cần thiết

Update để vá lỗ hổng bảo mật là đúng. Nhưng update chỉ vì:

Ngứa tay
Thấy có bản mới
Muốn “cho hiện đại”

Thì đó là đang đánh cược sự ổn định của cả hệ thống cho cảm giác “cho vui”. Rất nhiều bản update mang theo bug mới, breaking change mới, hoặc thay đổi hành vi mà tài liệu chưa kịp cập nhật.

Bug nguy hiểm nhất là bug chỉ xuất hiện trong môi trường thật

Test local không ra lỗi, staging chạy mượt, nhưng khi lên production:

User đông hơn
Dữ liệu lớn hơn
Cache, session, queue phức tạp hơn

Nhiều bug chỉ xuất hiện trong điều kiện mà bạn không thể mô phỏng đầy đủ. Và lúc đó, cái “đụng vào cho vui” bắt đầu trả giá bằng downtime thật.

Hệ thống sống lâu thường không phải vì nó đẹp, mà vì nó ổn định

Trong thực tế vận hành, một hệ thống:

Code không quá sạch
Công nghệ không quá mới
Giao diện không quá bóng bẩy

Nhưng chạy ổn định 3–5 năm liên tục, giá trị của nó còn lớn hơn gấp nhiều lần một hệ thống “đẹp như tranh” nhưng mỗi tháng sập vài lần.

Đụng vào hệ thống đang chạy tốt đồng nghĩa với việc bạn phải chịu toàn bộ rủi ro

Khi hệ thống ổn định, bạn đụng vào và gây sự cố, mọi thứ sẽ rất rõ ràng:

Không có chỗ cho ngụy biện
Log chỉ về đúng thời điểm bạn chỉnh sửa
Downtime gắn liền với tên bạn

Trong mắt user và khách hàng, câu chuyện rất đơn giản: “Trước đó nó chạy bình thường.”

Nguyên tắc vàng của vận hành: Nếu không có lý do đủ lớn, thì đừng thay đổi

Những lý do đủ lớn để chấp nhận rủi ro thay đổi thường chỉ gồm:

Lỗ hổng bảo mật nghiêm trọng
Lỗi logic ảnh hưởng dữ liệu
Nút thắt hiệu năng rõ ràng
Yêu cầu bắt buộc từ hạ tầng hoặc pháp lý

Ngoài những lý do đó, mọi thay đổi đều nên được cân nhắc cực kỳ kỹ.

Tối ưu sớm khi chưa cần thiết là một dạng “tự bắn vào chân”

Rất nhiều dev thích tối ưu trước khi có vấn đề thật:

Tối ưu query khi data còn rất nhỏ
Tối ưu cache khi traffic còn thấp
Tối ưu đa luồng khi hệ thống chưa quá tải

Kết quả là hệ thống phức tạp lên nhanh chóng trong khi lợi ích thu được gần như bằng 0.

Hệ thống không chết vì thiếu tính năng, mà chết vì thiếu ổn định

User có thể chấp nhận:

Thiếu một vài tính năng nhỏ
Giao diện chưa hoàn hảo

Nhưng họ rất khó chấp nhận:

Không truy cập được
Thanh toán lỗi
Dữ liệu mất ngẫu nhiên

Ổn định luôn đứng trên tính năng.

Khi nào thì “được phép” đụng vào hệ thống đang chạy tốt?

Chỉ nên đụng vào khi bạn có đủ:

Kế hoạch triển khai rõ ràng
Phương án rollback trong vài phút
Thời gian bảo trì phù hợp
Giám sát, log, cảnh báo đầy đủ

Nếu thiếu một trong những thứ này, tốt nhất là… khoan hãy đụng.

Câu nói “đừng đụng” không phải là bảo thủ, mà là tôn trọng sự ổn định

“Đừng đụng vào hệ thống đang chạy tốt” không có nghĩa là lười cập nhật hay sợ thay đổi. Nó chỉ đơn giản là:

Thay đổi có kiểm soát
Chấp nhận rủi ro khi thật sự cần thiết
Không thay đổi chỉ vì cảm xúc kỹ thuật

Kết luận

Trong vận hành hệ thống, có những lúc làm nhiều là sai, còn làm ít lại là đúng. Một hệ thống đang chạy tốt giống như một cỗ máy đang vận hành trơn tru: bạn có thể nâng cấp nó, nhưng chỉ nên làm khi có lý do thật sự xác đáng và kế hoạch đầy đủ. Còn nếu mọi thứ vẫn ổn, user vẫn dùng bình thường, dữ liệu vẫn an toàn, thì lời khuyên đơn giản và thực tế nhất vẫn là: đừng đụng vào.