Oke, bắt đầu thôi anh em! Hôm nay tui chia sẻ cái vụ dịch tiếng Anh sang tiếng Việt, nghe thì dễ nhưng mà làm thật mới thấy cũng lắm công phu đó nha.
Chuyện là vầy, dạo gần đây tui hay phải đọc tài liệu tiếng Anh, mà đọc riết cũng oải, mắt mũi kèm nhèm. Thế là tui mới nghĩ ra cái trò viết script tự động dịch cho nó lẹ. Đầu tiên là tui tìm hiểu mấy cái thư viện dịch thuật tự động, thấy Google Translate API là ngon lành cành đào nhất, vừa mạnh mẽ lại vừa dễ xài.
Sau khi ngâm cứu API xong, tui bắt đầu viết code. Ban đầu tui dùng Python cho nó tiện, vì tui quen tay với Python hơn. Tui cài đặt thư viện `googletrans`, rồi viết mấy dòng code đơn giản để gửi yêu cầu dịch và nhận kết quả. Mấy dòng code đầu tiên thì dễ òm, chỉ là:

- Import thư viện
- Khởi tạo translator
- Gọi hàm translate với đoạn text cần dịch
- In ra kết quả
Nhưng mà đời không như là mơ, khi thử với mấy đoạn text dài ngoằng, tui mới phát hiện ra là `googletrans` nó hay bị lỗi, rồi nó báo là quá tải này nọ. Tức cái lồng ngực. Thế là tui lại phải tìm cách khắc phục.
Tui thử đủ kiểu, từ thêm delay giữa các lần gọi API, rồi đổi sang dùng proxy, nhưng mà vẫn không ăn thua. Sau một hồi vò đầu bứt tóc, tui mới nghĩ ra là có lẽ do `googletrans` nó dùng API “chùa” của Google, nên mới hay bị bóp băng thông. Thế là tui quyết định chơi lớn, đăng ký tài khoản Google Cloud và sử dụng Google Cloud Translation API.
Lúc đầu tui cũng hơi ngán vụ Google Cloud này, vì nghe đồn là nó phức tạp lắm. Nhưng mà sau khi làm theo hướng dẫn của Google, tui thấy cũng không đến nỗi nào. Tui tạo project, bật API, rồi tạo credential key. Sau đó, tui sửa lại code Python để sử dụng key này. Lần này thì ngon lành cành đào, API chạy mượt mà, không còn bị lỗi quá tải nữa.
Nhưng mà vẫn chưa hết chuyện. Tui phát hiện ra là bản dịch của Google Translate đôi khi nó hơi “ngô nghê”, không được tự nhiên cho lắm. Ví dụ, nó hay dịch mấy cái thành ngữ, tục ngữ một cách máy móc, nghe rất là “khô”. Thế là tui lại phải ngồi chỉnh sửa lại bản dịch bằng tay, để cho nó mượt mà hơn.
Để tiết kiệm thời gian chỉnh sửa, tui bắt đầu nghiên cứu thêm về Natural Language Processing (NLP), với hy vọng là có thể cải thiện chất lượng bản dịch. Tui tìm hiểu về mấy cái kỹ thuật như tokenization, stemming, lemmatization, rồi thử áp dụng vào code của mình. Nhưng mà thú thật là tui thấy nó cũng không cải thiện được bao nhiêu. Chắc là do tui chưa đủ trình.
Cuối cùng, tui quyết định tập trung vào việc xây dựng một cái từ điển cá nhân, để lưu trữ những cụm từ, thành ngữ mà tui hay gặp, và bản dịch “chuẩn” của chúng. Khi gặp những cụm từ này, script của tui sẽ tự động thay thế bằng bản dịch trong từ điển. Cách này thì hiệu quả hơn hẳn, bản dịch trở nên tự nhiên hơn rất nhiều.
Đến đây thì coi như là tui đã hoàn thành cái script dịch thuật tự động của mình. Mặc dù nó vẫn còn nhiều chỗ cần phải cải thiện, nhưng mà ít nhất nó cũng đã giúp tui tiết kiệm được rất nhiều thời gian đọc tài liệu. Bài học rút ra là, làm cái gì cũng phải từ từ, đừng có nản, cứ thử rồi sai rồi sửa, rồi cuối cùng cũng sẽ ra được kết quả thôi.

Túm lại, cái quá trình “dịch chính xác tiếng anh sang tiếng việt” của tui nó là như vầy nè:
- Bắt đầu với Google Translate API
- Chuyển sang Google Cloud Translation API để tránh bị lỗi
- Xây dựng từ điển cá nhân để cải thiện chất lượng bản dịch
- Chỉnh sửa thủ công để bản dịch mượt mà hơn
Hy vọng là cái chia sẻ này của tui nó có ích cho anh em. Nếu anh em có cách nào hay hơn, thì nhớ chỉ tui với nha!
Một vài lưu ý nhỏ:
- Kiên nhẫn: Dịch thuật tự động không phải lúc nào cũng hoàn hảo, cần phải kiên nhẫn chỉnh sửa.
- Học hỏi: Tìm hiểu thêm về NLP để cải thiện chất lượng bản dịch.
- Chia sẻ: Đừng ngại chia sẻ kinh nghiệm của mình với người khác.
Chúc anh em thành công!
P/S: Tui cũng đang nghĩ tới chuyện viết một cái giao diện web cho cái script này, để cho nó dễ sử dụng hơn. Nếu tui làm xong, tui sẽ lại chia sẻ với anh em nha!
Đặt lớp học thử miễn phí
Học tiếng Anh 1 kèm 1 với giáo viên nước ngoài
Sau khi tham gia học thử, bạn có cơ hội nhận được bộ quà tặng miễn phí:
✅ Báo cáo đánh giá trình độ tiếng Anh
✅ 24 buổi học phát âm
✅ 30 phim hoạt hình song ngữ
✅ Bộ thẻ học động từ