Thứ Tư, 25 tháng 1, 2023

Sử dụng trí tuệ nhân tạo (AI) trong dịch thuật

Chào mọi người!

"Chia sẻ là động lực của tiến bộ". Trong bài này tôi nói về cách sử dụng trí tuệ nhân tạo trong nghề dịch thuật. Bạn có cần biết về lập trình hay trí tuệ nhân tạo (AI) không? Không cần. Bạn chỉ cần biết cách ứng dụng công cụ, phần mềm đã có. Tôi dùng phần mềm dịch thuật gọi là Trados, đây là phần mềm trả tiền, và có giá cao nhất. Ngoài ra, còn có Memsource và các phần mềm khác nữa, thậm chí có cả phần mềm dịch thuật miễn phí gọi là OmegaT. Nếu bạn không muốn đầu tư, bạn có thể dùng thử 30 ngày, hoặc tải phần mềm miễn phí về dùng.

Khi dùng Trados để dịch, chúng ta sẽ có lợi thế, là những câu giống nhau hay tương tự, nó sẽ tự động dịch cho chúng ta. Thậm chí, chúng ta có thể tích hợp các các dịch vụ dịch thuật đám mây như Google Dịch vào và bản dịch do máy dịch sẽ tự động xuất hiện, giúp gánh nặng công việc giảm nhẹ khá nhiều. Tất nhiên là không được dùng các dịch vụ dịch đám mây trong trường hợp khách hàng yêu cầu bảo mật tài liệu. Đây gọi là Machine Translation, tức là dịch máy. Bạn phải tạo ra một file gọi là Translation Memory, và khi có các câu tương tự câu đã dịch, phần mềm sẽ tự lấy ra và điền vào bản dịch cho chúng ta. Như thế, chúng ta không phải dịch một câu hai lần.

Từ điển (termbase) và nguyên tắc không dịch một từ hai lần

Trong Trados sẽ sử dụng từ điển gọi là termbase, bạn có thể tạo bao nhiêu tùy thích và sử dụng từ điển nào bạn muốn. Tôi tạo riêng từ điển tổng hợp có kèm giải nghĩa, từ điển kỹ thuật, từ điển ngữ pháp, tất cả đều ba ngôn ngữ Nhật - Việt - Anh. Mỗi khi gặp từ có trong từ điển, các nghĩa sẽ hiện ra, và tôi chỉ cần gõ chữ cái đầu chẳng hạn, là sẽ có danh sách để lựa chọn rồi nhập vào, chứ cũng không cần gõ hết cả từ. Việc này giúp không cần dùng não căng thẳng suy nghĩ nhớ lại nghĩa của từ là gì, hay là chọn cách dịch nào cho phù hợp, vì tôi đã dịch sẵn hết từ lần trước nên lần này và cả sau này chỉ cần chọn ra cách dịch phù hợp ngữ cảnh là được.

Chúng ta sẽ dùng phần mềm của Trados gọi là Multiterm để quản lý từ điển, thêm, sửa hay xóa các từ, cụm từ, như thế này:


Công cụ lấy các nghĩa của từ vựng từ trong Termbase

Nhưng tôi cũng dùng cả từ điển online trên web nữa. Làm thế nào để đồng bộ hóa hai từ điển với nhau. Việc này rất quan trọng trong áp dụng AI trong công việc, vì bản chất của AI là DỮ LIỆU LỚN.

Có câu chuyết thế này: The true intelligence is data intelligence. (Trí tuệ đích thực là trí tuệ dữ liệu).

Câu này thật ra là do ... tôi nghĩ ra thôi. Nhưng quả thật, dữ liệu là quan trọng nhất. Bạn muốn dịch đúng, dịch nhanh? Bạn phải có dữ liệu lớn là từ điển. Nhưng làm sao để chuyển dữ liệu giữa các dạng với nhau, vì dụ từ Termbase trong Trados sang dạng web để tra cứu được trên web?

Dữ liệu Termbase về cơ bản là bị mã hóa, sẽ không đọc được. Do đó, tôi sẽ xuất nó ra thành file XML và viết công cụ để đọc file XML này.

Lúc đầu, tôi xuất cả từ điển ra dạng XML, và bạn biết là mất bao lâu không? Khoảng 20-30 phút, ra file 120MB. Sau đó, tôi đọc từ file này ra nghĩa tiếng Việt và tiếng Anh của từ. Nhưng nếu tôi sửa từ trong Termbase rồi, ví dụ thêm nghĩa, thêm cách dịch, thì chẳng lẽ mỗi lần lại phải xuất ra, cực kỳ tốn thời gian và mệt mỏi ư? Thế là tôi phải tự copy các nghĩa đã thêm vào lên từ điển trên web. Nhưng tôi chợt nhớ ra là mình có thể chỉ xuất (export) riêng một cụm từ (entry) hiện tại, gần như tức thời, như thế này:


Tôi dùng chức năng này xuất ra file entry.xml (thay vì xuất cả từ điển thành file termbase.xml):


File entry.xml này chỉ có 5KB và xuất ra tức thời, vì nó rất nhỏ. Sau đấy, tôi dùng công cụ của tôi và đọc ra nghĩa tiếng Anh và tiếng Việt của nó, để copy vào từ điển web của tôi:


Công cụ này thì do tôi viết ra. Nếu bạn biết lập trình và viết công cụ, thì việc sử dụng trí tuệ nhân tạo trong công việc sẽ thú vị hơn khá nhiều.

Takahashi

Không có nhận xét nào:

Đăng nhận xét