Năm 1943, chủ tịch IBM Thomas J. Waston được biết đến với
câu nói: “Tôi nghĩ chỉ có khoảng năm chiếc máy tính cho thị trường toàn cầu!“.
Nhưng cho đến thời điểm hiện tại có tới hàng triệu triệu máy tính ra đời phục vụ
cho nhu cầu con người. Nói như vậy đủ thấy trí tuệ nhân tạo AI (Artificial
Intelligence) có sức ảnh hưởng lớn như thế nào. Là một phần của nền kinh tế
thông tin ấy, Deep Learning - Cuộc cách mạng học sâu của tác giả Terrence
J. Sejonowski chính là cuốn sách chỉ dẫn cho quá khứ, hiện tại và tương
lai của học sâu.
Năm 1956, dự án nghiên cứu Dartmouth Artificial
Intelligence Summer đã khai sinh ra lĩnh vực AI, thúc đẩy một thế hệ các nhà
khoa học khám phá ra tiềm năng để công nghệ thông tin phù hợp với khả năng của
con người. Tính đến nay, AI đã trở thành một trợ thủ đắc lực của chúng ta.
Học sâu là gì? Học sâu chính là một nhánh của học máy, có
nguồn gốc từ toán học khoa học máy tính và khoa học thần kinh.
Phần I: Định nghĩa lại trí thông minh.
Biểu hiện rõ nhất của sự thay đổi lớn trong nền kinh tế được
công nghệ thông tin thúc đẩy là những chiếc xe tự lái - chúng có thể tự học dữ
liệu để dự đoán đường đi. Thông tin được trích ra từ dữ liệu thô đang dần chuyển
hoá thành kiến thức về con người và sự vật: chúng ta làm gì, chúng ta muốn gì
và chúng ta là ai. Ngày càng nhiều thiết bị sử dụng kiến thức này để giao tiếp
với chúng ta thông qua lời nói. Không giống với những kiến thức thụ động trong
sách vở, tri thức trên đám mây là trí tuệ bên ngoài, vượt ra khỏi não bộ của
chúng ta, trở thành một phần hiện hữu trong cuộc sống của con người.
Học sâu tác động đến rất nhiều các ứng dụng mà con người
đang sử dụng. Một ví dụ tiêu biểu nhất là việc dịch ngôn ngữ - chiếc chén thánh
của trí tuệ nhân tạo vì nó phụ thuộc vào khả năng hiểu một câu. Tải ứng dụng
Google Translate về máy, hướng vào từ, câu muốn dịch, lập tức nó sẽ dịch cho bạn,
không những thế, ngôn ngữ còn được nối với nhau rất mạch lạc. Một chiếc chén
thánh khác của trí tuệ nhân tạo là nhận dạng giọng nói: trợ lí ảo Alexa của
Amazon, Siri của Apple,... chính là kết quả của sự đột phá này. Giao tiếp giữa
AI và con người trở nên phổ biến hơn bao giờ hết. Có thể thấy máy móc đang dần
thay thế khả năng con người trong mọi lĩnh vực. Nếu như vậy, trí tuệ nhân tạo có
phải là mối đe doạ sinh tồn không? Câu trả lời là không bởi AI là do con người
chúng ta tạo ra nên chúng ta hoàn toàn có thể kiểm soát và ngăn chặn điều đó, ít nhất là đến thời điểm ta đang sống. Chúng ta sẽ thích ứng với trí tuệ
nhân tạo để từ đó mà trở nên thông minh hơn!
Cuộc cách mạng học sâu chính là cuốn sách khám phá nguồn gốc và hậu quả của việc học sâu từ quan điểm cá nhân Senjnowski với tư cách là người tiên phong phát triển thuật toán học cho mạng nơ - ron nhân tạo vào năm 1980.
Trong sự phát triển của trí tuệ nhân tạo, thị giác máy
tính từng được xem là một vấn đề hết sức khó khăn. Không ai nghĩ rằng nó sẽ có
hiệu suất ngang với con người. Nhưng không, phương pháp tiếp cận trí tuệ nhân tạo
đã được lấy cảm hứng từ nguyên lí sinh học thực tế của não bộ được gọi với cái
tên khác nhau như “mạng nơ - ron”, “chủ nghĩa kết nối”, “xử lí phân tán”,... đã
giải quyết vấn đề khó khăn ấy mà trước kia AI dựa trên logic không thể vượt
qua. Thay vì viết một chương trình máy tính dựa trên logic và suy nghiệm thì
các nhà nghiên cứu đã cho mạng nơ - ron nhận diện hành vi con người bằng cách
quan sát hành vi của họ. Mùa xuân cho các nhà nghiên cứu mạng nơ - ron bắt đầu,
kĩ thuật học sâu cho phép tự động hoá quá trình tìm kiếm những đặc trưng cơ bản
để phân biệt các vật thể khác nhau trong một hình ảnh và đó chính là lí do tại
sao thị giác máy tính dần trở nên tốt hơn! Đó cũng chính là lúc bình minh mạng
nơ - ron nhân tạo chiếu những tia sáng đầu tiên.
Cách thức hoạt động của não bộ trở thành chủ đề nghiên cứu
chính của các nhà khoa học. Nhận thức và cảm xúc là sản phẩm của não bộ, chúng
làm việc với nhau trong một chu trình cân bằng và khéo léo học hỏi để tạo ra
trí thông minh của con người. “Giá như AI có bộ não và trái tim?” - câu hỏi ấy
đã thôi thúc các nhà khoa học khám phá để tìm ra câu trả lời. Những mô hình mạng
nơ - ron ra đời đầu tiên chính là minh chứng cho thành quả ấy: máy Beltzmann của
Geoffrey, mạng đa tầng của Neocognition (tiền thân trực tiếp của mạng học sâu),
mạng Kohonen,... Các nhà nghiên cứu đã có một bước tiến lớn trong việc nghiên cứu
mạng học sâu. Nhưng tất cả đều chưa thể giải quyết các vấn đề cần thiết trong
thế giới thực bởi còn có vô số thông tin ẩn chứa bên trong vỏ não mà chúng ta vẫn
chưa thể khám phá hết được.
Bộ não chúng ta làm công việc nó giỏi nhất - giải quyết vấn
đề bằng cách nhận dạng khuôn mẫu được truyền từ thị giác. Thị giác là giác quan
sắc bén nhất và cũng là giác quan được nghiên cứu nhiều nhất trong lĩnh vực học
sâu. Một nửa vỏ não của chúng ta dành cho thị giác. Và cũng chính cấu tạo vỏ
não thị giác ấy là nguồn cảm hứng cho mạng học sâu thành công nhất. Nếu theo
dõi tín hiệu tạo ra bởi một hình ảnh đi vào bộ não, chúng ta có thể thấy cách
nó được biến đổi hết lần này đến lần khác mỗi khi nó di chuyển từ giai đoạn này
đến giai đoạn tiếp theo trong quá trình xử lí. Thị giác bắt đầu từ võng mạc,
nơi các tế bào cảm quang chuyển đổi ánh sáng thành tín hiệu điện, sẽ có
hai lớp trong tế bào thần kinh trong võng mạc xử lí các tín hiệu ấy, kết thúc với
các tế bào hạch dẫn ra các dây thần kinh thị giác. Mỗi tế bào thần kinh trong vỏ
não thị giác có thể được xem như một máy đo tính năng thị giác, chỉ hoạt động
khi nó nhận được đầu vào trên một ngưỡng nhất định cho tính năng đưa ra trong một
mảng cụ thể của trường thị giác. Nếu một mắt của người hay vật nào đó không thể
tác động đến các tế bào thần kinh vỏ não được nữa sẽ dẫn đến tình trạng gọi là “giảm
thị lực”. Sự thiếu hụt một mắt là một ví dụ về mức độ dẻo dai cao hiện diện
trong những giai đoạn phát triển ban đầu khi môi trường tạo ra các kết nối khớp
thần kinh giữa các tế bào thần kinh trong vỏ não và các bộ phận khác của não bộ.
Khớp thần kinh chứa hàng trăm protein độc nhất kiểm soát sự giải phóng các chất
dẫn truyền thần kinh và kích hoạt các thụ thể trên tế bào thần kinh nhận.
Sự pha trộn giữa máy tính và thị giác sinh học đã được Steven
Zucker từng bước nghiên cứu, sử dụng phương pháp tiếp cận dựa trên cấu trúc
chính xác của vỏ não sơ cấp - một cấu trúc không thể tìm thấy ở bất kì đâu
trong vỏ não. Steven rất tham vọng muốn hiểu về cách chúng ta nhận biết hình dạng
của vật thể từ bóng của nó trên bề mặt và các dấu hiệu của nếp nhăn và nếp gấp.
Ông đã lí giải được điều đó dựa trên quan hệ mật thiết giữa các đường nét ba
chiều của bề mặt như chúng ta chúng ta vẫn thấy trên những bản đồ thể hiện đường đồng mức của ngọn núi. Ông đã đưa ra kết luận rằng: chức năng của một tế bào thần
kinh được quyết định không chỉ đơn giản bởi cách nó phản ứng với đầu vào mà còn
bởi các tế bào thần kinh nó kích hoạt xuôi dòng bởi “trường chiếu ảnh”. Bản đồ
thị giác trong vỏ não được tổ chức theo cấp bậc các đầu ra và đầu vào của mỗi vùng
thị giác trong vỏ não và sắp xếp chúng theo một sơ đồ phân cấp. Tất cả những điều
đó thức đẩy sự ra đời của một ngành khoa học mới: ngành khoa học thần kinh nhận
thức, thu hút những nhà nghiên cứu từ những lĩnh vực khoa học khác.
Phần II: Các cách học máy.
Perceptron là mạng lưới thần kinh một nơ - ron. Cấu trúc mạng lưới đơn giản nhất tiếp theo có nhiều hơn một nơ - ron trong tầng đầu ra; với mỗi nơ - ron đầu vào kết nối với một nơ - ron tầng đầu ra, chuyển đổi các kiểu mẫu trên tầng đầu vào thành các kiểu mẫu trên tầng đầu ra. Mạng này không chỉ phân loại được các nguồn đầu vào mà còn có thể học cách thực hiện việc tách nguồn mù! Một thuật toán mới ra đời mang tên “Phân tích thành phần độc lập (ICA)”. Phân tích thành phần độc lập đã được sử dụng cho hàng nghìn ứng dụng thực tế và ngày nay đã có mặt trong các cuốn sách về xử lí tín hiệu. Khi áp dụng cho các mảnh nhỏ từ những hình ảnh tự nhiên của khung cảnh ngoài trời, các nguồn độc lập của ICA được khoanh vùng lại, định hướng các bộ lọc biên, tương tự với những tế bào đơn giản trong vỏ não thị giác của mèo và khỉ. ICA chỉ cần một vài trong số rất nhiều nguồn để xây dựng lại một mảnh ghép của hình ảnh, sự tái hiện này được gọi theo ngôn ngữ toán học là “rời rạc” (sparse). Mạng ICA được hình thành có số lượng các đơn vị đầu vào và đầu ra ngang bằng nhau và một tập hợp trọng số kết nối đầy đủ giữa chúng. Nếu như perceptron là một thuật toán học có giám sát thì ICA phân tích thành phần độc lập không có giám sát dùng để đo lường sự độc lập giữa các đơn vị đầu ra như một hàm chi phí, nó không biết mục tiêu là gì giúp việc tách nguồn âm thanh trở nên hiệu quả hơn bao giờ hết.
Mặc dù các mạng nơ - ron
có thể đưa ra câu trả lời chính xác cho một vấn đề nhưng vẫn chưa thể giải
thích cách chúng đạt đến câu trả lời đó. Sự phát triển của mạng nơ - ron, AI sẽ
mở ra một tương lai mới cho thế giới nhưng đó cũng là mối đe doạ mà chúng ta
khó có thể đoán trước được. Khả năng của máy tính tiếp tục được tăng theo cấp số
nhân, nó có thể huấn luyện các mạng lớn hơn bao giờ hết. Trong thị giác máy
tính, những tiến bộ ổn định của việc nhận dạng vật thể trong hình ảnh ở các thập
niên cuối thế kỉ trước và mười năm đầu thế kỉ XXI đã cải thiện hiệu suất của điểm
chuẩn. Yann Lecun đã cho ra đời mạng thị giác của mình với cái tên Convnet. Các
khối được xây dựng cơ bản của mạng dựa trên phép toán tích chập, có thể được
coi như bộ lọc trượt nhỏ được truyền qua hình ảnh, tạo ra một tầng các tính
năng trên hình ảnh.
Hầu hết các thuật toán học tập hiện tại đã được phát
hiện cách đây hơn 25 năm, vậy tại sao phải mất quá lâu để
chúng có tác động đến thế giới thực Với các máy tính
và dữ liệu được dán nhãn có sẵn cho các nhà nghiên cứu trong những năm 1980, chỉ
có thể chứng minh về nguyên tắc đối với các vấn đề thử nghiệm. Tuy có một số
kết quả đầy hứa hẹn, các nhà khoa học vẫn không biết việc
học máy và hiệu suất mạng sẽ mở rộng như thế nào khi số lượng đơn vị và kết nối
tăng lên để phù hợp với sự phức tạp của các bài toán trong thế giới thực. Hầu hết
các thuật toán trong AI có khả năng mở rộng rất kém và không bao giờ vượt ra
ngoài việc giải quyết các vấn đề thử nghiệm. Bây giờ, chúng ta biết rằng việc học
tập của mạng nơ - ron có thể được mở rộng tốt và hiệu suất tiếp tục tăng theo
kích thước của mạng và số tầng. Mặc dù các mạng học sâu đã chứng tỏ
được bản thân trong nhiều ứng dụng, chúng sẽ không bao giờ có thể tự tồn tại
trong thế giới thực. Chúng được mã hóa bởi các nhà nghiên cứu cung cấp dữ liệu
cho chúng, họ tinh chỉnh các siêu tham số của chúng như tốc độ
học tập, số tầng và số đơn vị trong mỗi tầng để cải thiện sự hội tụ và cung cấp
cho chúng nguồn tài nguyên điện toán khổng lồ. Mặt khác, vỏ não không thể tồn tại
trong thế giới thực mà không có phần còn lại của não và cơ thể để cung cấp hỗ
trợ, và tự chủ, trong một thế giới luôn thay đổi, là một vấn đề khó khăn hơn
nhiều so với nhận dạng kiểu mẫu.
Không chỉ có vậy, mạng nơ
- ron còn có thể học tập bằng cách tự chơi, sử dụng sự giám sát của chuyên gia
để huấn luyện các mạng và giải thuật lan truyền ngược để đánh giá thế cờ và nước
cờ khả thi. Đó chính là cơ sở ra đời của chương trình “TD - Gamon”. Thành tựu
này là một bước ngoặt trong lịch sử trí tuệ nhân tạo bởi chúng ta đã học được
nhiều điều mới từ một chương trình AI, và hơn thế, tự dạy cho mình cách làm chủ một chiến
lược phức tạp trong một lĩnh vực độ phá!
Yếu tố giúp học sâu cất
cánh là gì? Đó chính là dựa vào dữ liệu lớn (big data). Sự bùng nổ của dữ liệu
lớn đang tạo ra ảnh hưởng lớn không chỉ cho khoa học kĩ thuật mà còn cho tất cả
mọi lĩnh vực trong xã hội. Nếu không có hàng triệu hình ảnh và dữ liệu được gắn
nhãn trên Internet thì chúng ta khó mà có thể huấn luyện được những mạng học
sâu thực sự lớn. Có thể nhận thấy rằng, trong học máy, người có được nhiều dữ
liệu nhất sẽ là người chiến thắng và tên khổng lồ Facebook đã làm được điều đó!
Những đột phá lớn
trong lĩnh vực học tập với mạng nơ - ron nhân tạo xuất hiện cứ mỗi 30 năm, bắt
đầu với việc ra mắt của perceptrons vào những năm
1950, thuật toán học tập cho perceptrons đa tầng trong
thập niên 1980, và học sâu vào năm 2010. Trong mỗi
trường hợp, có một khoảng thời gian đầy phấn khích, khi có
nhiều tiến triển chỉ trong một giai đoạn ngắn, tiếp sau đó là khoảng thời gian
dài với những tiến bộ chậm hơn, từng chút một. Tuy
nhiên, một điểm khác biệt là tác động của giai đoạn phấn khích tăng theo mỗi lần
phát sinh. Chính sự sẵn có
rộng khắp của dữ liệu lớn đã thúc đẩy đà tăng trưởng mới nhất.
Phần III: Tác động của khoa học kĩ thuật.
Thời đại điện toán nhận thức đang mở ra. Không bao lâu nữa
mọi thứ của chúng ta sẽ được tự động hoá một cách dễ dàng, từ y tế, xây dựng, dịch
vụ, nhận dạng tội phạm (an ninh), robot,... AI đã và đang trở thành một phần của
cuộc sống hàng ngày. Các thiết bị nhận dạng như Alexa trong bộ loa của Amazon,
trợ lí ảo Siri của Apple hay những chú robot thông minh đã có thể tương tác với
bạn giúp cuộc sống của bạn dễ dàng hơn và bổ ích hơn! Dần dần, chúng có khả
năng như con người, “Emotion” được thành lập để thương mại hoá việc phân tích tự
động khuôn mặt. Chỉ cần một vài phút là các thiết bị thông minh có thể phát hiện
ra Donald Trump có tác động cảm xúc cao nhất đối với phương pháp phỏng vấn của chính
đảng nào! Rất có thể rằng, trong tương lai không xa, iPhone sẽ không chỉ hỏi bạn
lí do bạn khó chịu mà còn có cách giúp bạn bình tĩnh trở lại!
Suy nghĩ về
tương lai của AI, chúng ta cần phải có cái nhìn lâu dài, vì chúng ta còn thiếu
sức mạnh điện toán cần thiết để đạt được mức độ thông minh của con người. Mạng
học sâu giờ đây có hàng triệu đơn vị và hàng tỉ trọng số. Đây là con số ít hơn
10.000
lần so với số các tế bào thần kinh và khớp thần kinh trong vỏ não của con người.
Nếu tất cả các cảm biến trên thế giới được kết nối với Internet và kết nối với
nhau bằng mạng học sâu, một ngày nào đó, nó có thể xuất
hiện và nói: “Xin chào thế giới!”.
Có thể thấy rằng, ngày nay, việc tìm kiếm thông tin trên
Internet dễ dàng hơn nhiều so với việc tìm kiếm thông tin bên trong sách vở.
Chúng ta đang sống trong thời đại bùng nổ thông tin với nhiều hình thức khác
nhau. Nền kinh tế theo hướng số hoá và kĩ năng lập trình trở thành nhu cầu lớn
tại nhiều công ty. Nền kinh tế đang chuyển dần từ công nghiệp sang thông tin! Học
sâu cho chúng ta thấy rằng, giống như các mạng nơ - ron của bộ não, mô hình mạng
nơ - ron của máy tính có khả năng khái quát ngôn ngữ và chúng có thể được huấn
luyện để nhận biết có chọn lọc các bài phát biểu từ nhiều ngôn ngữ, để dịch giữa
các ngôn ngữ và tạo chú thích cho hình ảnh với cú pháp hoàn hảo. Như vậy, có thể
nói, mạng nơ - ron chính là điểm kết trên con đường đạt được trí tuệ nhân tạo
nói chung.
Học sâu phụ thuộc
vào việc tối ưu hóa một hàm chi phí. Các hàm chi phí trong tự nhiên là gì? Nghịch
đảo giá trị trong quá trình tiến hóa được gọi là sự thích hợp, nhưng đó là một
khái niệm chỉ có ý nghĩa
trong bối cảnh của một tập hợp các ràng buộc cụ thể, từ môi trường hoặc từ hệ
thống được tối ưu hóa. Trong não bộ có một số giá trị
bẩm sinh điều chỉnh hành vi, chẳng hạn như nhu cầu về thực phẩm, sưởi ấm,
an toàn,
oxy và sinh sản. Trong học tăng cường, các hành động được thực hiện để tối ưu
hóa những phần thưởng trong tương lai. Nhưng ngoài những phần thưởng đảm bảo
cho sự sống còn, một loạt các phần thưởng có
thể được tối ưu hóa, thấy được rõ ràng từ phạm vi gây hoang mang của hành vi
con người. Câu hỏi đến cuối cùng vẫn gây nhiều tranh cãi cho các
nhà khoa học là: “Liệu
có
một vài hàm chi phí tổng quát cơ bản chịu trách nhiệm cho sự đa dạng này?”
Lời kết:
Chúng ta vẫn
đang tìm kiếm các khái niệm cốt lõi sẽ tiết lộ bí mật về những dạng thức thông
minh cao nhất. Chúng ta đã xác định được một vài nguyên tắc chính nhưng không
có khung khái niệm giải thích cách thức bộ não hoạt động lôi cuốn như DNA làm
nên bản chất của sự sống. Các thuật toán học tập là một nguồn tốt để tìm kiếm
những khái niệm thống nhất. Có thể tiến bộ chúng ta đang tạo ra trong việc tìm
hiểu cách mạng lưới học sâu giải quyết các vấn đề thực tế sẽ mang lại nhiều
manh mối hơn. Có thể chúng ta sẽ khám phá các hệ điều hành tạo nên sự tiến hóa
trong các tế bào và não bộ. Nếu con người có thể giải quyết những vấn đề này, sẽ có được những lợi ích không thể hình dung. Tự nhiên có thể thông minh hơn mỗi cá nhân chúng ta nhưng hãy tin chắc rằng với sự những bước phát triển của
Deep learning - Cuộc cách mạng học sâu, một ngày nào đó chúng ta có thể cùng nhau giải quyết câu
đố về trí thông minh ấy!
Review chi tiết
bởi Kim Chi – Bookademy
______________
Theo dõi fanpage của Bookademy để cập nhật các thông tin
thú vị về sách tại link: https://www.facebook.com/bookademy.vn
Đăng ký để trở thành CTV Bookademy tại link: http://bit.ly/bookademy_ctv
Cuộc cách mạng học sâu đã mang đến cho chúng ta những chiếc xe tự hành, cải thiện dịch vụ Google Translate, những cuộc trò chuyện trôi chảy với trợ lý ảo Siri và Alexa, cùng lợi nhuận khổng lồ từ việc giao dịch tự động trên Sở giao dịch chứng khoán New York. Mạng học sâu có thể chơi poker tốt hơn cả người chơi poker chuyên nghiệp và đánh bại nhà vô địch cờ vây thế giới. Trong cuốn sách này, Terry Sejnowski giải thích làm thế nào học sâu đã đi từ một lĩnh vực học thuật phức tạp trở thành một công nghệ đột phá trong nền kinh tế thông tin.
Cuộc sống trên Trái đất tràn ngập những điều bí ẩn, nhưng có lẽ bí ẩn lớn nhất là bản chất của trí thông minh. Bản chất trí thông minh có nhiều dạng, từ thông minh của vi khuẩn cho tới trí thông minh phức tạp của con người, mỗi trí thông minh đều thích nghi một cách phù hợp trong tự nhiên. Trí tuệ nhân tạo cũng sẽ có nhiều dạng, thể hiện từng đặc điểm riêng của nó. Khi trí thông minh máy móc (machine intelligence) đã dựa vào mạng nơ-ron, nó có thể đưa ra một khuôn khổ khái niệm mới cho trí thông minh sinh học.
Cuộc cách mạng học sâu chính là sách chỉ dẫn cho quá khứ, hiện tại và tương lai của học sâu. Cuốn sách không phải lịch sử bao quát trong lĩnh vực này, mà là quan điểm cá nhân về những tiến bộ mang tính đột phá và được hình thành bởi cộng đồng các nhà nghiên cứu.
Phần I cung cấp động lực hình thành nên học sâu và kiến thức nền tảng cần thiết để hiểu nguồn gốc của học sâu; Phần II giải thích các thuật toán học tập trong một số kiến trúc mạng nơ-ron khác nhau; và phần III giúp bạn khám phá tác động của học sâu lên cuộc sống của chúng ta và những tác động trong tương lai. Tuy nhiên, nhà triết học Yogi Berra đến từ New York đã từng cho rằng: “Tật khó để có thể đưa ra những dự đoán, đặc biệt là dự đoán về tương lai.” Nội dung của tám chương tiếp theo cung cấp thông tin nền tảng kỹ thuật trong câu chuyện; mở đầu của ba phần nói về những sự kiện trong câu chuyện và chúng kéo dài tới hơn 60 năm.