[Discovery] Trí tuệ nhân tạo: dự án Google Brain và Microsoft Adam


Tri_tue_nhan_tao.

Trí thông minh nhân tạo (artificial intelligence – AI) đang quay trở lại. Lần đầu tiên kể từ năm 1980, các nhà nghiên cứu thuộc lĩnh vực này đang thật sự ghi nhận những bước tiến lớn, và người ta cũng bắt đầu nói nhiều hơn về sức mạnh của AI trong thế giới hiện đại. Trong khi đó, cuộc sống của chúng ta lại đang được dẫn dắt bởi đủ loại dữ liệu và các công ty thì bắt đầu tìm cách kiếm tiền từ việc sử dụng AI để khai thác lượng dữ liệu khổng lồ này, nhất là trong thị trường di động. Trong số những tập đoàn công nghệ lớn tham gia nghiên cứu mảng AI có hai cái cái tên hết sức quen thuộc: Google và Microsoft.

Google Brain

Những nỗ lực nghiên cứu về trí tuệ nhân tạo của Google xoay quanh một dự án mang tên “Google Brain” (tạm dịch: bộ não của Google). Dự án này là do phòng thí nghiệm Google X chịu trách nhiệm, vốn cũng là nơi nghiên cứu các dự án “điên rồ” và mang tính cách mạng nhưng cũng đồng thời có tiềm năng lớn để ứng dụng vào thực tế. Google X chính là nơi kính thông minh Google Glass hay xe tự hành ra đời. Dự án được khởi đầu bởi Giáo sư Andrew Ng đến từ Đại học Stanford và hiện đang làm việc cho Baidu – bộ máy tìm kiếm lớn nhất Trung Quốc.

Quay trở lại với Google Brain, nó là một sáng kiến về machine learning (thuật ngữ dùng để chỉ một phân ngành của AI, trong đó người ta sẽ xây dựng và nghiên cứu các hệ thống có khả năng học hỏi từ dữ liệu thay vì chỉ thực thi theo những dòng lệnh đã lập trình sẵn). Google Brain chủ yếu áp dụng cho mục đích xử lý hình ảnh. Mục tiêu của dự án là tìm ra cách cải thiện các thuật toán lên mức đủ tốt, sau đó các nhà nghiên cứu sẽ xài những thuật toán này nhằm tạo nên một mạng lưới “nơ-ron thần kinh” nhân tạo với khả năng tìm kiếm và học hỏi tốt hơn nhưng lại cần ít sức mạnh xử lý hơn.

Google_Brain.

Việc học hỏi nói trên phải thật sự “sâu” và đưa ra được những thông tin, kiến thức hữu ích cho con người từ một lượng dữ liệu khổng lồ sẵn có. Chính vì thế, người ta gọi kĩ thuật này là “Deep Learning” và xem nó như một nhánh của “Machine Learning”.

Để phục vụ cho mục đích này, Google đã liên tục mua lại những công ty cũng như tuyển dụng các nhân tài trong lĩnh vựcdeep learning, chẳng hạn như việc chi ra 500 triệu USD để mua lại công ty khởi nghiệp DeepMind chuyên về trí tuệ nhân tạo. Công ty này vẫn chưa đưa ra sản phẩm đầu tiên của mình, tuy nhiên họ đã thuê được nhiều chuyên gia về deep learning từ nhiều nơi trên thế giới.

DeepMind từng trình diễn việc sử dụng trí tuệ nhân tạo để chơi trò chơi cũ của hệ máy Atari. Sau 2 tiếng “huấn luyện”, AI này chơi game tốt hơn và nếu bỏ ra 4 tiếng thì máy chơi game còn hay hơn người! Công nghệ của DeepMind tốt đến nỗi họ buộc Google phải lập ra một ủy ban đạo đức nhằm đảo bảo rằng phần mềm của họ sẽ không bị sử dụng để gây hại cho thế giới.

Màn trình diễn của DeepMind trước đây

Bởi vì deep learning là một lĩnh vực còn tương đối mới mẻ, không nhiều người có thể trở thành chuyên gia. Số lượng những người rành về deep learning trên thế giới là rất ít, và Google thấy được điều đó nên hãng mới bỏ nhiều tiền để thâu tóm DeepMind cùng đội ngũ nhân viên quý giá của mình.

Có thể bạn thắc mắc là Google Brain có được đưa vào sử dụng hay chưa, thì câu trả lời là có. Nó được Google áp dụng cho tính năng nhận diện giọng nói trên các thiết bị Android cũng như việc tự động phân chia hình ảnh StreetView theo từng nhóm khác nhau. Google Brain còn có thể giúp xác định địa chỉ và những thông tin quan trọng khác từ bức ảnh chụp đường phố. Hãng còn sử dụng hệ thống deep learning của mình để xác định những video nói về mèo trên YouTube với tốc độ và độ chính xác đáng kinh ngạc.

Hồi tháng 6/2012, Google cũng đã sử dụng một mạng lưới 16.000 máy tính để giả lập lại một vài khía cạnh của não vào đã huấn luyện hệ thống này thành công trong việc nhận dạng một con mèo trong tổng số 10 triệu bức ảnh chụp từ các video YouTube.

Chưa hết, sản phẩm trí tuệ nhân tạo của Google còn đang có mặt trong Android để nhận biết và phân tích giọng nói. Google+ cũng dùng Google Brain để tìm kiếm hình ảnh (ví dụ, gõ chữ “kim tự tháp” thì các ảnh chụp kim tự tháp sẽ hiện ra, tương tự cho “bãi biển”, “chó”, “mèo”, “bữa tiệc”…)

Google_Plus_Search.
Trên Google+ của mình, mình gõ chữ “phone” thì các hình ảnh nào, bao gồm cả ảnh chụp màn hình lẫn ảnh chụp từ camera, mà có hình chiếc điện thoại thì đều được hiển thị​

Mới đây, nhóm GoogLeNet (tiền thân là công ty DNNresearch, đã được Google mua lại) đã lần đầu tiên giới thiệu một kĩ thuật có thể phát hiện, phân loại các vật thể trong hình ảnh với số lượng và chất lượng tăng gấp đôi so với trước. Theo đó, hình ảnh được phân tích một cách chi tiết nhằm đưa ra kết quả dự đoán một cách chính xác nhất. Trong một đoạn demo của nhóm nghiên cứu, hệ thống có thể nhận ra tất cả các đồ vật trong một căn phòng kể cả một con mèo đang chuyển động. Hoặc thậm chí là nó có thể phân loại ra các loại trái cây trong một bức ảnh chụp.

Trong một bài viết của mình, Google từng nói như sau: “Các kết quả thí nghiệm của chúng tôi tiết lộ rằng có thể huấn luyện được một bộ máy nhận diện khuôn mặt mà không cần phải dán nhãn cho các bức ảnh là có chứa gương mặt hay không. Mạng lưới trí tuệt nhân tạo này rất nhạy cảm với những khái niệm cấp cao như cơ thể con người hay khuôn mặt của mèo. Bắt đầu với những chi tiết đó, chúng tôi đã huấn luyện cho bộ máy nhận diện phát hiện ra 20.000 loại đối tượng khác nhau với độ chính xác 15,8%, tăng 70% so với những mạng lưới trí tuệ nhân tạo trước đây”.

Mục tiêu cuối cùng của Google đó là các thuật toán deep learning của hãng có thể làm được… tất cả mọi thứ. Ví dụ, một phiên bản Google Now trong tương lai có thể sử dụng Google Brain để nhận biết được cả giọng nói lẫn hình ảnh, đồng thời đưa ra nhiều thông tin bổ ích hơn có liên quan đến người dùng nhằm giúp người dùng đưa ra quyết định đúng đắn hơn. Google Brain cũng có thể cải thiện kết quả tìm kiếm trên Google Search hoặc kết quả dịch thuật trên Google Translate nữa.

Những nền tảng AI mạnh mẽ như IBM Watson sẽ dựa vào những thuật toán tương tự như thế này trong tương lai, và những bước tiến như Google sẽ là động lực để giúp lĩnh vực trí tuệ nhân tạo trở nên phát triển hơn.

Microsoft Adam

Cách tiếp cận của Microsoft với deep learning thì hơi khác một chút. Thay vì đi mua lại những công ty nhỏ chuyên về lĩnh vực này rồi nâng cấp thuật toán của họ lên, Microsoft thì tập trung vào phần triển khai và hãng tìm cách cải tiến những thuật toán vốn được dùng để huấn luyện deep learning, không phải về chính deep learning. Dự án này được gọi là “Microsoft Adam”.

Kĩ thuật của Microsoft đó là giảm đi những phép tính toán dư thừa, tăng gấp đôi kết quả cuối cùng nhưng phải làm sao đó để giảm số lượng CPU cần cho quá trình xử lý. Điều đó dẫn đến những thành tựu công nghệ rất ấn tượng, bao gồm một mạng lưới trí tuệ nhân tạo có khả năng nhận dạng loài chó thông qua ảnh với độ chính xác cao như bạn có thể xem trong video bên dưới.

msft-dog-recognition-210.
Một thử nghiệm về Project Adam trong việc nhận dạng hình ảnh và loài chó​

Microsoft mô tả dự án của mình như sau:

Mục tiêu của Project Adam đó là cho phép phần mềm nhận ra gần như bất kì đối tượng nào. Đây là một sứ mạnh khó trong bối cảnh mạng lưới thần kinh của con người làm được việc nhận diện đó thông qua hàng nghìn tỉ những kết nối. Chúng tôi sử dụng ít máy tính hơn 30 lần so với những hệ thống khác, qua đó xài cái hình ảnh từ Internet để dạy cho một mạng lưới với hơn 2 tỉ kết nối. Hạ tầng có khả năng mở rộng này cho độ chính xác cao gấp đôi trong việc nhận biết đối tượng và nhanh hơn 50 lần so với những hệ thống khác”.

Kĩ hơn, Microsoft cho biết nhà nghiên cứu Trishul Chilimbi củ công ty hiện đang làm việc với một hệ thống điện toán hiệu năng cao và có quy mô lớn. Nghiên cứu gần đây nhất của ông cùng 3 cộng sự tập trung vào Adam và khả năng phân loại đối tượng của nó, bao gồm việc phân tích 14 triệu hình ảnh lấy từ các website, ví dụ như Flickr, xếp thành 22.000 loại dựa theo các tag đặt bởi người dùng.

Video trình diễn Project Adam

Ứng dụng dễ thấy nhất của Project Adam chính là Cortana, cô trợ lý ảo đang có mặt trên Windows Phone 8.1. Cortana có thể làm được nhiều thứ khác nhau và cũng rất thông minh, từ việc nhận dạng giọng nói của người dùng, phân tích nó, trả về kết quả cho đến việc đối đáp như một con người thật sự. Cortana thậm chí còn học hỏi thói quen và thao tác sử dụng thiết bị của bạn để biết và gợi ý trước thông tin nữa, đó chính là trí tuệ nhân tạo đấy.

Mục tiêu của Microsoft khi tạo ra Cortana đó là xây dựng một người trở lý có thể tương tác tự nhiên hơn, đồng thời phải làm được nhiều tác vụ hữu ích cho người dùng, và deep learning giúp sức rất nhiều cho điều đó.

[​IMG]

Giờ thì bạn có thể thấy được vì sao trí tuệ nhân tạo lại hữu ích. Mạng lưới AI được xây dựng càng “sâu” (deep) thì nó càng có khả năng học và nhận biết các khái niệm tốt hơn. Trong tương lai, người ta sẽ áp dụng AI nhiều hơn nhằm tạo ra những thiết bị thông minh hơn và tự máy tính sẽ cẩn trọng hơn. Ví dụ đơn giản, khi có email tới, máy tính sẽ biết được đây có phải là thư spam hay không bằng cách đọc nội dung, xem xét mối quan hệ giữa người nhận và người gửi, sau đó suy diễn ra ý định của người gửi. Đây là một việc rất mất thời gian ngay cả với con người, nhưng với sự phát triển của trí tuệ nhân tạo nói chung và deep learning nói riêng, chúng ta hoàn toàn có thể kỳ vọng vào một tương lai tương sáng với những cỗ máy thông minh và tuyệt vời hơn.

Tham khảo: MakeUseOf, Microsoft, Wikipedia
Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s