18 tựa sách hay về ngôn ngữ R và Python dành cho nhà khoa học dữ liệu
ngocnguyen1604
2 năm trướcBình luận: 0Lượt xem: 3.942
Nói về machinelearning-máy học và data science-khoa học dữ liệu thì dễ. Có nhiều khóa học mở mà bạn có thể tham gia thế nhưng nếu thu thập những kiến thức chuyên sâu đòi hỏi bạn phải có nhiều nỗ lực. Ví dụ: Bạn có thể hiểu rất nhanh cách làm một công việc rừng ngẫu nhiên như thế nào thế nhưng để hiểu được một cách logic đằng sau nó làm việc sẽ cần thêm rất nhiều nỗ lực.
IDL xin giới thiệu bộ 18 cuốn sách hay dành cho các nhà khoa học dữ liệu-data scientists về ngôn ngữ R và Python, một trong những ngôn ngữ cơ bản khi bạn tiếp xúc với dữ liệu, mời mọi người cùng đọc.

R dành cho khoa học dữ liệu-Data Science:
1. Hands-on Programming with R:
Đây là cuốn sách được viết bởi tác giả Garrett Grolemund. Nó khá phù hợp với những ai mới biết đến ngôn ngữ lập trình R. Học để viết các chức năng và vòng phạm vi về ngôn ngữ R, mọi người nghĩ, các gói R có thể cho phép người dùng tránh viết các hàm và vòng lặp, nhưng đó không phải là cách tiếp cận bền vững. Cuốn sách này giới thiệu cho bạn các chi tiết của môi trường lập trình R sử dụng các dự án thú vị như thẻ bài, khe máy,... Nội dung sách viết khá dễ hiểu và những ví dụ có thể được sao chép một cách dễ dàng.



2. R for Everyone: Advanced Analytics and Graphics:
Cuốn sách được viết bởi Jared P. Lander. Đó là một quyển sách hay bao gồm tất cả các khía cạnh của khoa học dữ liệu như hiển thị dữ liệu, thao tác dữ liệu, mô hình tiên đoán, nhưng không sâu. Bạn có thể hiểu rằng nó nhấn mạnh các tiêu chí sử dụng các thuật toán và mỗi một ví dụ cho thấy cách thể hiện dưới ngôn ngữ R la như thế nào. Cuốn sách này có lẽ dành cho những ai có xu hướng nghiêng về phía thực tế của các thuật toán.



3. R Cookbook:
Tác giả của cuốn sách là Teetor Paul. Nó bao gồm một số lời khuyên, công thức đề giúp mọi người vượt qua những cuộc đấu tranh hàng ngày trong quá trình sử lý và thao tác dữ liệu. Đã có những lúc chúng ta bị mắc kẹt trong một tình huống mà chúng ta biết rất rõ những gì cần phải làm. Nhưng, làm thế nào quả thực là một thách thức không hề nhỏ. Cuốn sách này sẽ giải quyết vấn đề cho bạn. Nó không có lý thuyết giải thích các khái niệm, nhưng tập trung vào cách sử dụng chúng trong ngôn ngữ R. Nó bao gồm một loạt các chủ đề như xác suất, thống kê, phân tích chuỗi thời gian, xử lý dữ liệu trước,...



4. R Graphics Cookbook:
Winston Chang là tác giả của cuốn sách. Sự hiển thị dữ liệu cho phép một người thể hiện và phân tích các phát hiện của học bằng cách sử dụng hình dạng và màu sắc, không chỉ trong bảng. Có một sự hiểu biết vững chắc về các biểu đồ, và khi nào thì sẽ sử dụng biểu đồ nào, và cách làm thế nào để tùy chỉnh một biểu đồ và làm cho nớ trở nên đẹp là một kỹ năng quan trọng của một nhà khoa học dữ liệu. Cuốn sách này không mạng lại cho bạn kiến thức về lý thuyết, nhưng tập trung vào việc xây dựng chúng trong R bằng cách sử dụng bộ dữ liệu mẫu.



5. Applied Predictive Modeling:
Cuốn sách do Mã Kuhn và Kjell Johnson viết. Max Kuhn không phải là người tạo ra gói cát. Đó là một trong những cuốn sách hay nhất bao hàm sự kết hợp giữa tri thức lý thuyết và thực tiễn. Nó thảo luận về một số chủ đề học tập quan trọng của máy như lựa chọn quá nhiều, các mô hình tuyến tính và phi tuyến tính, các phương pháp cây,..Không còn điều gì để bàn, nó thể hiện tất các thuật toán sử caret package. Caret là một trong những gói phần mềm ML(machine learning) có ảnh hưởng trong sự đóng góp vào thư viện CRAN.



6. Introduction to statistical learning:
Một nhóm tác giả bao gồm Trevor Hastie và Robert Tibshirani viết nên cuốn sách. Đây là một trong những cuốn sách đề cập khá chi tiết về mô hình thống kê. Sách bao gồm các giải thích khá sâu sắc về các chủ đề như hồi quy tuyến tính, hồi quy logistic, các cây, SVM, học tập không chuyên môn,...Bởi vì cuốn sách là bản giới thiệu, nên các lời giới thiệu khá dễ hiểu và bất cứ những ai mới chập chững biết thì có thể theo dõi dễ dàng. Vì vậy, cuốn sách này có lẽ dành cho tất cả mọi người mới học machine learning trong R. Thêm vào đó, trong sách còn có một số bài tập thực hành vô cùng hay nữa đấy.



7. Elements of Statistical learning:
Tác giả cuốn sách là Trevor Hastie, Robert Tibshirani và Jerome Friedman. Đây là phần tiếp theo của cuốn Introduction to statistical learning. Cuốn sách bao gồm nhiều nhiều chủ đề nâng cao hơn, do đó nếu là người mới nắt đầu tìm hiểu về thống kê thì không nên đụng vì sẽ rất khó để tiếp cận ở mức này. Cuốn sách này có lẽ sẽ phù hợp với những người quen thuộc với những diều cơ bản về máy học-machine learning. Sách nói về các phương pháp tuyết tính khác nhau cho hồi quy, phân loại và làm mịn hạt nhân, lựa chọn mô hình,...Nên đọc quyển sách nếu bạn muốn hiểu về ML sâu hơn.



8. Machine learning with R:
Brett Lantz là tác giả của cuốn sách này, cái hay của quyển sách là tác giả viết nội dung với lối phương pháp giải thích khái niệm vô cùng đơn giản. Đây là cuốn sách về máy học rất dễ hiểu, và cung cấp cho bạn nhiều kiến thức về các khía cạnh thực tế của họ. Các thuật toán như đóng gói, tăng cường, SVM, mạng Neutral, lồng ghép,... được thảo luận bằng cách giải quyết các nghiên cứu điển hình tương ứng. Những nghiên cứu tình huống này sẽ giúp bạn hiểu cách sử dụng các thuật toán trên thế giới thực. Ngoài ra, sách cũng có đề cập một số kiến thức về các tham số ML.


9. Master machine learning with R:
Cory Lesmeister đã có cuốn sách khá hay phù hợp cho những ai muốn đạt đến mức độ giáo sư về R cho mục đích học máy. Sách gồm gần như tất cả các thuật toán và cách thực hiện của chúng trong R. Bên cạnh đó, cuốn sách này sẽ giới thiệu cho bạn một số gói R dùng cho ML gồm gói H2O đã được tung ra, Cuốn sách này có tính năng mới nhất trong ML. Tuy nhiên, nói về kỹ thuật ML tiên tiến như Stacking thì cuốn sách vẫn chưa đề cập tới.



10. Machine learning for Hackers:
Cuốn sách này tương đối ngắn gọn nhưng vẫn đầy đủ nội dung và đưa ra được tầm quan trọng tuyệt đối của mọi chủ đề thảo luận. Có lẽ tư duy của tác giả Drew Conway và Myles White không đi sâu vào một chủ đề mà vẫn đảm bảo những chi tiết quan trọng. Nếu bạn muốn học điều gì đó mới mẻ về ML thì đây quả là một cuốn sách hay dành cho bạn đấy.



11. Practical Data Science with R:
Như là tên gọi, cuốn sách tập trung sử dụng phương pháp khoa học dữ liệu trong thế giới thực. Không có cuốn sách nào liệt kê ở trên nói về thách thức dựng trong việc xây dựng mô hình, triển khai mô hình nhưng cuốn sách này thì có. Tác giả không chuyển trọng tâm của mình từ việc thiết lập mối liên hệ giữa lý thuyết ML và tác động của nó đối với các hoạt động thế giới thực. Cuốn sách này dành cho những người chưa được nhập ngành công nghiệp phân tích.



Python cho khoa học dữ liệu-data science
1. Mastering Python for Data Science:
Cuốn sách bắt đầu từ sự giới thiệu về cấu trúc dữ liệu trong Numpy & Pandas và cung cấp một mô tả hữu ích về nhập dữ liệu từ nhiều nguồn khác nhau vào các cấu trúc này. Bạn sẽ học để thực hiện đại số tuyến tính trong Python và thực hiện phân tích bằng cách sử dụng thông kê suy diễn. Sau đó cuốn sách cung cấp các khái niệm tiên tiến như xây dựng một công cụ giới thiệu, hình dung cao cấp băng Python, mô hình nhóm,...



2. Python for Data Analysis:
Sẽ không có một khóa học online nào toàn diện như là cuốn sách này. Cuốn sách bao gồm tất cả các khía cạnh phân tích dữ liệu từ thao tác, xử lý, làm sạch, hình dung và xử lý triệt đề dữ liệu trong Python. Nếu bạn là một nhà khoa học dữ liệu Python mới, thì cuốn sách này khá phù hợp với bạn.

3. Introduction to Machine Learning with Python:
Cuốn sách có nội dung muốn giúp những người mới bắt đầu có thể làm việc với máy học. Sách còn dạy bạn mô hình máy học trong Python scikit. Cuốn sách giả định không có kiến thức trước, do đó sách khá phù hợp cho những người không có nền tảng về Python hay kiến thức về máy học. Ngoài ra, sách cũng bao gồm những phương pháp tiên tiến để đánh giá mô hình và điều chỉnh tham số, các phương pháp để làm việc với các dữ liệu văn bản, kỹ thuật xử lý văn bản cụ thể...





4. Python Machine learning:
Một trong những cuốn sách toàn diện về ML trong Python. Tác giả giải thích mỗi chi tiết quan trọng chúng ta cần biết về máy học. Sebastian Raschka có cách tiếp cận theo từng bước để giải thích các khái niệm được hỗ trợ bởi các ví dụ khác nhau. Cuốn sách bao gồm các chủ đề như mạng thần kinh, nhóm, hồi quy, phân loại,... Đây là một cuốn sách đáng đọc dành cho các bạn quan tâm đến Python ở mức độ cao.



5. Building Machine Learning Systems with Python:
Trong cuốn sách tác giả đã chọn một con đường, bắt đầu với những điều cơ bản, giải thích các khái niệm thông qua các dự án và kết thúc bằng một nốt cao. Nó bao gồm những chủ đề như xử lý hình ảnh, công cụ giới thiệu, phân tích tình cảm...Cuốn sách này thích hợp cho những ai bắt đầu tiếp xúc với máy học Python.



6. Advanced Machine Learning with Python:
Cuốn sách là một bài đọc khá rõ ràng cho những ai say mê về máy học. Nó cho phép bạn vượt lên trên những kiến thức cơ bản về kỹ thuật của Machine Learning-máy học và lướt qua các phương pháp không dược giám sát, các bộ mã hóa tự động, các kỹ thuật đặc trưng... Nếu bạn muốn cải tiến vị trí của bạn trong các cuộc thi học máy thì cuốn sách là dành cho bạn đấy.

7. Programming Collective Intelligence:
Với tiêu đề siêu cuốn hút, cuốn sách ngụ ý giới thiệu đến bạn một vài thuật toán máy học như là SVM, cây, nhóm, tối ưu hóa,...bằng cách sử dụng các ví dụ thú vị và các case được sử dụng. Đây là cuốn sách phù hợp cho nhưng người mới biết đến ML trong Python. Ngoài ra, rải rác ở các chương là bài tập thực hành giúp bạn hiểu được tốt hơn.

Mặc dù, đây chỉ là một trong vô vàn cuốn sách hay dành cho các nhà khoa học dữ liệu thế nhưng đây sẽ chất chứa vô vàn những kiến thức cần phải học và bổ sung mỗi ngày. Hãy đọc sách để cải thiện về cách nói chuyện với máy học bạn nhé.
Tham thảo thêm thông tin, các khóa học tại IDL: idl.biz.vn/

Bích Ngọc​
18 tựa sách hay.png
  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2020 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 209 Đường Nam Kỳ Khởi Nghĩa, Phường 7, Quận 3, TP.HCM
  • Số điện thoại: 02862713156
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019