Mọi người đều nói dối. Người ta nói dối số li đã uống trước khi về nhà. Họ nói dối số lần đi tập gym một tuần, về giá đôi giày mới mua, và cả về chuyện có đọc quyển sách mà họ đã nói hay không. Họ gọi điện báo nghỉ bệnh khi vẫn khỏe như vâm. Họ nói sẽ liên lạc nhưng rồi bặt vô âm tín. Họ nói rằng chuyện không liên quan đến bạn mặc dù có liên quan. Họ nói họ yêu bạn dù rằng họ không hề yêu. Họ nói họ vui dù rằng đang buồn chán. Họ nói họ thích phụ nữ dù thực tế họ thích đàn ông. Người ta nói dối với bạn bè. Họ nói dối với ông chủ. Họ nói dối với trẻ con. Họ nói dối với cha mẹ. Họ nói dối với bác sĩ. Họ nói dối với chồng. Họ nói dối với vợ. Họ nói dối với chính mình. EVERYBODY LIES là quyển sách ngay từ khi ra mắt đã tạo nên cú chấn động trong cộng đồng yêu thích những sự thật tréo nghoeo nói chung và ham mê tìm tòi phân tích dữ liệu nói riêng. Tận dụng lợi thế cực mạnh của Dữ Liệu Lớn cùng những phương pháp khai thác dữ liệu vô cùng độc đáo và thông minh, tác giả Seth Stephens-Davidowitz đã làm lộ diện điều mà mỗi người thực sự suy nghĩ tận sâu bên trong tâm hồn. Liệu bạn có đang nói dối chính mình?
Xem thêm

Tôi không thực sự thích cuốn sách này. Một phần nguyên nhân là vì tôi đã nghe nó, và Stephens-Davidowitz trình bày các biểu đồ, đồ thị, điểm dữ liệu mà rõ ràng không thể thể hiện trong phiên bản âm thanh. Những điều này thường giúp tôi hiểu mọi thứ một cách dễ dàng và có thể bỏ qua những trang vật liệu mà tôi không quan tâm. Vấn đề không phải là nội dung của ông ấy khó hiểu, mà là tôi thường không thích những gì ông ấy đang nói đến. Ông có xu hướng tập trung vào hành vi sai trái, ví dụ như tội phạm tình dục, lạm dụng, phim khiêu dâm, v.v. Một người có thể đưa ra lập luận rằng những hành vi này quan trọng để hiểu và do đó đáng để xem xét. Có thể. Tuy nhiên, nếu "Mọi người đều nói dối", ta có thể lập luận rằng chúng ta không cần phải nghiên cứu những hành vi sai trái để tìm sự không trung thực.

Những gì chúng ta khám phá là để kiểm tra luận điểm của Stephens-Davidowitz rằng "Mọi người đều nói dối", chúng ta phải dành khá nhiều thời gian với số liệu thống kê và tạo các nghiên cứu, hoặc như ông thường làm, nghiên cứu dữ liệu lớn. Dữ liệu lớn có thể giải quyết những sai khác trong nguyên nhân của việc tìm kiếm trên Google của chúng ta, ví dụ như không phải là tôi mà là anh trai tôi quan tâm đến virus herpes, bởi cuối cùng việc tại sao chúng ta tìm kiếm không quan trọng; điều quan trọng là chúng ta đã tìm kiếm. Ngoài ra, có thể tôi đang nói dối về việc anh trai tôi bị nhiễm virus, nhưng sự quan tâm của tôi đối với chủ đề không phải là lời nói dối.

Stephens-Davidowitz đã xây dựng một sự nghiệp dựa trên việc nghiên cứu dữ liệu lớn, cho chúng ta thấy cách cắt và xén nó sao cho có ích cho việc nhìn nhận thế giới. Chỉ có một điều là tôi không quan tâm đến những gì dữ liệu lớn nói cho chúng ta như anh ấy. Anh ấy đã được đào tạo làm nhà kinh tế, và đến cuối cuốn sách, anh ấy nói về một vài lĩnh vực tôi thấy thú vị hơn, như ý niệm về "sự gián đoạn hồi quy", thuật ngữ được sử dụng để mô tả một công cụ thống kê được tạo ra để đo lường kết quả của những người gần một điểm cắt tùy ý nào đó. Tác giả nói về việc sử dụng công cụ này để nghiên cứu những tù nhân liên bang, khám phá ra rằng những tội phạm bị đối xử nghiêm khắc hơn thì lại phạm nhiều tội hơn sau khi được thả tự do. Nhưng Tác giả cũng nghiên cứu học sinh ở hai bên của điểm cắt tuyển sinh vào trường Trung học Stuyvesant danh giá: "Những người tham gia Stuyvesant không có sự khác biệt đáng kể về thành tích sau này so với những học sinh không tham gia".

Rõ ràng Stephens-Davidowitz đã vào lĩnh vực khoa học dữ liệu vì cuốn sách bán chạy nhất của Steven D. Levitt có tên là "Kinh tế kỳ quái". Anh ấy tin rằng nhiều nhà khoa học thế hệ tiếp theo trong mọi lĩnh vực đều sẽ là những nhà khoa học dữ liệu. Tôi đã nghe xong cuốn sách nói chuyện trên băng, cũng là một nghiên cứu anh ấy chú ý đến ở những trang cuối cùng. Rõ ràng chỉ có ít độc giả hoàn thành "diễn thuyết" của các nhà kinh tế. Anh ấy tin rằng đó là đóng góp lớn nhất của mình vào cơ sở kiến thức của chúng ta, và không thể phủ nhận rằng sự khác biệt của anh ấy đã làm nổi bật cách thức mà dữ liệu lớn có thể được sử dụng hiệu quả.

Nếu tôi được mạo muội, tôi có thể đưa ra một lý do tại sao nhiều độc giả nữ có thể không quan tâm đến nội dung được trình bày, hoặc đến chính Stephens-Davidowitz (hình như anh ấy đang tìm bạn gái). Tránh xa những vấn đề liên quan đến tình dục phi truyền thống. Có thể chúng có thú vị với bạn, nhưng tôi đảm bảo rằng ít phụ nữ sẽ thấy điều đó hấp dẫn hoặc là nội dung đáng đọc.

Một mệnh đề phụ thú vị về quan điểm của các nhà kinh tế trong vấn đề này là câu hỏi về sự thật có quan trọng hay không, điều này đã khiến tôi quyết định đọc cuốn sách này. Gần đây, trong chương trình "Đường ray thứ ba với Ozy" của PBS, Carlos Watson đã hỏi liệu sự thật có quan trọng hay không. Ở lần đầu nghe, câu trả lời dường như rõ ràng, và hai bên đã tranh luận về câu hỏi này. Một bên nói rằng tất nhiên sự thật quan trọng... nhưng hầu hết chúng ta biết sự thật của một người có thể là lời nói dối của người khác. Bên còn lại nói "Mọi người đều nói dối". Điều này khiến tôi suy nghĩ... tôi nghĩ rằng hai cách tiếp cận trong vấn đề nói dối này có điểm giao nhau, và ta phải kết luận rằng sự thật có thể không quan trọng bằng chúng ta nghĩ. Điều quan trọng là điều chúng ta tin là đúng.

Cuối cùng, dường như Stephens-Davidson đồng ý một phần với Cathy O'Neill, tác giả của "Vũ khí của sự phá hủy Toán học", khi ông đồng ý rằng ta không nên để các thuật toán chạy mà không có sự can thiệp của con người. Kết quả tốt nhất được đem lại khi con người áp dụng quan sát, kiến thức và chuyên môn của họ cùng với dữ liệu lớn.


Tác giả nói rằng, tất nhiên là không phải như vậy và đề cập đến sự khác biệt quan trọng giữa tưởng tượng và hiện thực. Điều đó khiến tôi đặt câu hỏi về kết luận ban đầu của ông, mặc dù có vẻ đúng đối với tôi.

Phản ứng bản năng thường sai lầm và ông cung cấp một số ví dụ về những trường hợp nó sai do các rào cản nhận thức. Ông cũng chỉ ra "Lời nguyền của không gian chiều". Với một tập dữ liệu đủ lớn, sẽ có sự tương quan chỉ qua sự may mắn. Ví dụ, có những biểu đồ cho thấy sự tương đồng giữa số lượng chẩn đoán tự kỷ và doanh số bán thực phẩm hữu cơ hoặc sự phổ biến của Jenny McCarthy. Tách riêng chúng ra là một vấn đề hoàn toàn khác.

Dữ liệu lớn chỉ cung cấp cho chúng ta các xu hướng chúng ta cần phân tích. Chúng ta không thể sử dụng nó ở mức cá nhân. Trong khi 1000 người tìm kiếm cách giết bạn gái của họ, chỉ có 1 cô gái bị giết trong ví dụ của ông. Điều đó thật kinh khủng và có thể đã được ngăn chặn nếu ai đó đã xem lịch sử tìm kiếm của hắn, nhưng liệu chúng ta có đánh đổi quyền riêng tư của mọi người chỉ để có 1 cơ hội trong 1000 ngăn chặn một vụ giết người? Một số người có thể sẵn lòng, nhưng tôi không, vì vậy chúng ta cũng phải đối mặt với các câu hỏi mới.

Phiên bản nói của sách rất hay và tôi không bỏ sót các biểu đồ quá nhiều. Chúng được cung cấp trong phần tài liệu bổ sung, nhưng khi tôi nghe, chúng không được tiện lợi và tác giả đã xem xét điều đó phần lớn. Tôi rất khuyến khích đọc sách bằng bất kỳ định dạng nào.

Một điểm làm tôi khó chịu với cuốn sách này đó là cách thông tin được giải thích. Thưa quý độc giả, phàn nàn của tôi là cảm tính không chừng mà thôi. Thực sự, tôi không thể chỉ ra được chỗ nào, nhưng có vẻ như tác giả đang cố gắng làm cho quyển sách thực sự dày 200 trang thành 300 trang bằng cách thêm vào những điều mang tính chất cá nhân và xúc động tương tự như những lời thì thầm gay cấn mà nhiều chương trình sử dụng để kích thích tâm trạng của người xem về nội dung được thảo luận. Quý vị có quen với những chương trình truyền hình đó không? Sau mỗi đoạn quảng cáo, chương trình sẽ tóm tắt lại toàn bộ nội dung trong vài phút trước đoạn quảng cáo một cách hấp dẫn. Và thường thì sẽ có một đoạn gợi ý bất ngờ về những gì sẽ được trình chiếu trước đoạn quảng cáo? Dù sao, tôi cảm thấy có rất nhiều cách thức này để thao túng tâm trạng (và kéo dài nội dung) trong cuốn sách này. Tôi đơn giản không thích những phần làm dễ thương cá nhân đó lắm. Có lẽ không đủ sắc sảo. Nếu có hài hước, tôi thích loại hài châm biếm. Cắn tôi đi. Có lẽ quyển sách được biên tập chặt chẽ hơn thì tôi đã thích đọc nó hơn. Dù sao, tôi nhận ra mình đang lạc lõng ở đây. Những điều này có thể hoàn toàn không đúng đối với bạn.

Cuối cùng, đây là một cuốn sách đáng đọc cho độc giả thông thường (xác định rõ, tôi chắc chắn là một độc giả thông thường về văn học lịch sử, vậy đúng, tôi là một người đọc về khoa học tổng quát) và thông tin giải thích về cách thực hiện các nghiên cứu thống kê (môn học đầu tiên có liên quan đến toán học khiến tôi hứng thú) và những gì mọi người thực sự đang cảm nhận và suy nghĩ (nếu tin tưởng vào các kết quả tìm kiếm của Google, và tôi nghĩ là có thể tin tưởng).

Cuốn sách cũng bao gồm các phần Ghi chú và Chỉ mục dày đặc.


Tôi muốn thích cuốn sách này. Đó là một chủ đề thú vị. Nhưng tôi thấy phương pháp này cực kỳ cẩu thả. Hoặc có thể tác giả chỉ bỏ qua một số tình tiết chính. Ông rõ ràng quyết tâm chứng minh rằng phân biệt chủng tộc đã gây ra cuộc bầu cử của Donald Trump. Nhưng thật bối rối khi đọc phần kết luận trước khi phân tích dữ liệu. Một mặt, anh ấy nói rằng Obama dễ dàng giành được hai nhiệm kỳ, bất chấp việc bị phân biệt chủng tộc. Sau đó, anh ấy nhanh chóng nói rằng Trump đã thắng cuộc bầu cử năm 2016 vì phân biệt chủng tộc. Vậy nó là gì? Có phải phân biệt chủng tộc lan rộng đến mức khiến cả hai ứng cử viên đều giành chiến thắng, người da đen bất chấp điều đó, người da trắng vì điều đó? Không có nghĩa lý gì. Tôi cũng không quá tin rằng các tìm kiếm trên Google cho từ "n-gger" thực sự phản ánh rõ ràng về một người sẽ không bao giờ bỏ phiếu cho một tổng thống da đen mà luôn bỏ phiếu cho Trump. Đó là một bước nhảy vọt khá lớn về logic. Cũng như quan niệm của anh ấy rằng người da đen sẽ đánh vần nó là "n-gga", do đó tất cả những tìm kiếm này đều do những người da trắng phân biệt chủng tộc thực hiện. Ngoài ra, có thực sự tuyệt đối rằng những người phân biệt chủng tộc sẽ không bao giờ bỏ phiếu cho một tổng thống da đen không? Rốt cuộc, bạn có thể bỏ phiếu cho Obama vì bạn cảm thấy ông ấy là lựa chọn tốt nhất trong hai lựa chọn, nhưng vẫn là một kẻ phân biệt chủng tộc gay gắt. Tương tự như vậy, nếu bạn tìm kiếm những trò đùa phân biệt chủng tộc trên Google, điều đó có thực sự chứng minh rằng bạn đang đối xử bất công với người thiểu số không? Nghe có vẻ như là một phỏng đoán hợp lý nhưng đây là khoa học dữ liệu, không phải là một chuyên mục bình luận. Cần có một mối liên hệ mang tính quyết định hơn trước khi đưa ra một tuyên bố sâu rộng rằng Trump thắng nhờ những người phân biệt chủng tộc nhưng Obama đã thắng nhờ những người phân biệt chủng tộc.

Tác giả thậm chí còn cẩu thả hơn trong phần tìm kiếm có tính chất khiêu dâm. Anh ấy đề cập đến một bộ dữ liệu từ một trang web khiêu dâm có tên là PornHub. Anh ta phải cho rằng bất kỳ ai đăng ký trên trang web đó và tuyên bố "Tôi là nam" hoặc "Tôi là nữ" đều hoàn toàn nói sự thật. Nhưng làm thế nào để chúng ta biết điều đó? Chúng ta có chắc rằng đàn ông không bao giờ giả làm phụ nữ để trò chuyện với người khác, trao đổi tin nhắn hoặc chia sẻ video trên các trang web khiêu dâm không? Tôi không tin chắc.

Như đã được báo cáo rộng rãi, 25% lượt tìm kiếm của phụ nữ (được cho là) trên các trang web khiêu dâm là dành cho nội dung khiêu dâm khá bạo lực. Ý tôi không phải là đánh đòn một chút, mà là các cụm từ tìm kiếm phức tạp bao gồm các từ như "tàn bạo" và "khóc", v.v. 20% lượt tìm kiếm (được cho là) của phụ nữ là nội dung khiêu dâm đồng tính nữ. Nhưng tác giả nhanh chóng chỉ ra: đây là tưởng tượng tình dục! Đó không phải là cuộc sống thực! Những phụ nữ đó không phải là đồng tính nữ thực sự, họ cũng không muốn quan hệ tình dục bạo lực.

Nhưng khi nói đến tìm kiếm của nam giới, anh ấy coi đó là sự thật theo nghĩa đen. Nếu đàn ông tìm kiếm phim khiêu dâm đồng tính nam, đó là bởi vì họ là người đồng tính nam, có thể sống khép kín, nhưng chắc chắn là đồng tính nam. Tại sao anh ấy khẳng định điều này đúng với đàn ông, còn với phụ nữ thì không?

"Mọi người đều nói dối" có tất cả các tác phẩm của loại sách mà tôi bị cuốn hút khi mua trong đợt giảm giá trên Amazon. Một cuộc luận chiến về văn hóa đại chúng có thời gian bán hủy phù hợp rất ngắn. Sau khi đọc nó, lần đỏ mặt đầu tiên của tôi là nói rằng tôi đã đúng chỗ. Nhưng khi tôi nghĩ về nó, tôi nhận ra nó có chiều sâu hơn. Điều đó có thể là do Seth Stephens-Davidowitz là một nhà khoa học thực sự đang cố gắng giáo dục mọi người về những gì họ thực sự tiết lộ với mọi điều họ nói và làm.

Cuốn sách này là mồi dữ liệu rất thú vị. Còn rất nhiều điều nữa về lượng dữ liệu mà hầu hết chúng ta tạo ra hàng ngày và Stephens-Davidowitz đã làm rất tốt việc giải thích những điều cơ bản. Một số ví dụ và cách tiếp cận của anh ấy hơi hời hợt, vị thành niên, văn hóa đại chúng. Tôi không thấy mình tò mò về người dùng của trang về giới tính, kích thước dương vật trung bình hay số liệu thống kê về bóng chày. Một số điều đó thật ngớ ngẩn và tục tĩu; phản bội tuổi trẻ của mình và phục vụ một cách trắng trợn những gì mà việc khai thác dữ liệu của anh ta nhận thấy sẽ là khán giả nam trẻ tuổi. Ngoài ra, anh ấy đã trích dẫn Malcolm Gladwell như một nguồn tài nguyên mà theo quan điểm của tôi thì không bao giờ nên sử dụng nếu bạn muốn xây dựng một nền tảng dựa trên kinh nghiệm trong lĩnh vực này và độ tin cậy về chủ đề… của bất cứ điều gì. Tuy nhiên, tôi rất thích cuốn sách và tôi nghĩ Stephens-Davidowitz có một tương lai rất hấp dẫn và thịnh vượng với tư cách là một nhà khoa học và một nhà văn.


Đây là một cuốn sách hấp dẫn về cách sử dụng dữ liệu lớn để cải thiện hiểu biết của chúng ta về hành vi, suy nghĩ, cảm xúc và sở thích của con người. Ý tưởng cơ bản là nếu bạn hỏi mọi người về hành vi hoặc sở thích của họ trong các cuộc khảo sát, thậm chí là các cuộc khảo sát ẩn danh, họ sẽ thường nói dối. Mọi người không thích thừa nhận sở thích thấp; những người phân biệt chủng tộc không muốn thừa nhận định kiến ​​của họ, hầu hết những người xem nội dung khiêu dâm không muốn thừa nhận điều đó, và thậm chí việc bỏ phiếu thường bị xuyên tạc; một số người đã bỏ phiếu cho Trump sẽ không thừa nhận điều đó.

Tuy nhiên, bằng cách phân tích các bộ dữ liệu khổng lồ từ Google, kho lưu trữ công cộng, phương tiện truyền thông xã hội và những thứ tương tự, Seth Stephens-Davidowitz đã có thể khám phá ra rất nhiều câu trả lời hấp dẫn cho những câu hỏi khó hiểu. Ví dụ, anh ta có thể dự đoán, thông qua việc tìm kiếm các triệu chứng khác nhau trên Google, ai có khả năng mắc ung thư tuyến tụy giai đoạn đầu. Anh ta có thể dự đoán rất tốt sự bùng phát của một số bệnh truyền nhiễm trước khi chúng được CDC (Trung tâm kiểm soát dịch bệnh) công bố. Anh ấy chỉ ra rằng yếu tố duy nhất tương quan với việc bỏ phiếu cho Trump là vấn đề phân biệt chủng tộc.