Sử dụng Cây phân loại và hồi quy (CART) để có thông tin chi tiết về dữ liệu nhanh

Trong giai đoạn Phân tích của dự án Six Sigma DMAIC (Xác định, Đo lường, Phân tích, Cải thiện, Kiểm soát), các nguyên nhân gốc rễ tiềm ẩn của các biến thể và khiếm khuyết được xác định và xác nhận. Các công cụ phân tích dữ liệu khác nhau được sử dụng cho các nghiên cứu khám phá và xác nhận. Các kỹ thuật mô tả và đồ họa giúp hiểu bản chất của dữ liệu và hình dung các mối quan hệ tiềm năng. Các kỹ thuật phân tích thống kê, chẳng hạn như kiểm tra giả thuyết và hồi quy, được sử dụng để xác nhận các nguyên nhân gốc rễ.

Trong khi một trong những phương pháp thống kê được sử dụng rộng rãi trong giai đoạn Phân tích là phân tích hồi quy, có những tình huống đảm bảo việc sử dụng các phương pháp phi tham số khác. Vi phạm các giả định cơ bản về phần dư phân phối chuẩn và độc lập, và sự hiện diện của các mối quan hệ phi tuyến, là những tình huống phổ biến nhất khi sử dụng phương pháp phi tham số, chẳng hạn như cây phân loại và hồi quy (CART), là thích hợp hơn. Ngoài ra, CART có thể phù hợp trong các ngành dịch vụ như ngân hàng và chăm sóc sức khỏe, nơi có nhiều nguyên nhân tiềm ẩn của sự thay đổi và khiếm khuyết về bản chất (ví dụ: vị trí địa lý, sản phẩm, kênh, đối tác). Vấn đề với việc sử dụng mô hình hồi quy hoặc mô hình tuyến tính tổng quát (GLM) trong những trường hợp như vậy là rất nhiều biến giả gây khó khăn cho việc giải thích kết quả. CART là một kỹ thuật phi tham số hữu ích có thể được sử dụng để giải thích một biến phụ thuộc liên tục hoặc phân loại dưới dạng nhiều biến độc lập. Các biến độc lập có thể liên tục hoặc phân loại. CART sử dụng phương pháp phân vùng thường được gọi là “chia để trị”.

Cách hoạt động của CART

Giả sử có một tập hợp các giao dịch thẻ tín dụng được dán nhãn là gian lận hoặc xác thực. Có hai thuộc tính của mỗi giao dịch: số tiền (giao dịch) và độ tuổi của khách hàng. Hình 1 hiển thị một bản đồ ví dụ về các giao dịch gian lận và xác thực.

Hình 1: Giao dịch gian lận và xác thực

Thuật toán CART hoạt động để tìm biến độc lập tạo ra nhóm đồng nhất tốt nhất khi tách dữ liệu. Đối với một bài toán phân loại trong đó biến phản hồi có tính phân loại, điều này được quyết định bằng cách tính toán thông tin thu được dựa trên entropy do sự phân tách. Đối với phản hồi số, tính đồng nhất được đo lường bằng các thống kê như độ lệch chuẩn hoặc phương sai. (Để biết thêm thông tin về điều này, vui lòng tham khảo Học máy với R bởi Brett Lantz.)

Hình 2: Tách các giao dịch

Hai tham số quan trọng của kỹ thuật CART là tiêu chí tách tối thiểu và tham số phức tạp (C_p). Tiêu chí phân tách tối thiểu là số lượng bản ghi tối thiểu phải có trong một nút trước khi có thể thử phân tách. Điều này phải được chỉ định ngay từ đầu. C_p là một tham số phức tạp để tránh chia nhỏ những nút rõ ràng là không đáng giá. Một cách khác để xem xét các tham số này là C_p giá trị được xác định sau khi “trồng cây” và giá trị tối ưu được sử dụng để “cắt tỉa cây”.

Trong ví dụ này, Hình 2 cho thấy quy tắc đầu tiên được hình thành là x2> 35 → giao dịch gian lận. Tương tự, các quy tắc khác được hình thành như trong Hình 3 và Hình 4.

Hình 3: Hai tách

Hình 4: Ba phần tách

Bằng cách này, thuật toán CART tiếp tục phân chia tập dữ liệu cho đến khi mỗi nút “lá” còn lại với số lượng bản ghi tối thiểu như được chỉ định bởi tiêu chí phân chia tối thiểu. Điều này dẫn đến một cấu trúc giống cây như thể hiện trong Hình 5. C_p giá trị sau đó được lập biểu đồ dựa trên các cấp độ khác nhau của cây và giá trị tối ưu được sử dụng để cắt tỉa cây.

Hình 5: Kết quả phân tích CART

Ứng dụng của GIỎ HÀNG

Ví dụ sau chứa một tập dữ liệu giả định về 600 giao dịch gửi đi của một ngân hàng.

Hình 6: Dữ liệu Ví dụ về Giao dịch Ngân hàng

Biến phụ thuộc là thuộc tính “khiếm khuyết”, là một biến phân loại có hai lớp (có và không). Mỗi giao dịch được gắn nhãn “có” hoặc “không” dựa trên việc có bất kỳ lỗi in nào trong tệp có thể phân phối hay không. Các biến độc lập là “số tiền”, “kênh”, “loại dịch vụ”, “danh mục khách hàng” và “bộ phận liên quan”. Bước đầu tiên khi áp dụng bất kỳ phương pháp phân tích nào là khám phá dữ liệu bằng cách sử dụng thống kê mô tả. Giả sử rằng khi khám phá dữ liệu, tất cả các biến độc lập dường như có mối quan hệ đáng kể với biến phụ thuộc. Để thực hiện phân tích CART, tập dữ liệu được chia ngẫu nhiên thành hai tập, tập huấn luyện và tập kiểm tra. Các nghiên cứu phi tham số không dựa trên phân phối xác suất-lý thuyết; thực tiễn được chấp nhận rộng rãi là xây dựng một mô hình trên một tập dữ liệu và thử nghiệm nó trên tập dữ liệu khác. Điều này giúp xác định độ chính xác của mô hình trên các hồ sơ chưa biết trong tương lai.

Mô hình CART được sử dụng để tìm ra mối quan hệ giữa các giao dịch bị lỗi và “số tiền”, “kênh”, “loại dịch vụ”, “danh mục khách hàng” và “bộ phận liên quan”. Sau khi xây dựng mô hình, C_p giá trị được kiểm tra trên các cấp của cây để tìm ra mức tối ưu mà tại đó sai số tương đối là nhỏ nhất. Tối ưu C_p giá trị sau đó được sử dụng để cắt tỉa cây.

Sau khi cắt tỉa, cây “cuối cùng” có thể được tạo ra như trong Hình 8. Mô hình cũng có thể được xác nhận dựa trên dữ liệu thử nghiệm để xác định độ chính xác của nó.

Hình 7: Kết quả CART cuối cùng

Ưu điểm của GIỎ HÀNG

Cũng như các kỹ thuật phi tham số khác, CART không yêu cầu bất kỳ giả định nào cho các phân phối cơ bản. Nó rất dễ sử dụng và có thể nhanh chóng cung cấp thông tin chi tiết có giá trị về lượng lớn dữ liệu. Những thông tin chi tiết này có thể được sử dụng thêm để đi sâu vào một nguyên nhân cụ thể và tìm ra các giải pháp hiệu quả, nhanh chóng. Giải pháp có thể diễn giải dễ dàng, trực quan và có thể được xác minh với dữ liệu hiện có; đó là một cách tốt để trình bày các giải pháp cho quản lý.

Hạn chế của CART

Giống như bất kỳ kỹ thuật nào, CART cũng có những hạn chế cần tính đến trước khi thực hiện phân tích và đưa ra bất kỳ quyết định nào. Hạn chế lớn nhất là nó là một kỹ thuật phi tham số; không nên đưa ra bất kỳ khái quát nào về hiện tượng cơ bản dựa trên các kết quả quan sát được. Mặc dù các quy tắc thu được thông qua phân tích có thể được kiểm tra trên dữ liệu mới, nhưng cần phải nhớ rằng mô hình được xây dựng dựa trên mẫu mà không đưa ra bất kỳ suy luận nào về phân phối xác suất cơ bản. Ngoài ra, một hạn chế khác của CART là cây trở nên khá phức tạp sau bảy hoặc tám lớp. Diễn giải kết quả trong tình huống này là không trực quan.

Phần kết luận

CART có thể được sử dụng hiệu quả để đánh giá bộ dữ liệu lớn và có thể cung cấp các giải pháp nhanh chóng trong giai đoạn Phân tích của DMAIC. CART có thể là một trong những công cụ nhanh nhất và hiệu quả nhất trong hành trang của bất kỳ người thực hành cải tiến quy trình nào. Tuy nhiên, CART không nên thay thế các kỹ thuật tham số tương ứng. Phương pháp thứ hai luôn mạnh mẽ hơn về mặt giải thích bất kỳ hiện tượng nào do bản chất của phân phối cơ bản.

Nguồn: www.isixsigma.com

Rate this post

Share0

Tweet0

About the author