تحلیل خوشه ای چیست؟چه زمانی باید از آن برای نتایج نظرسنجی خود استفاده کنید؟

ساخت وبلاگ

8 دقیقه خواندن تجزیه و تحلیل خوشه ای می تواند یک ابزار داده کاوی قدرتمند برای هر سازمانی باشد که نیاز به شناسایی گروه های مجزا از مشتریان، تراکنش های فروش، یا انواع دیگر رفتارها و چیزها دارد. به عنوان مثال، ارائه دهندگان بیمه از تجزیه و تحلیل خوشه ای برای شناسایی ادعاهای تقلبی استفاده می کنند و بانک ها از آن برای امتیازدهی اعتبار استفاده می کنند.

تعریف تحلیل خوشه ای

تحلیل خوشه ای روشی آماری برای پردازش داده ها است. با سازماندهی اقلام به گروه ها یا خوشه ها بر اساس میزان ارتباط نزدیک آنها کار می کند.

تحلیل خوشه ای، مانند تحلیل فضای کاهش یافته (تحلیل عاملی)، به ماتریس های داده ای مربوط می شود که در آن متغیرها از قبل به زیرمجموعه های معیار در مقابل پیش بین تقسیم بندی نشده اند. هدف تجزیه و تحلیل خوشه ای یافتن گروه های مشابهی از موضوعات است که در آن "شباهت" بین هر جفت موضوع به معنای اندازه گیری کلی در کل مجموعه ویژگی ها است.

تحلیل خوشه ای یک الگوریتم یادگیری بدون نظارت است، به این معنی که قبل از اجرای مدل نمی دانید چه تعداد خوشه در داده ها وجود دارد. برخلاف بسیاری از روش های آماری دیگر، تحلیل خوشه ای معمولاً زمانی استفاده می شود که هیچ فرضی در مورد روابط احتمالی درون داده ها وجود نداشته باشد. اطلاعاتی را در مورد محل وجود تداعی ها و الگوها در داده ها ارائه می دهد، اما نه اینکه آنها چه می توانند باشند یا چه معنایی دارند.

در این مقاله، روش های مختلف خوشه بندی و نقش کلیدی که فاصله به عنوان اندازه گیری مجاورت جفت نقطه ایفا می کند، مورد بحث قرار می دهیم.

تحلیل خوشه ای چگونه استفاده می شود؟

رایج ترین کاربرد تحلیل خوشه ای طبقه بندی است. آزمودنی ها به گروه هایی تقسیم می شوند تا هر موضوعی شبیه به سایر دروس گروه خود باشد تا موضوعات خارج از گروه.

در بازاریابی می توان از تحلیل خوشه ای برای تقسیم بندی مخاطبان استفاده کرد، به طوری که گروه های مختلف مشتریان را می توان با مرتبط ترین پیام ها هدف قرار داد.

محققان مراقبت های بهداشتی ممکن است از تجزیه و تحلیل خوشه ای برای یافتن اینکه آیا مناطق مختلف جغرافیایی با سطوح بالا یا پایین بیماری های خاص مرتبط هستند، استفاده کنند، بنابراین آنها می توانند عوامل محلی احتمالی را که به مشکلات سلامتی کمک می کنند، بررسی کنند.

برنامه کاربردی هر چه باشد، پاکسازی داده ها یک مرحله مقدماتی ضروری برای تجزیه و تحلیل خوشه ای موفق است. خوشه بندی در سطح مجموعه داده ای کار می کند که در آن هر نقطه نسبت به سایر نقاط ارزیابی می شود، بنابراین داده ها باید تا حد امکان کامل باشند.

خوشه بندی با استفاده از فاصله درون خوشه ای و بین خوشه ای اندازه گیری می شود.

  • فاصله داخل سلولی فاصله بین نقاط داده در داخل خوشه است. اگر یک اثر خوشه بندی قوی وجود داشته باشد ، این باید کوچک (یکدست تر) باشد.
  • فاصله بین بین فاصله بین نقاط داده در خوشه های مختلف است. در جایی که خوشه بندی قوی وجود دارد ، اینها باید بزرگ (ناهمگن تر) باشند.

ارتباط بین خوشه ها به چگونگی متفاوت یا مشابه دو خوشه با یکدیگر اشاره دارد.

سوالات اساسی در تجزیه و تحلیل خوشه ای

در مقدمه ای از رویه های خوشه بندی ، معقول است که روی روشهایی که هر موضوع را فقط به یک کلاس اختصاص می دهد ، تمرکز کنیم. معمولاً افراد درون یک کلاس از یکدیگر قابل تشخیص نیستند.

ما فرض می کنیم که ساختار اساسی داده ها شامل مجموعه ای بدون هماهنگ از طبقات گسسته است. همه آنها متفاوت هستند و هیچ یک وزن بیشتری نسبت به دیگری ندارند. در بعضی موارد ، ما همچنین ممکن است این کلاس ها را از نظر ماهیت سلسله مراتبی مشاهده کنیم ، با برخی از کلاس ها به زیر کلاس ها تقسیم می شوند.

روشهای خوشه بندی را می توان به عنوان "پیش از طبقه بندی" مشاهده کرد به این معنا که محقق از قضاوت قبلی برای تقسیم سوژه ها استفاده نکرده است (ردیف های ماتریس داده). با این حال ، فرض بر این است که برخی از اهداف ناهمگن هستند. یعنی "خوشه" وجود دارد.

این پیش فرض گروه های مختلف مبتنی بر مشترکات موجود در مجموعه ورودی ها به الگوریتم یا متغیرهای خوشه بندی است. این فرض با موردی که در مورد تجزیه و تحلیل تبعیض آمیز یا تشخیص تعامل خودکار ساخته شده است ، متفاوت است ، جایی که از متغیر وابسته برای تعریف رسمی گروههای اشیاء استفاده می شود و تمایز بر اساس شباهت مشخصات در خود ماتریس داده انجام نمی شود.

بنابراین ، با توجه به اینکه هیچ اطلاعاتی در مورد تعریف گروه به طور رسمی از قبل ارزیابی نمی شود ، سؤالات ضروری تجزیه و تحلیل خوشه ای خواهد بود:

  1. چه اندازه ای از شباهت بین موضوع مورد استفاده قرار می گیرد و چگونه می توان هر متغیر را در ساخت چنین اندازه گیری خلاصه "وزنه برداری کرد"؟
  2. پس از به دست آوردن شباهت های بین موضوع ، کلاس ها چگونه تشکیل می شوند؟
  3. پس از تشکیل کلاس ها ، چه اقدامات خلاصه ای از هر خوشه به معنای توصیفی مناسب است. یعنی چگونه خوشه ها تعریف می شوند؟
  4. با فرض اینکه توضیحات کافی از خوشه ها را می توان بدست آورد ، چه استنباطی را می توان در مورد اهمیت آماری آنها ترسیم کرد؟

در مورد داده های غیر مقیاس چیست؟

تا کنون ، ما در مورد داده های مقیاس صحبت کرده ایم - همه چیز از نظر درجه در مقیاس ، مانند مقدار عددی یا درجه ، با یکدیگر متفاوت است. اما در مورد مواردی که غیر مقیاس هستند و فقط می توانند در دسته بندی ها قرار بگیرند (مانند مواردی مانند رنگ ، گونه یا شکل) چیست؟

این سوال برای برنامه هایی مانند تجزیه و تحلیل داده های پیمایشی مهم است ، زیرا احتمالاً با ترکیبی از قالب ها که شامل داده های طبقه بندی و مقیاس پذیر است ، سر و کار دارید.

الگوریتم های تجزیه و تحلیل خوشه ای

انتخاب شما از الگوریتم تجزیه و تحلیل خوشه ای مهم است ، به خصوص هنگامی که داده های مختلط دارید. در بسته های اصلی آمار ، طیف وسیعی از الگوریتم های از پیش تعیین شده را برای تهیه شماره ماتریس خود پیدا خواهید کرد. در اینجا دو مورد مناسب برای تجزیه و تحلیل خوشه ای آورده شده است.

    • الگوریتم K-Mean با یافتن نقاط سانتروئید خود ، خوشه ها را تعیین می کند. یک نقطه سانتروئید میانگین تمام نقاط داده موجود در خوشه است. با ارزیابی تکراری فاصله اقلیدسی بین هر نقطه در مجموعه داده ، هر یک را می توان به یک خوشه اختصاص داد. نقاط سانتروئید به طور تصادفی شروع می شوند و هر بار که این روند انجام می شود تغییر می کند. K-Means معمولاً در تجزیه و تحلیل خوشه ای استفاده می شود ، اما این محدودیت در عمدتاً برای داده های مقیاس پذیر است.
    • K-Medoids به روشی مشابه K-Means کار می کند ، اما به جای استفاده از میانگین نقاط سانتروئید که با هیچ نقاط واقعی از مجموعه داده ها برابر نیست ، Medoids را ایجاد می کند ، که دارای نقاط داده قابل تفسیر هستند. K-Medoids ارائه می دهدمزیت برای تجزیه و تحلیل داده های نظرسنجی زیرا برای داده های طبقه بندی و مقیاس مناسب است. این امر به این دلیل است که به جای اندازه گیری فاصله اقلیدسی بین نقطه مدوئید و همسایگان آن ، الگوریتم می تواند فاصله را در ابعاد مختلف اندازه گیری کند و تعدادی از دسته ها یا متغیرهای مختلف را نشان می دهد.

    در هر دو مورد (k) = تعداد خوشه ها.

    تجزیه و تحلیل خوشه + تجزیه و تحلیل عاملی

    هنگامی که با تعداد زیادی از متغیرها سر و کار دارید ، به عنوان مثال یک نظرسنجی طولانی یا پیچیده ، ساده کردن داده های خود قبل از انجام تجزیه و تحلیل خوشه ای مفید است تا کار با آن راحت تر باشد. استفاده از فاکتورها تعداد ابعادی را که در آن خوشه بندی می شوید ، کاهش می دهد و می تواند منجر به خوشه هایی شود که بازتاب بیشتری از الگوهای واقعی در داده ها باشد.

    تجزیه و تحلیل عاملی تکنیکی برای گرفتن تعداد زیادی از متغیرها و ترکیب مواردی است که مربوط به همان عامل یا مفهوم اساسی است ، به طوری که شما به تعداد کمتری از ابعاد پایان می دهید. به عنوان مثال ، تجزیه و تحلیل عاملی ممکن است به شما در جایگزینی سؤالاتی مانند "آیا خدمات خوبی دریافت کرده اید؟""چقدر در نماینده ای که با او صحبت کردید اطمینان داشتید؟"و "آیا ما پرس و جو شما را حل کردیم؟"با یک عامل واحد - رضایت مشتری.

    به این ترتیب می توانید باعث کاهش آشفتگی و پیچیدگی در داده های خود شوید و سریعتر به تعداد قابل کنترل خوشه ها برسید.

    کتاب الکترونیکی رایگان: گزارش روند تحقیقات بازار جهانی 2022

مدرسه فارکس معامله گر ایرانی...
ما را در سایت مدرسه فارکس معامله گر ایرانی دنبال می کنید

برچسب : نویسنده : صالح پور مهروز بازدید : 29 تاريخ : پنجشنبه 19 مرداد 1402 ساعت: 11:17