د ډاټا کانونو کې طبقه بندی کول

طبقه بندي د کانونو تخنیک هغه معلومات دی چې د معلوماتو د راټولولو لپاره کټګوري وړاندې کوي تر څو د زیاتوقیقو اټکلونو او تحلیلونو سره مرسته وکړي. همدارنګه په ځینو وختونو کې د پریکړې ونې په نوم یاديږي، ډلبندی د ډیرو میتودونو څخه ده چې موخه یې د ډیرو لوی ډاټاټونو اغیزمنتیا تحلیل کول دي.

ولې طبقه بندي؟

ډیر لوی ډاټابیسز د "لوی ارقامو" ننني نړۍ کې نورمونه کیږي. د ډیټابیسټ ډیټابیس سره ډیټابیس تصور کړئ - a terabyte د معلوماتو یو ټریلیون بټس دی.

یوازې فېسبوک هره ورځ 600 ټایټیټ نوي معلومات راولي (د 2014 په څیر، وروستی ځل چې دا شیان راپور کړي). د سترو معلوماتو لویه ستونزه دا ده چې د دې احساس څه ډول وي.

او لوړې حجم یواځې ستونزه نه ده: لوی معلومات هم مختلف، غیر منظم او چټک بدلون دي. د غږ او ویدیو ډاټا، د ټولنیزو رسنیو پوستونه، د 3D معلوماتو یا جیو فضائیټ ډاټا ته پام وکړئ. دا ډول معلومات په اسانۍ سره طبقه بندي یا منظم نه دي.

د دې ننګونې د پوره کولو لپاره، د ګټورو معلوماتو د راټولولو لپاره یو لړ اتوماتیک میتودونه رامینځ ته شوي، د دوی تر منځ طبقه بندي .

څنګه طبقه بندي کار کوي؟

د ډیرو لرې ټیکنالوژیو ته د تګ په خطر کې اجازه راکړو چې څنګه د طبقه بندي کولو کار ترسره کړي. موخه داده چې د ډلبندۍ یو لړ قوانین جوړ کړئ کوم چې پوښتنې ځواب کړي، پریکړه وکړي، یا د چلند وړاندیز وکړي. د پیل لپاره، د روزنې یوه مجموعه پراختیا شوې چې پدې کې یو مشخص مشخص ځانګړتیاوې او احتمالي پایلې لري.

د ډلبندۍ الګوریتم دنده د دې معلومول دي چې د ځانګړتیاوو سیٹ څنګه پایلې ته رسیږي.

سناریو : شاید ممکن د کریډیټ کارت شرکت هڅه وکړي چې کوم امکانات د کریډیټ کارت وړاندیز ترلاسه کړي.

دا کیدای شي د روزنې معلوماتو ډاټا وي:

د روزنې ډاټا
نوم عمر جندر کلنۍ عواید د کریډیټ کارت وړاندیز
جان دو 25 M $ 39،500 نه
جین دو 56 F $ 125،000 هو

"وړاندیز کونکي" کالم عمر ، جندر او کلنۍ عاید د "پیشنګیر ځانګړ" کریډیټ کارت وړاندیز ارزښت ټاکي. په روزنیز سیسټم کې، د پیژندونکي ځانګړتیا معلومه ده. د ډلبندۍ الګوریتم بیا هڅه کوي چې د پیژندونکي د ځانګړتیا ارزښت څنګه ترلاسه کړي: د پیژندونکو او پریکړې ترمنځ څه اړیکې شتون لري؟ دا به د وړاندیز کولو یو قاعده جوړه کړي، معمولا د IF / THEN بیان، د مثال په توګه:

IF (عمر> 18 یا د عمر عمر 75) او کلنی عاید> 40،000 THEN د کریډیټ کارت وړاندیز = هو

په څرګنده توګه، دا یو ساده مثال دی، او الګوریتم به د ډیرو لوی ډیټا نمونې ته اړتیا ولري چې د دوو ریکارډونو په پرتله دلته ښودل شوي. برسېره پردې، د اټکل وړ قواعد به ډیر پیچلي وي، په شمول د ځانګړتیاوو د نیولو لپاره فرعي قواعد شامل دي.

بلکې، الګوریتم د تحلیل لپاره د معلوماتو "وړاندیز شوی سیټ" ته ورکړ شوی، مګر دا سیٹ د وړاندیز ځانګړتیا (پریکړه) نه لري:

د پیښو ډاټا
نوم عمر جندر کلنۍ عواید د کریډیټ کارت وړاندیز
جاک Frost 42 M $ 88،000
مریم مری 16 F $ 0

دا وړاندیز کونکي ارقام د وړاندیزونو قواعدو دقیقیت اټکل کوي، او قواعد بیا وروسته ټکوي چې تر هغه چې پراختیاګر وړاندیزونه اغیزمن او ګټور ګڼي.

د ورځې ورځې د طبقې بیلګې

طبقه بندي، او نور د کانونو کانونو تخنيکونه، د مصرف کوونکو په څېر زموږ د ورځنيو تجربو ډېرې برخې دي.

د هوا اټکل ممکن ممکن د طبقه بندی کارولو لپاره کار وکړي ترڅو راپور ورکړي چې ورځ به باران، لمر یا بادل وي. طبي مسلکی کیدی شي د روغتیا شرایط تحلیل کړي ترڅو د طبي پایلو اټکل وکړي. د ډلبندۍ یو ډول میتود، نوی بییسان، د سپیم ای میلونو د ویشلو لپاره د مشروع احتمال څخه کار اخلي. د درغليو موندنه د محصول وړاندیزونو ته، ډلبندی د هرې ورځې معلومات د تحلیل کولو او وړاندیزونو تولیدولو په حال کې دي.