Skip to main content

கே-மீன்ஸ் க்ளஸ்டரிங் உடன் டேட்டா மைனிங்

Anonim

தி k- க்ளஸ்டரிங் அல்காரிதம் என்பது தரவு உறவு மற்றும் இயந்திர கற்றல் கருவியாகும், அந்த உறவுகளின் எந்தவொரு முன்னறிவிப்பும் இல்லாமல், தொடர்புடைய கருத்துக்கள் குழுக்களாக கிளஸ்டர் கண்காணிப்புக்கு பயன்படுத்தப்படும். மாதிரி மூலம், அல்காரிதம் எந்த வகை, அல்லது க்ளஸ்டரில் காண்பிக்கிறார்களோ, தரவுகள் சேர்ந்தவை, மதிப்பின் அடிப்படையில் வரையறுக்கப்பட்ட கிளஸ்டர்களின் எண்ணிக்கை k ஆகியவையே.

தி k- வழிமுறையானது எளிமையான கிளஸ்டிரிங் தொழில்நுட்பங்களில் ஒன்றாகும், இது பொதுவாக மருத்துவ இமேஜிங், உயிரியளவுகள் மற்றும் தொடர்புடைய துறைகளில் பயன்படுத்தப்படுகிறது. நன்மை k- அதாவது, தரவு (அல்காரிதம் மேற்பார்வை செய்யப்பட்ட படிவத்தை பயன்படுத்தி) தரவைப் பற்றி அல்காரிதமைக்கு அறிவுறுத்துவதோடு, உங்கள் தரவு (அதன் மேற்பார்வையற்ற படிவத்தைப் பயன்படுத்தி) அதைப் பற்றி சொல்கிறது.

இது லாயிட் அல்காரிதம் என குறிப்பிடப்படுகிறது, குறிப்பாக கணினி விஞ்ஞான வட்டாரங்களில், 1957 இல் ஸ்டூவர்ட் லாய்ட் முதலில் ஸ்டூவர்ட் லாய்ட் முன்மொழியப்பட்டது. "K-means" என்ற வார்த்தை 1967 ஆம் ஆண்டில் ஜேம்ஸ் மெக்யூயினால் உருவாக்கப்பட்டது.

எப்படி K- பொருள் அல்காரிதம் பணிகள்

தி k- வழிமுறை என்பது அதன் பரிணாம வழிமுறை ஆகும், அது அதன் செயல்பாட்டிலிருந்து அதன் பெயரைப் பெறுகிறது. அல்காரிதம் கிளாஸ்டுகள் பற்றிய அவதானிப்புகள் கே குழுக்கள், எங்கே கே உள்ளீடு அளவுருவாக வழங்கப்படுகிறது. அது ஒவ்வொரு கவனிப்பும் கொத்துகளுடனான கவனிப்புக்கு அருகாமையில் இருப்பதன் அடிப்படையில் கொத்தாக அளிக்கிறது. கிளஸ்டரின் சராசரி பின்னர் சரிசெய்யப்பட்டு மறுபடியும் தொடங்குகிறது. படிமுறை எவ்வாறு செயல்படுகிறது:

  1. அல்காரிதம் தன்னிச்சையாக தேர்ந்தெடுக்கும் கே தொடக்க கிளஸ்டர் மையங்களாக (அதாவது).
  2. தரவுத்தொகுப்பிலுள்ள ஒவ்வொரு புள்ளியும் ஒவ்வொரு புள்ளியிலும் ஒவ்வொரு கிளஸ்டர் மையத்திலும் யூக்லிடியன் தூரத்தை அடிப்படையாகக் கொண்ட மூடிய கிளஸ்டருக்கு ஒதுக்கப்பட்டுள்ளது.
  3. ஒவ்வொரு கிளஸ்டர் மையமும் அந்த கிளஸ்டில் உள்ள புள்ளிகளின் சராசரியாக சரிசெய்யப்படுகிறது.
  4. க்ளஸ்டர்கள் குவிந்து செல்லும் வரை 2 மற்றும் 3 படிகளைப் படியுங்கள். ஒத்திசைவு செயலாக்கத்தைப் பொறுத்து வேறுபட்டதாக வரையறுக்கப்படலாம், ஆனால் வழக்கமாக இது 2 மற்றும் 3 படிநிலைகள் திரும்பும்போது எந்த அவதானிகளும் மாறாத மாற்றங்கள் அல்லது மாற்றங்கள் கிளஸ்டர்களின் வரையறையில் ஒரு மாறுபட்ட வித்தியாசத்தை ஏற்படுத்தாது என்பதாகும்.

க்ளஸ்டர்களின் எண்ணிக்கையைத் தேர்ந்தெடுக்கும்

முக்கிய தீமைகள் ஒன்று k- வழிமுறையை ஒரு உள்ளீடு என கிளஸ்டர்களின் எண்ணிக்கையை குறிப்பிட வேண்டும் என்பதன் பொருள் கிளஸ்டெரிங் ஆகும். வடிவமைக்கப்பட்டபடி, நெறிமுறை சரியான கிளஸ்டர்களை தீர்மானிப்பதற்கும், பயனர் இதை முன்கூட்டியே அடையாளப்படுத்துவதற்கும் பொறுத்தது.

உதாரணமாக, நீங்கள் ஆண் அல்லது பெண் என பைனரி பாலின அடையாளம் அடிப்படையில் க்ளஸ்டர் வேண்டும் என்று மக்கள் ஒரு குழு இருந்தால், அழைப்பு k- உள்ளீடு பயன்படுத்தி வழிமுறையை பொருள் கே = 3 ஒரே நேரத்தில் இரண்டு அல்லது ஒரு உள்ளீட்டை மக்கள் கூட்டமாக மூன்று கொத்தாக கட்டாயப்படுத்துவார்கள் கே = 2, ஒரு இயல்பான பொருத்தம் வழங்கப்படும்.

இதேபோல், தனிநபர்களின் ஒரு குழு, சொந்த மாநிலத்தை அடிப்படையாகக் கொண்டு எளிதாகக் கூட்டிச் சென்றிருந்தால், நீங்கள் அழைத்தீர்கள் k- உள்ளீடு மூலம் வழிமுறையை பொருள் கே = 20, முடிவுகள் மிகவும் பயனுள்ளதாக இருக்கும்.

இந்த காரணத்திற்காக, அது வெவ்வேறு மதிப்புகளை கொண்டு பரிசோதனை செய்ய ஒரு நல்ல யோசனை கே உங்கள் தரவிற்கான சிறந்த மதிப்பை அடையாளம் காண இயந்திர அறிவாற்றலுக்கான அறிவைத் தேடுவதில் பிற தரவு சுரங்க வழிமுறைகளைப் பயன்படுத்துவதை நீங்கள் விரும்பலாம்.