Hdbscan: 미래 μ˜ˆμΈ‘μ„ μœ„ν•΄ λͺ¨λΈμ„ μ €μž₯ν•˜λŠ” 방법이 μžˆμŠ΅λ‹ˆκΉŒ?

에 λ§Œλ“  2018λ…„ 02μ›” 03일  Β·  4μ½”λ©˜νŠΈ  Β·  좜처: scikit-learn-contrib/hdbscan

μ•ˆλ…•,

ν–₯ν›„ μ˜ˆμΈ‘μ„ μœ„ν•΄ μ΅œμ’… λͺ¨λΈμ„ μ €μž₯ν•  수 μžˆλŠ” 방법이 μžˆλŠ”μ§€ κΆκΈˆν•©λ‹ˆλ‹€. 계산 속도λ₯Ό 높일 수 μžˆλŠ” νŠœλ‹ λͺ©μ μœΌλ‘œ joblib 개체λ₯Ό μ €μž₯ν•  수 μžˆμ§€λ§Œ λͺ¨λΈμ„ λ‹€μ‹œ 파이썬으둜 가져와 λͺ¨λΈμ„ λ‹€μ‹œ λ§žμΆ”μ§€ μ•Šκ³  μƒˆ 데이터 포인트λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 데 μ‚¬μš©ν•  수 μžˆλŠ” 방법이 μžˆλ‹€λŠ” 것을 μ΄ν•΄ν•©λ‹ˆλ‹€. "generate_prediction_data()" ν•¨μˆ˜κ°€ 이 λͺ©μ μ„ μœ„ν•œ 것인지 ν™•μ‹€ν•˜μ§€ μ•ŠμœΌλ©° λ¬Έμ„œ μ–΄λ””μ—μ„œλ„ 이 ν•¨μˆ˜μ— λŒ€ν•œ λͺ…ν™•ν•œ μ„€λͺ…을 찾을 수 μ—†μŠ΅λ‹ˆλ‹€.

감사 ν•΄μš”,

κ°€μž₯ μœ μš©ν•œ λŒ“κΈ€

λ‹€μŒ μ½”λ“œκ°€ μž‘λ™ν•©λ‹ˆλ‹€.

model = hdbscan.HDBSCAN(prediction_data=True).fit(data)
labels, membership_strengths = hdbscan.approximate_predict(model, new_data)

λͺ¨λΈμ„ λ””μŠ€ν¬μ— μ €μž₯ν•œ λ‹€μŒ λ‚˜μ€‘μ— λ‹€λ₯Έ 슀크립트둜 λ‹€μ‹œ λ‘œλ“œν•˜λ €λ©΄ λͺ¨λΈμ„ λ””μŠ€ν¬λ‘œ ν”Όν΄ν•œ λ‹€μŒ λ‹€λ₯Έ μŠ€ν¬λ¦½νŠΈμ—μ„œ ν”Όν΄λœ λͺ¨λΈμ„ λ‘œλ“œν•©λ‹ˆλ‹€.

λͺ¨λ“  4 λŒ“κΈ€

주어진 λͺ¨λΈμ„ μ·¨ν•˜κ³  μƒˆλ‘œμš΄ 데이터 ν¬μΈνŠΈμ— λŒ€ν•œ μ˜ˆμΈ‘μ„ ν•  수 μžˆλŠ” approximate_predict ν•¨μˆ˜κ°€ μžˆμŠ΅λ‹ˆλ‹€. approximate_predict κ°€ μž‘λ™ν•˜λ €λ©΄ λ¨Όμ € λͺ¨λΈμ—μ„œ generate_prediction_data λ₯Ό μ‹€ν–‰ν•΄μ•Ό ν•©λ‹ˆλ‹€. λͺ¨λΈμ„ ν”Όν΄ν•˜κ³  λ‚˜μ€‘μ— μ˜ˆμΈ‘μ„ μœ„ν•΄ 볡원할 수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€.

이제 μ£Όμ˜ν•  점은 approximate_predict λŠ” 이미 ν• λ‹Ήλœ ν΄λŸ¬μŠ€ν„°λ₯Ό 기반으둜 ν•œ κ·Όμ‚¬μΉ˜μΌ λΏμž…λ‹ˆλ‹€. μƒˆ 데이터 포인트λ₯Ό μΆ”κ°€ν•˜κ³  μ²˜μŒλΆ€ν„° λ‹€μ‹œ ν΄λŸ¬μŠ€ν„°λ§ν•˜λŠ” 경우 얻을 수 μžˆλŠ” 것과 λ™μΌν•œ 닡변을 λ°˜λ“œμ‹œ μ œκ³΅ν•˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 그것이 κ·€ν•˜μ˜ μš”κ΅¬ 사항을 μΆ©μ‘±μ‹œν‚€κΈ°λ₯Ό λ°”λžλ‹ˆλ‹€.

μƒˆ 데이터에 λŒ€ν•œ ν΄λŸ¬μŠ€ν„° μ˜ˆμΈ‘μ€ ν΄λŸ¬μŠ€ν„°κ°€ λ™μΌν•˜κ²Œ μœ μ§€λœλ‹€λŠ” 가정을 기반으둜 ν•˜λ―€λ‘œ λ‚΄κ°€ ν•„μš”λ‘œ ν•˜λŠ” 것이 λ°”λ‘œapproximate_predict ν•¨μˆ˜λΌλŠ” 것을 μ™„μ „νžˆ μ΄ν•΄ν•©λ‹ˆλ‹€.

λ”°λΌμ„œ λ‹€μŒ 단계가 μ •ν™•ν•©λ‹ˆκΉŒ?

λͺ¨λΈ 적합(prediction_data = True) >> generate_prediction_data >> λͺ¨λΈ 피클 >> λ‚˜μ€‘μ— 예츑

λ‚΄ μ§ˆλ¬Έμ€ μ–΄λ–€ 개체λ₯Ό ν”Όν΄ν•΄μ•Όν•©λ‹ˆκΉŒ? λ‚˜λŠ” 이미 prediction_date = True μ˜΅μ…˜μ„ μ„€μ •ν–ˆκΈ° λ•Œλ¬Έμ— λ‚˜μ€‘μ— generate_prediction_data()λ₯Ό μ‹€ν–‰ν•  ν•„μš”κ°€ μ—†λ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€. λ§žμŠ΅λ‹ˆκΉŒ? ν•¨μˆ˜λ₯Ό μ‹€ν–‰ν•΄μ•Ό ν•˜λŠ” 경우 μ½”λ“œ 예제λ₯Ό μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆκΉŒ? clusterer.generate_prediction_data()와 같은 κ²ƒμž…λ‹ˆκΉŒ?

감사 ν•΄μš”,

μΆ”μ‹ . κ·€ν•˜μ˜ κ³΅ν—Œμ— λŒ€λ‹¨νžˆ κ°μ‚¬ν•˜λ©° 항상 λͺ¨λ“  μ§ˆλ¬Έμ— 맀우 μ‹ μ†ν•˜κ²Œ λ‹΅λ³€ν•©λ‹ˆλ‹€. 이제 λ‚΄ 데이터 κ³Όν•™μž νŒ€μ˜ λ§Žμ€ μ‚¬λžŒλ“€μ΄ 이 λͺ¨λΈμ„ μ•Œκ³  있고 λͺ¨λ‘ μ’‹μ•„ν•©λ‹ˆλ‹€.

λ‹€μŒ μ½”λ“œκ°€ μž‘λ™ν•©λ‹ˆλ‹€.

model = hdbscan.HDBSCAN(prediction_data=True).fit(data)
labels, membership_strengths = hdbscan.approximate_predict(model, new_data)

λͺ¨λΈμ„ λ””μŠ€ν¬μ— μ €μž₯ν•œ λ‹€μŒ λ‚˜μ€‘μ— λ‹€λ₯Έ 슀크립트둜 λ‹€μ‹œ λ‘œλ“œν•˜λ €λ©΄ λͺ¨λΈμ„ λ””μŠ€ν¬λ‘œ ν”Όν΄ν•œ λ‹€μŒ λ‹€λ₯Έ μŠ€ν¬λ¦½νŠΈμ—μ„œ ν”Όν΄λœ λͺ¨λΈμ„ λ‘œλ“œν•©λ‹ˆλ‹€.

κ°μ‚¬ν•©λ‹ˆλ‹€

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰