You are here
طبقه بندی وبلاگ نویسان
در این فصل بر روی چند مجموعه داده کار می کنیم. در مجموعه داده اول، اقلامی که دسته بندی می شود ۱۲۰ وبلاگ برتر هستند. و داده هایی که ما دسته بندی می کنیم تعداد تکرار هر کلمه در هر وبلاگ است. یک بخش کوچکی از مجموعه و آنچه را که می خواهیم داشته باشیم در جدول ۳-۱ نمایش داده شده است.
جدول ۳-۱ . بخشی از کلمات و تعداد تکرار آنها
با دسته بندی وبلاگ ها بر اساس تعداد تکرار آنها، ممکن است بتوانیم گروه هایی را پیدا کنیم که عموما درباره موضوعات شبیه به هم مطلب می نویسند و یا سبک نوشتاری شبیه به هم دارند. چنین نتایجی می تواند در جستجو، دسته بندی، و کشف و یافتن تعداد زیادی وبلاگ که هم اکنون دردسترس هستند، بسیار مناسب باشد.
برای تولید این مجموعه داده، شما می توانید خوراک وبلاگ ها را دریافت کنید،اطلاعات را از مدخل ها استخراج کنید و جدول تعداد تکرار کلمات را ایجاد کنید. اگر شما می خواهید مراحل ایجاد مجموعه داده ها را رد کنید می توانید از آدرس زیر آن را دریافت کنید.
http://segaran.com/clusters/blogdata.txt
Add new comment