یک روش جدید مبتنی بر شبکه پیچیده برای مدل سازی موضوع
محققان دانشگاه نورث وسترن ، دانشگاه حمام و دانشگاه سیدنی رویکرد جدید شبکه ای را برای مدل های موضوع ، استراتژی های یادگیری ماشین ایجاد کرده اند که می توانند مباحث انتزاعی و ساختارهای معنایی را در اسناد متنی کشف کنند.
محققان در مطالعه خود توضیح دادند: "یکی از اصلی ترین چالش های محاسباتی و علمی در عصر مدرن ، استخراج اطلاعات مفیدی از متون بدون ساختار است." "مدل های موضوعی یک رویکرد رایج یادگیری ماشینی است که به ساختار موضعی نهفته مجموعه ای از اسناد استنتاج می کند."
در حال حاضر از مدلهای موضوعی برای شناسایی متون مرتبط با معنایی و طبقه بندی اسناد در تعدادی از زمینه ها ، از جمله جامعه شناسی ، تاریخ ، زبانشناسی و روانشناسی استفاده می شود. متداول ترین روش ، تخصیص نهفته Dirichlet (LDA) ، همچنین برای تجزیه و تحلیل های کتابشناختی ، روانشناختی و سیاسی و همچنین برای پردازش تصویر استفاده می شود.
علی رغم موفقیت گسترده اش ، LDA نقص های زیادی در نحوه ارائه متن دارد ، از جمله عدم وجود روش برای انتخاب تعداد مباحث ، اختلافات با خصوصیات آماری متون واقعی و عدم توجیه برای بیزی قبل ، که در آمار بیزی استنتاج توزیع احتمال است که قبل از ارائه شواهد بیان شده است.
اعتبار: گرلاچ و همکاران.
بخش عمده ای از تحقیقات اخیر در مورد مدل های موضوع بر ایجاد نسخه های پیشرفته تر LDA که عملکرد بهتری دارند یا می توانند جنبه های خاصی از اسناد را تحلیل کنند ، متمرکز شده اند.
رویکرد توسعه یافته توسط این تیم از محققان از تئوری شبکه ، تئوری مورد استفاده در فیزیک و سایر زمینه های علمی ناشی می شود که تکنیک هایی برای تجزیه و تحلیل نمودارها و همچنین ساختارهایی در سیستم هایی با عوامل متقابل مختلف ارائه می دهد. چارچوب جدید آنها برای مدل سازی موضوع براساس رویکرد استفاده شده برای یافتن جوامع در شبکه های پیچیده است ، که در چارچوب نظریه شبکه ، گرافیکی با ویژگی هایی است که در مدل سازی سیستم های زندگی واقعی رخ می دهد.
مارتین گرلاچ ، عضو ارشد دکترا در دانشگاه شمال غربی غربی در گفتگو با TechXplore گفت: "من از منظر سیستم های پیچیده و شبکه های پیچیده ، روی زبان طبیعی و مدل سازی کار می کردم." "این مشکلات بسیار شبیه به نظر می رسید ، اما جامعه علوم کامپیوتر (الگوسازی موضوع) و شبکه های پیچیده به نظر می رسید تا حد زیادی به طور مستقل کار می کنند. با آموزش به عنوان یک فیزیکدان ، ما می خواستیم نشان دهیم که دو مشکل به ظاهر متفاوت می توانند به همان ریاضی پایه ای کاهش پیدا کنند. "
گرلاچ و همکارانش رویکرد جدیدی را برای شناسایی ساختارهای موضعی ابداع کرده اند که مربوط به مشکل یافتن جوامع در شبکه های پیچیده است. تکنیک آنها نمایانگر متن به عنوان شبکه های دوتایی است ، طبقه ای از شبکه های پیچیده که گره ها را به مجموعه های X و Y تقسیم می کنند ، فقط امکان اتصال بین گره ها در مجموعه های مختلف را فراهم می کنند.
اعتبار: گرلاچ و همکاران.
Gerlach توضیح داد: "ما مسئله الگوسازی موضوع را به مشکل شناسایی جامعه در شبکه ای متشکل از کلمات و اسناد نقشه برداری کردیم که نشان می دهد آنها از نظر ریاضی معادل هستند."
رویکرد محققان ، که روشهای شناسایی جامعه موجود را تطبیق می دهد ، نسبت به سایر مدلهای موضوع موجود متنوع تر و اصولی تر است ، به عنوان مثال ، تعداد مباحث موجود در متون و تشخیص سلسله مراتب هر دو کلمه و اسناد را مشخص می کند. روش آنها از یک مدل بلوک تصادفی (SBM) ، یک مدل تولیدی برای نمودارهایی استفاده می کند که عموماً انجمن ها ، زیر مجموعه های مواردی را که به یکدیگر متصل هستند ، نقشه می کند.
Gerlach گفت: "ما برخی از مشکلات ذاتی و شناخته شده الگوریتم های مدل سازی موضوع محبوب مانند LDA (مانند نحوه تعیین تعداد مباحث) را حل می کنیم." "علاوه بر این ، کار ما نشان می دهد که چگونه به طور رسمی می توان روشهای مربوط به تشخیص جامعه و الگوسازی موضوع را ربط داد ، و امکان لقاح متقابل بین این دو زمینه را باز می کند."
رویکرد SBM که توسط Gerlach و همکارانش ایجاد شده است می تواند کاربردهای جالبی در سایر زمینه هایی که در آن از یادگیری ماشین استفاده می شود مانند تجزیه و تحلیل کدهای ژنتیکی یا تصاویر داشته باشد. در آینده محققان قصد دارند به بررسی پتانسیل شبکه های پیچیده چه در متن تحلیل متن و چه از آن بپردازند.
Gerlach گفت: "هم ارزی بودن بین الگویی موضوع و شناسایی جامعه اجازه می دهد تا از بینشهای به دست آمده در هر یک از جوامع استفاده کرده و در حوزه دیگر اعمال شود." "امیدوارم از این بینش ها استفاده کنم تا درک بهتری از این الگوریتم های یادگیری ماشین داشته باشیم ؛ چرا آنها کار می کنند و مهمتر از همه ، در چه شرایطی کار نمی کنند."
http://opensocialfactory.com/story4694843/قیمت-اکچویتور