نابغه ایرانی گوگل جهان داده ها را متحول کرد
تبلیغات

به گزارش رکنا، دکتر سید وهاب میررکنی، دانشمند برجسته ایرانی در حوزه ریاضی و علوم کامپیوتر، از چهره‌هایی است که نام او با معتبرترین مراکز علمی و فناوری جهان گره خورده است. دانش‌آموخته دانشگاه صنعتی شریف و مؤسسه فناوری ماساچوست (MIT)، که سال‌ها تجربه فعالیت در شرکت‌های بزرگی همچون مایکروسافت و گوگل را در کارنامه خود دارد، اخیراً به‌واسطه یک دستاورد بنیادین در علم داده و فناوری اطلاعات، به عنوان برگزیده جایزه مصطفی(ص) در سال ۲۰۲۵ معرفی شد.

دستاوردی که این جایزه را برای میررکنی به ارمغان آورد، «توسعه طرح هش حساس به مجاورت» یا Locality-Sensitive Hashing (LSH) است؛ روشی که یکی از چالش‌های اساسی دنیای داده‌های عظیم را حل می‌کند. در جهان پردازش اطلاعات، فرآیندی به نام «هش» وجود دارد که داده‌هایی مانند متن، عدد یا فایل را به رشته‌هایی با طول ثابت تبدیل می‌کند. این فرآیند در مقیاس‌های کوچک کاربردی ساده دارد، اما وقتی با صدها میلیون یا میلیاردها داده مواجه می‌شویم و حساسیت به تغییرات جزئی اهمیت پیدا می‌کند، محاسبات به‌شدت سنگین و زمان‌بر می‌شود.

میررکنی با بهره‌گیری از توابع پیشرفته ریاضی و توزیع‌های خاص موسوم به «توزیع‌های p-پایدار»، الگوریتمی را طراحی کرد که امکان هش‌کردن داده‌ها را با سرعت بسیار بالاتر فراهم می‌کند و همزمان، ابعاد داده‌ها را برای تحلیل در الگوریتم‌های یادگیری ماشین و هوش مصنوعی کاهش می‌دهد. این نوآوری، نه‌تنها در حوزه امنیت سایبری، رمزنگاری، بلاکچین و هوش مصنوعی نقش کلیدی ایفا کرده، بلکه در تحلیل کلان‌داده‌های پزشکی، داروسازی و زیست‌شناسی نیز تحول‌آفرین بوده است.

مسئله «جست‌وجوی نزدیک‌ترین همسایه» سال‌هاست یکی از چالش‌های کلاسیک علوم کامپیوتر محسوب می‌شود. پیش از ارائه این روش، الگوریتم‌هایی مانند درخت‌های KD یا روش Min-Hash مورد استفاده قرار می‌گرفتند؛ اما این روش‌ها محدودیت‌های جدی داشتند. از یک سو، بسیاری از آن‌ها فقط برای نوع خاصی از توابع فاصله طراحی شده بودند و توانایی کار با فواصل کلی‌تری مانند فواصل LP را نداشتند. از سوی دیگر، این الگوریتم‌ها در مواجهه با داده‌های عظیم، مقیاس‌پذیر نبودند و زمان اجرای آن‌ها به‌صورت خطی افزایش می‌یافت.

نوآوری میررکنی دقیقاً در همین نقطه معنا پیدا می‌کند. او و همکارانش موفق شدند الگوریتمی طراحی کنند که زمان اجرای آن «زیرخطی» باشد؛ به این معنا که با افزایش حجم داده‌ها، رشد زمان پردازش به‌شدت کنترل شود. این ویژگی باعث شد الگوریتم جدید، هم برای داده‌های بسیار بزرگ و هم برای طیف گسترده‌ای از توابع فاصله که پیش‌تر الگوریتم کارآمدی برای آن‌ها وجود نداشت، قابل استفاده باشد.

در این پژوهش، توجه ویژه‌ای به توابع فاصله LP شده است. در میان آن‌ها، فاصله اقلیدسی (L2) به دلیل کاربرد گسترده در مسائل مختلف، اهمیت ویژه‌ای دارد؛ هرچند در برخی حوزه‌ها مانند پردازش تصویر، فاصله منهتنی (L1) نیز نقش کلیدی ایفا می‌کند. میررکنی در این طرح به‌صورت ریاضی اثبات کرد که برای فاصله اقلیدسی، استفاده از توزیع نرمال یا گوسی در توابع هش، بهترین و بهینه‌ترین انتخاب است. همچنین نشان داد که برای فاصله L1، توزیع کوشی عملکرد بهینه‌تری دارد. این انتخاب‌ها نه بر اساس سلیقه، بلکه بر پایه اثبات‌های دقیق ریاضی انجام شده‌اند.

به‌کارگیری بردارهای تصادفی مبتنی بر این توزیع‌های p-پایدار، تأثیر مستقیمی بر سرعت و دقت الگوریتم دارد. رفتار الگوریتم بسته به مقدار پارامتر p متفاوت است و پژوهش میررکنی نشان می‌دهد که در بازه‌های مشخصی از این پارامتر، الگوریتم به‌صورت بهینه عمل می‌کند. در عین حال، دقت الگوریتم به تعداد توابع هش و تعداد جداول هش وابسته است؛ پارامترهایی که با تنظیم هوشمندانه آن‌ها می‌توان به تعادلی میان سرعت، دقت و مصرف حافظه دست یافت.

کاربردهای عملی این الگوریتم بسیار گسترده است. سامانه‌های توصیه‌گر، موتورهای جست‌وجو، تحلیل شباهت متون، پیشنهاد ویدئو در پلتفرم‌هایی مانند یوتیوب و حتی تحلیل داده‌های زیستی و بیوانفورماتیک، همگی به نوعی به مسئله «یافتن داده‌های مشابه» وابسته‌اند. در شرایطی که بررسی همه جفت‌های داده‌ای نیازمند محاسباتی در حد N² است، این الگوریتم بدون بررسی تک‌تک حالت‌ها، موارد مشابه را با دقت بالا شناسایی می‌کند؛ قابلیتی که برای پردازش‌های برخط و آفلاین حیاتی است.

یکی از مزیت‌های مهم این روش، سادگی بنیادین آن است. همین سادگی باعث شده که توسعه آن برای داده‌های پویا و به‌روزرسانی مداوم ساختارهای هش امکان‌پذیر باشد. مقاله اصلی این طرح که بیش از دو دهه پیش در یک کنفرانس تخصصی منتشر شد، به دلیل همین ویژگی، به یکی از پرارجاع‌ترین مقالات حوزه خود تبدیل شده و مبنای توسعه بسیاری از الگوریتم‌های پویا قرار گرفته است.

در مقایسه با روش‌های سنتی مانند KD-Tree که زمان اجرای خطی دارند، الگوریتم میررکنی با افزایش حجم داده‌ها کارایی به‌مراتب بالاتری از خود نشان می‌دهد. این مزیت به‌ویژه در مقیاس‌های بزرگ، تفاوتی چشمگیر ایجاد می‌کند. هرچند استفاده از روش‌هایی مانند کوانتیزاسیون می‌تواند بر دقت تأثیر بگذارد، اما چارچوب این الگوریتم امکان مدیریت و تحلیل دقیق این اثرات را فراهم کرده است.

در نهایت، میررکنی تأکید می‌کند که ارزش اصلی این روش، نه فقط در استفاده مستقیم از آن، بلکه در نقش آن به‌عنوان یک «بلوک سازنده» است؛ الگوریتمی ساده، منعطف و قابل ترکیب که می‌تواند پایه توسعه روش‌های پیچیده‌تر و کاربردی‌تر در آینده باشد. همین ویژگی است که آن را به یکی از ستون‌های اصلی پردازش داده و هوش مصنوعی در دنیای امروز تبدیل کرده و جایزه مصطفی(ص) ۲۰۲۵ را به نام این دانشمند ایرانی ثبت کرده است.

اخبار تاپ حوادث

تبلیغات
تبلیغات
تبلیغات

وبگردی