پس از دهه*ها تلاش براي فهماندن زبان آدميزاد به كامپيوترها، سرانجام پژوهشگران گوگل فناوري پيشرفتة تشخيص صداي اين شركت را به نرم*افزار جست*وجوي اين شركت براي آي*فونِ اپل* افزودند.
انتظار مي*رود اپل اين برنامة رايگان را تا ماه فوريه (بهمن)، از طريق فروشگاه آي*تيونز در دسترس كاربران قرار دهد. كاربران اين برنامه مي*توانند گوشي را نزديك گوش خود قرار داده و تقريباً هر سؤالي از آن بپرسند؛ مثلاً "نزديك*ترين رستوران در اين اطراف كجاست؟" يا "ارتفاع كوه اورست چقدر است؟" اين صدا به يك فايل ديجيتالي تبديل و سپس به سرورهاي گوگل فرستاده مي*شود. اين سرورها واژه*هاي گفته*شده را شناسايي مي*كنند و آنها را به موتور جست*وجوي گوگل مي*فرستند.

نتايج جست*وجو، كه با داشتن يك اينترنت بي*سيم پرسرعت مي*توانند در عرض چند ثانيه نمايش داده شوند، شامل اطلاعات محلي نيز خواهند بود؛ چرا كه يكي از ويژگي*هاي آي*فون اين است كه مي*تواند موقعيت فعلي خود را شناسايي كند.
قابليت شناسايي تقريباً هر عبارت گفته*شده از سوي شخص، مدت*هاست كه يكي از اهداف بزرگ پژوهشگران هوش مصنوعي بوده تا بتوانند تعامل ميان انسان و ماشين را طبيعي*تر نمايند. سيستم*هايي كه از چنين قابليتي برخوردارند، به*تازگي توانسته*اند محصولات تجاري از اين*دست توليد كنند.
در حال حاضر هم ياهو و هم مايكروسافت سرويس*هاي شنيداري براي گوشي*هاي تلفن همراه عرضه مي*كنند. سرويس مايكروسافت با نام TellMe اطلاعات خاصي همچون جهات جغرافيايي، نقشه* و فيلم را ارائه مي*دهد. سرويس ياهو با نام oneSearch with Voice با اين*كه انعطاف*پذيرتر است، اما به*نظر نمي*رسد به*اندازة سرويسي كه گوگل عرضه مي*كند، دقيق باشد.
سيستم گوگل از دو سرويس گفته*شده به*مراتب كامل*تر است و مي*تواند به پرسش*هايي كه ظاهراً بي*معني هم هستند، پاسخ بدهد. مديران گوگل از ميزان دقت و صحت نتايج اين سيستم صحبتي نمي*كنند، ولي مي*گويند به*هرحال به*اندازة كافي دقيق هست و مردم مي*توانند به*جاي استفاده از آي*فون داراي كي*بورد و صفحة لمسي، براي دريافت پاسخ، با اطمينان خاطر از اين سيستم بهره بگيرند.
از اين سرويس مي*توان براي دريافت توصيه*هايي راجع به رستوران*ها و جهات جغرافيايي براي رسيدن به مقصد استفاده كرد. پرسش "بهترين پيتزافروشي در خيابان نئو كجاست؟" فهرستي از سه رستوران در همان نزديكي*ها در ايالت سان*فرانسيسكو به*دست مي*دهد كه كاربران گوگل بيشترين رضايت را از آنها داشته*اند. اين نتايج، شماره تلفن و همچنين جهات جغرافيايي منتهي به اين رستوران*ها را نيز به*همراه دارد.
راج ردي (يك پژوهشگر هوش مصنوعي در دانشگاه كارنگي ملون) كه يكي از پيشگامان شناسايي صوت نيز هست، مي*گويد مزيت گوگل در اين است كه مي*تواند گسترة وسيعي از داده*ها را ذخيره و تحليل كند. او مي*گويد: «هر سرويسي كه گوگل اكنون معرفي كند، در طي سه يا شش ماه ديگر به صحت و دقت آن افزوده خواهد شد.» او مي*افزايد: «اما مهم است كه بدانيم شناسايي صوت توسط ماشين هرگز به حد كمال نخواهد رسيد.» وي ادامه مي*دهد: «پرسش اين است كه اين ميزان از شناسايي تا چه حد مي*تواند به عملكرد انساني نزديك شود؟»
اين فناوري براي گوگل بسيار حياتي است و مي*تواند راه را براي برداشتن گام*هاي بعدي در جهان تبليغات هموار كند. براي مثال، مديران گوگل مي*گويند مي*توانند با ارائة پاسخ به پرسش*هاي مبتني بر مكان و تبليغ كسب*وكارهاي نزديك به آن گوشي خاص، مبالغ بيشتري از صاحبان آگهي دريافت كنند؛ اگرچه گوگل هنوز چنين آگهي*هايي نمي*فروشد.
اين سرويس همراه با ديگر خدمات گوگل نيز به*طور رايگان عرضه مي*شود و قرار است اين شركت سرانجام آن را به گوشي*هايي به*جز آي*فون نيز عرضه كند. وي گوندوترا (مدير اجرايي پيشين مايكروسافت كه اكنون رياست تجارت*هاي موبايل گوگل را برعهده دارد) مي*گويد: «ما اكنون از طريق فناوري*هاي شنيداري و همچنين شناسايي محل گوشي، توانسته*ايم به صاحبان آگهي خدمت بزرگي ارائه کنيم.»
گوگل تنها شركتي نيست كه به*سوي قابليت*هاي پيشرفتة شناسايي صدا گام برمي*دارد. فناوري به*اصطلاح پاسخ صوتي، اكنون به*طور معمول در سيستم*هاي پاسخ*گويي تلفن*ها و ديگر سرويس*ها و محصولات مصرفي مورد استفاده قرار مي*گيرد. اما اغلب، پيچيدگي*هاي مربوط به زبان*هاي مختلف، براي اين سيستم*ها مشكل ايجاد مي*كنند و معمولاً پاسخ*هاي محدودي به پرسش*ها مي*دهند.
چندهفته پيش، شرکت ادوبي، فناوري شناسايي صدا که توسط يك مؤسسة بريتانيايي به*نام Autonomy ايجاد شده است را به بسته نرم*افزاري Creative Suite افزود و به*اين ترتيب، اين نرم*افزار مي*تواند نوشتارهايي با دقت بالا از صوت و تصوير ضبط شده تهيه كند.
آقاي گوندوترا مي*گويد گوگل به دو مسئله پرداخته است؛ يكي وارد كردن اطلاعات و ديگري بازيابي آنها با استفاده از وسايل بي*سيم دستي. او اظهار مي*كند: «هدف ما، حل اين دو مسئله در كلاس جهاني بود.»
قابليت جست*وجوي جديد آي*فون نخستين كار گوگل در زمينة صدا نيست. در ماه مارس (اسفند)، اين شركت اعلام كرد كه يك سرويس اطلاعاتي تجربي مربوط به جهات جغرافيايي با نام GOOG-411 به يك محصول تبديل شده است. كاربران مي*توانند با اين سرويس به*دنبال شماره تلفن و نشاني بگردند. اين شركت مي*گويد براي توسعة سرويس آي*فون، از تجربة خود و هم*چنين اطلاعات جمع*آوري شده از طريق GOOG-411 استفاده كرده است.
اين سرويس جديد مثالي است كه نشان مي*دهد گوگل از روش*هاي مختلف براي تركيب پژوهش*هاي بنيادين در علوم كامپيوتر و مهندسي محصولات استفاده مي*كند. اين شركت بسياري از بهترين پژوهشگران در زمينة شناسايي صدا در جهان را استخدام كرده و اكنون تيم*هايي در اختيار دارد كه در نيويورك، لندن و ادارات مركزي آن در مانتن*ويوي كاليفرنيا، روي جنبه*هاي گوناگون اين مسئله مشغول كار هستند.
نخستين ايده*هاي مربوط به طراحي اين سرويس، از سوي يكي از پژوهشگران گوگل در لندن ارائه شد. او براي استفاده از شتاب*سنج آي*فون (وسيله*اي كه وضعيت نگه*داشته* شدن گوشي را مي*سنجد و حس مي*كند)، روشي را پيدا كرده بود؛ به*اين ترتيب كه اين نرم*افزار مي*توانست هنگامي كه گوشي بلند مي*شود و در كنار گوش كاربر قرار مي*گيرد را "بشنود."
پژوهشگران گوگل مي*گويند يكي ديگر از مزيت*هاي رقابتي اين سيستم، ميلياردها پرسش و درخواستي بود كه طي ساليان، گوگل از سوي كاربران خود جمع*آوري كرده بود. مايك كوهن (يك پژوهشگر شناسايي صدا كه تا پيش از آمدن به گوگل، يكي از پايه*گذاران شركت Nuance Communications بود)، مي*گويد: «يكي از چيزهايي كه تغيير كرده، ميزان محاسبات و ميزان داده*هاي قابل دسترسي است.»
آقاي كوهن مي*گويد مي*توان از درخواست*ها و پرسش*هايي که تا به حال مطرح شده*اند، براي ايجاد يك مدل آماري با استفاده از قرارگيري واژگان در كنار يكديگر استفاده كرد. اين تنها يكي از اجزا و بخش*هاي سيستم شناسايي صدا است. اين سيستم همچنين شامل يك مدل تحليل صدا و مكانيزمي براي پيوند دادن بخش*هاي اصلي زبان به واژگان واقعي است.
گوگل به*تازگي يك مقالة فني دربارة* مدل*هاي بزرگ براي ترجمة زبان توسط ماشين منتشر كرده است. پژوهشگران اين شركت در اين مقاله مي*گويند که به سيستم خود، دو ميليون واژه ياد داده*اند