صحبت کردن با من کامپیوتر: کنترل صدا در حال خاموش شدن است

اگر بسته های غیرمنتظره در داخل شما ظاهر شوند، ممکن است بخواهید یک کلمه با یکی از دستگاه های هوشمند خود داشته باشید.

در اوایل ماه جاری، یک شش ساله در دالاس از خانواده اش پرسید آمازون اکو بلندگو هوشمند برای یک اتاق عروسک. و الکسا، دستیار مصنوعی ساری مانند آمازون، به سرعت یک نفر را به خانه اش دستور داد.

یک گزارش تلویزیونی در سان دیگو، این خبر را به دست آورد، و به طور غریزی آن را تکرار کرد، هنگامی که یکی از خبرنگاران اخبار اظهار نظر کرد: "من عاشق دختر هستم، گفتم:" الکسا به من یک مغازه عروسک سفارش دهی "." بیش از این، چند دستگاه دیگر آمازون در خانه ها سن دیگو تلاش برای خرید مغازه های بزرگ دیگر.

گزارش CW6 سن دیگو در مورد فروش عروسکی اتفاقی الکسا.

{youtube}oI2KLIULjXc{/youtube}

این داستان ممکن است به شدت با هر کسی که سعی کرده با یک مکالمه با سیری اپل یا Cortana مایکروسافت آشنا باشد، به خوبی آشناست. دستگاه های ما در گوش دادن به ما بسیار خوب بوده اند، اما این بدان معنا نیست که آنها درک کنند.

محققان مایکروسافت اخیرا این را به عنوان یک مشکل بالقوه با رابط های صحبت کردن امروز مشخص کرده اند: آنها به عنوان دستیاران "هوشمند"، با جوک های هوشمندانه و دانش دنیوی به فروش می رسند، با این حال اغلب ما آنها را با فقدان عقل سلیم خود می شکند.


گرافیک اشتراک درونی


در یک مطالعه كوچك، محققان دریافتند افرادی که در طول زمان به همراه همسران دیجیتال خود صحبت کردند، کسانی بودند که با کمترین انتظارات شروع به کار کرده بودند.

در واقع رابط کاربری صدا واقعا چیست؟

وقتی با یک رابط صوتی صحبت می کنید، باید:

  • "شنیدن" صدا صدای شما، و آن را از صدای پس زمینه تشخیص دهید
  • کشف کردن که هر کلمه شروع می شود و به پایان می رسد، نادیده گرفتن "umms" و "اوه"
  • مطابقت صدا هر کلمه را با یک کلمه در فرهنگ لغت، با انتخاب یکی از حقایق از زمینه اگر وجود دارد homophones
  • به درستی معنای کل جمله را تفسیر کنید
  • یک پاسخ معنی دار و مفید که با درخواست شما منطبق است، تولید کنید.

هر یک از اینها یک چالش فنی پیچیده است و شرکت های فن آوری های مختلف در زمینه های مختلف پیشرفت کرده اند.

گوگل در پاسخ به پاسخ های مربوط به طیف وسیعی از درخواست ها خوب است، زیرا از خدمات گوگل از اطلاعات Google در مورد وب و فعالیت های شخصی شما بهره مند است.

آمازون اکو به خصوص در هنگام شنیدن درخواست های شما از طریق یک اتاق پر سر و صدا، به لطف آرایه میکروفن دوربینی که سر و صدا را خاموش می کند، بسیار خوب است. البته، آن را نیز در خرید از طریق آمازون خوب است.

در طول چند سال گذشته، رابطهای صوتی در فهمیدن سخنرانی روزمره یا "طبیعی" بسیار بهتر از دستورات آرام و با دقت نوشته شده است. آنها هنوز هم در برخورد با پرسش های ساده مانند "چه کسی در Open Australian بازی می کنند" بهتر هستند و تمایل دارند با درخواست های پیچیده تر مانند "کسانی که برای اولین بار در سال 2010 در استرالیا بازی می کنند" مبارزه کنند و پیگیری کنند سوالاتی مانند "آیا در فینال باران خواهد بارید؟"

این وضعیت حتی برای زبانهای غیر انگلیسی نیز مخلوط است: در حالی که سیری بیش از زبان و گویش 40 را پشتیبانی می کند، تا کنون الکسا تنها به زبان انگلیسی و آلمانی در دسترس است. اما همه این ویژگی ها به طور مداوم بهبود می یابند.

جایی که صداهای اینترفیس لعنت می شوند

بنابراین رابط های صوتی به زودی تمام تکنولوژی ما را در بر می گیرد، همانطور که در فیلم پیش بینی شده است او؟ گارتنر، یک شرکت تحقیقاتی فن آوری پیش بینی کرده است که تا سال آینده 30٪ از تعاملات ما با تکنولوژی مکالمات با رابط های صوتی فعال خواهد بود.

اما رابط های صوتی دارای محدودیت هستند و نه همه آنها می توانند با تکنولوژی بهتر حل شوند.

صدای یک وسیله مرکزی ارتباط با تکنولوژی در فیلم Spike Jonze او است.

{youtube}ne6p6MfLBxc{/youtube}

آلودگی صوتی یکی از موانع عمده است. آیا دستگاه شما می تواند از صدای پس زمینه اطراف شما چه چیزی را می گوید؟ فناوری میتواند از آن کمک کند، از جمله کاهش نویز، تشخیص صدا شخصی و خواندن لب.

اما در مورد سر و صدای پس زمینه ای که برای صحبت کردن با دستگاه هوشمند خود برای دیگران ایجاد می کنید چیست؟ تصور کنید یک فرد نشسته در کنار شما در دفتر - یا در یک هواپیما - چت در سیری در حالی که شما در حال تلاش برای خواندن، و شما می توانید ببینید که چرا رابط های صوتی ممکن است همیشه از نظر اجتماعی قابل قبول نیست.

مجموعه ای دیگر از مسائل از خواسته های ذهنی رابط های صوتی می آید. یادگیری استفاده از یک سیستم مبتنی بر صدا می تواند سخت باشد، به خصوص اگر هیچ صفحه ای وجود نداشته باشد، مانند Amazon Echo.

اگر تا به حال یک بانک یا یک شرکت تلفنی نامیده اید، می دانید ترکیب غم انگیز تمرکز و خستگی که از گوش دادن به یک لیست صدای سنتز شده از همه گزینه های خود در حالی که شما برای صبر کردن برای شما نیاز دارید و سعی کنید آنها را مخلوط بالا رابط های گرافیکی سنتی از طریق ارائه گزینه های موجود و اجازه دادن به انتخاب سریع خود، از این مشکل اجتناب کنید.

پس از آموختن دستورات صوتی، استفاده از آنها می تواند منحرف شود. محققان دریافتند که دستورات صوتی تفکر خود را از بین می برد بیش از یک ماوس و صفحه کلید

این امر برای واسطهای صوتی در ماشین بسیار خطرناک است: یک مطالعه دوگانه از دانشگاه یوتا نشان داد که رانندهها بودند تا 27 ثانیه غوطه ور شده است پس از استفاده از دستورات صوتی.

دانشگاه یوتا / بنیاد AAA برای تحقیقات ایمنی ترافیک در حواس پرتی راننده.

{Vimeo} 108281698 {/Vimeo}

یافتن صدای آن

به این ترتیب واسط های صدا بعید به نظر می رسند که به طور کامل برسند، اما در زندگی ما مفید است. آنها در حال حاضر در ماشین ها رایج هستند، در حالی که تکنولوژی پیشرفت می کنند، امیدوارم که کمتر از منحرف شوند.

در آشپزخانه می توانید از الکسا بخواهید که از طریق یک دستورالعمل صحبت کند یا لیست خرید خود را به روز کند، در حالی که دستانتان مشغول آشپزی هستند. در واقعیت مجازی و تکمیل شده، رابط های صوتی می توانند به شما اجازه کنترل سیستم را زمانی که نمی توانید دستان خود را ببینید.

در یادگیری زبان، آنها می توانند برای تمرین تلفظ استفاده شوند. مهمتر از همه، رابط های صوتی به کاربران مبتلا به اختلالات حرکتی، RSI یا نارسایی برای کمک به ناتوانی های خود کمک می کنند.

اینترفیس های صوتی یک فناوری طولانی مدت هستند و دلایل خوبی برای فکر کردن در مورد آن ها وجود دارد. فقط به یاد داشته باشید که آنها ممکن است هنوز به همان اندازه هوشمندانه به نظر نمی رسد. اگر اطفال اطراف شما ممکن است بخواهید یک کد پین در خرید صدا ایجاد کنید.

گفتگو

درباره نویسنده

Fraser Allison، دانشجوی دکتری در تعامل انسان و کامپیوتر، دانشگاه ملبورن

این مقاله در اصل در تاریخ منتشر شد گفتگو. دفعات بازدید: مقاله.

آیتم های مرتبط

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market و Amazon