Microsoft: Bu akıllı açık kaynak tekniği, gizliliğinizi korumanıza yardımcı olur

Bir veri kümesine istatistiksel gürültü eklemek, kazara bilgi sızıntısı olmamasını garanti edebilir. Açık kaynaklı SmartNoise çerçevesi ile daha kolay hale getirilen zor bir görev.

Veriler, söylendiği gibi yeni yağdır – hem değerlidir hem de sızarsa çok fazla temizlik gerektirir. Anonim verilerdeki bilgilerin yeniden tanımlanabileceği ve anonim hale getirilebileceği korkusu, insanları bilgilerine katkıda bulunmaktan alıkoyuyor ve araştırmacıların hassas verilere erişmesini ve herkese yardımcı olabilecek içgörülerin kilidini açmasını zorlaştırıyor. Bu, sağlık ve eğitimden Windows hatalarına ve Office'in nasıl kullanıldığına kadar her şey için geçerlidir.

<a href = "https://www.techrepublic.com/a/hub/i/r/2021/05/24/1069ee12-54c9-49a0-873a-c68c76b43e70/resize/370x/c87e0673f11d45ebe35084573d2325d2/sarah-bird-microsoft .jpg "target =" _ blank "data-component =" modalEnlargeImage "data-headline ="

Microsoft'tan Sarah Bird: "Yalnızca verilerdeki daha büyük kalıpları öğrenmek istiyorsunuz ve bu nedenle, farklı mahremiyetin yaptığı şey, zaten bilmek istemediğiniz daha küçük kalıpları gizlemek için biraz gürültü eklemek."

"data-credit =" Resim: Microsoft ">

Microsoft'tan Sarah Bird: "Yalnızca verilerdeki daha büyük kalıpları öğrenmek istiyorsunuz ve bu nedenle, farklı mahremiyetin yaptığı şey, zaten bilmek istemediğiniz daha küçük kalıpları gizlemek için biraz gürültü eklemek."

Resim: Microsoft

Bile nelerin toplandığına dair net belgelerBazı kullanıcılar, Windows tarafından gönderilen telemetrinin kişisel bilgileri açığa çıkarabileceğinden endişelenmektedir. Ancak Windows veri bilimi ekibi, hata kalıpları ve yapılandırmalar ararken kişisel bilgi istemez. Sarah BirdMicrosoft'ta sorumlu AI'dan sorumlu ana program yöneticisi TechRepublic'e verdiği demeçte.

"Kullanıcılarımız hakkında bu bilgileri bilmek bile istemiyoruz. Toplu (bilgi) bilmek istiyoruz. Bilmek bile istemediğimiz bir şeyi yanlışlıkla öğrendiğimiz bir durumu istemiyoruz."

GÖRMEK: C ++ programlama dili: Nasıl her şeyin temeli oldu ve bundan sonra ne olacak (ücretsiz PDF) (TechRepublic)

Çok sayıda makine öğrenimiyle ilgili benzer bir sorun var ve çözüm şudur: diferansiyel gizlilik. Bu, sorgu sonuçlarına rastgele 'istatistiksel gürültü' ekler – cevapların doğruluğundan ödün vermeden bireysel gizliliği korumak için yeterli – gizliliği koruduğu kanıtlanabilecek bir şekilde.

Bird, "Yalnızca verilerdeki daha büyük kalıpları öğrenmek istiyorsunuz ve bu nedenle, farklı mahremiyetin yaptığı şey, yine de bilmek istemediğiniz bu küçük kalıpları gizlemek için biraz gürültü eklemek," diye açıkladı.

Farklı gizlilik, hem bireysel bilgileri ortaya çıkarmaya çalışan saldırganlara hem de yanlışlıkla bu bilgileri açığa çıkaran sistemlere karşı koruma sağlar. "Parametreleri doğru bir şekilde ayarladıysanız, analizinize hiçbir şekilde zarar vermemelidir. Bu, bu büyük kalıpları öğrenmenizi sağlamalı, ancak sizi öğrenmemeniz gereken daha küçük kalıpları öğrenmekten korumalıdır. Modeller gidiyor İsteseniz de istemeseniz de her tür şeyi öğrenmek için. Güçlü bir istatistiksel garanti ile, bu hesaplamanın bir sonucu olarak bu bilgiyi öğrenmeyeceğimizi gerçekten garanti edebiliriz. "

Windows PC'de toplanan veriler Microsoft'a gönderilmeden önce, telemetri sistemi gürültü eklerBöylece Microsoft, herhangi bir Windows kullanıcısına bağlı bilgi almadan Windows'un nasıl performans gösterdiğinin büyük resmini görebilir.

Adı verilen bir sorunu önlemek için makine öğrenimi sırasında gürültü eklemek zaten yaygındır. aşırı uyum gösterme, sistem eğitim verilerini o kadar iyi öğrendiğinde meydana gelir ki, kullanmak istediğiniz canlı verilere aktarılmayan etkileyici sonuçlar alır. Bird, "Bu kavramsal olarak benzer," dedi, "Farklı mahremiyetle ilgili harika olan şey, matematiksel garantinin, doğru gürültü türünü eklerseniz ve ne kadar bilgi açığa çıkardığınızı takip ederseniz, aslında bunu yapabileceksiniz. "Bunu tersine çeviremem; veri kümesindeki herhangi bir kişi hakkında hiçbir şey öğrenemiyorum" diyor. "

Anonim kalmak

Farklı mahremiyet fikri yaklaşık 15 yıl öncesine dayanıyor. 2006 yılında, Microsoft Research seçkin bilim insanı Cynthia Dwork, Biri fikri ortaya çıkaran araştırmacılar, bunu bize 'herkesin henüz çözemediği sorunların yanıtları üzerinde çalışmak' olarak nitelendirdi.

Netflix ve AOL gibi kuruluşlar, kişisel verilerin kaldırılması gereken veri kümelerini yayınlamaya başladığında, verilere katkıda bulunan kişiler hakkında fazladan bilgiye sahipseniz, bazen bunları anonim veri kümesinde tanımlayabileceğiniz hızla ortaya çıktı. Bunun tıbbi verileri, nüfus sayım bilgilerini ve araştırma için diğer yararlı veri setlerini paylaşmak için etkileri oldu.

Farklı mahremiyetin arkasındaki fikir, özellikle katkıda bulunduğunuz şeyi sızdırmayacağını garanti ederek bilgilerinizi bir veritabanına koyma riskini ortadan kaldırmaktır. Kilit nokta, verileriniz veritabanında olduğunda ve olmadığı zaman sistemin farklı davranıp davranmamasıdır. Diferansiyel gizlilik, sorgu sonuçlarında kesin olarak hesaplanmış bir parazit miktarı kullanarak bu farkı gizler.

Dwork, "Özel bilgilerden oluşan bir külliyatınız olduğunu ve altta yatan nüfusu anlamaya çalıştığınızı varsayalım; verilerin istatistiksel analizlerini yapmak istiyorsunuz," diye açıkladı Dwork o sırada. "Ayrıca, insanların kendi sorgularını oluşturmalarına izin vermek istiyorsun ve düşman insanlara bile (bunu yapmalarına) izin vermek istiyorsun. Gizliliği koruduğuna sadece inanmakla kalmayıp matematiksel olarak kanıtlanabilir bir şekilde garanti ediyorsun."

Gereken gürültü miktarı veritabanının boyutuna değil, kaç kez sorgulanacağına bağlıdır. Birisinin tekrar tekrar çok benzer sorular sorarak gerçek cevaba girmesini önlemek için, eklenen gürültünün büyüklüğü, veritabanına veya içindeki belirli verilere karşı yapılabilecek sorgu sayısına bağlıdır. Bunu veri tabanı için bir gizlilik bütçesi olarak düşünün (teknik olarak buna 'epsilon' denir ve diferansiyel hesaplama kullanılarak gizlilik riskinin eğimini hesaplamak tekniğe adını verir).

Gizlilik bütçesine bağlı kalmak, bir veritabanını yalnızca o kadar sorgu çalıştırılıncaya kadar paylaşmak anlamına gelir.

Dwork, "Gizlilik tanımımızı sağlamak için ne kadar gürültü eklememiz gerektiğini biliyoruz," dedi. Bazı durumlarda (hepsinde değil), bu, veritabanındaki örnekleme hatasından daha az olur ve size 'ücretsiz' gizlilik sağlar.

Diferansiyel gizlilik, veri setinin nasıl sorgulanacağını düşünmek anlamına gelir, ancak Dwork bize, "Tanımlanabilir bilgilerin ne olduğuna önceden karar vermek zorunda değilsiniz. Hedeflerimizden biri, sahip olmamanızdır. çok düşünmek. "

Ancak farklı mahremiyetin uygulamaya konulması çok fazla çalışma gerektirdi ve esas olarak Apple, Microsoft ve ABD Sayım Bürosu gibi büyük, sofistike kuruluşlar tarafından kullanılıyor (kanıtlanmıştır. kontrollü).

Bird, "Kuruluşların bunu kullanmaya başladığını görüyoruz, ancak Microsoft gibi teknolojiden daha bilgili olanlar, 'Verileri bırakmayacağımızın garantisini istiyorum' dedi.

<a href = "https://www.techrepublic.com/a/hub/i/2021/05/24/a79b2d4e-841f-4d64-9b8e-af322ffcdb48/smartnoise-differential-privacy-microsoft.jpg" target = " _blank "data-component =" modalEnlargeImage "data-headline ="

SmartNoise farklı gizlilik verileri nasıl korur.

"data-credit =" Resim: Microsoft ">smartnoise-diferensiyel-privacy-microsoft.jpg "data-original =" https://www.techrepublic.com/a/hub/i/2021/05/24/a79b2d4e-841f-4d64-9b8e-af322ffcdb48/smartnoise-differential -privacy-microsoft.jpg

SmartNoise farklı gizlilik verileri nasıl korur.

Resim: Microsoft

Daha akıllı gürültü

Aslında, Microsoft için bile kullanmak neredeyse çok zordu, özellikle de Windows telemetrisi, veriler daha veritabanına girmeden önce yerel olarak gürültü eklemek için en karmaşık ancak en gizlilik koruma seçeneğini kullanıyor.

Bird, "Windows telemetrisindeki orijinal kullanım durumumuz başarılı oldu ve üretimde piyasaya sürüldü, ancak deneyim, Microsoft araştırmacılarıyla yakın bir şekilde çalışmak ve Windows'ta çok sayıda farklı gizlilik uzmanlığı oluşturmak zorunda olmalarıydı," dedi. "Ve bunun diğer tarafından ortaya çıktılar, 'Vay canına, bu çok zordu ve biz bunu daha çok yapmak istiyoruz'."

"Microsoft'ta bu teknolojiyi kullanmak isteyen birkaç ekibimiz vardı çünkü bu daha yüksek gizlilik düzeyine sahip ve size bilgi işlemin çıktısında bilgi sızdırmayacağınızı garanti eden başka bir teknoloji yok. " o ekledi.

Buna Office ve İyilik için AI Araştırmacıların sağlık ve eğitim bilgileri gibi hassas verilere daha iyi erişmelerini isteyen bir program. Bird, "Hepimiz farklı gizlilik kullanmak istiyoruz ve bu Windows'taki kadar zor olamaz veya kimse bu teknolojiyi benimsemeyecek" dedi.

GÖRMEK: Ameliyathanede yapay zeka: Bir şirket, teknolojiyi kullanarak ameliyattaki boşlukları kapatıyor (TechRepublic)

Buna yardımcı olmak için Microsoft, Harvard Üniversitesi ile (Dwork'ün profesör olduğu) OpenDP inisiyatif aldı ve yayınladı SmartNoise açık kaynaklı çerçeve. Rust'ta yerleşik olan SmartNoise, farklı gizlilik sonuçları oluşturmak ve doğrulamak için veri gölleri, SQL Server, Postgres, Apache Spark, Apache Presto ve CSV dosyaları için bağlantılara ve C, C ++, Python, R ve diğer dillerden kullanılabilen bir çalışma süresine sahiptir. . Ayrıca, izin verilen sorgu sayısını kontrol etme yollarına da sahiptir, böylece veritabanı için ayarlanan gürültü seviyesi ile korunabilen sorguların 'bütçesini' tüketmezsiniz.

SmartNoise tarafından korunan bir modeli veya sorgu verilerini eğittiğinizde, sonuçlara istatistiksel gürültü ekler, veritabanına ne kadar gizlilik riski eklendiğini hesaplar ve bu tutarı gelecekteki sorgular ve eğitim çalışmaları için bütçeden çıkarır. Makine öğreniminde kullanmak üzere sentetik veriler oluşturmak için de kullanılabilir. Bird, "Bu, bütçenizi tek bir veri kümesi oluşturmak için kullandığınız ve insanlar istedikleri her şeyi yapabilecekleri için bütçe takibi konusunda endişelenmenize gerek olmadığı anlamına geliyor" dedi.

"Açık kaynak araçlarımız varsa, farklı gizliliğin benimsenmesini hızlandırabileceğiz, çünkü insanların onu kullanmasını kolaylaştıracağız, aynı zamanda insanların yaratmasını da kolaylaştıracağız. diğer insanların kullanabileceği şeyler ve bu şekilde son teknolojiyi ilerletme, "dedi. Bazı kullanıcılar, Windows telemetrisi olarak toplanan veri miktarından bile daha yüksek ölçeklerde çalışmak isteyen küçük kuruluşlardır, bu nedenle Microsoft, algoritmaları verimli bir şekilde çalışacak şekilde optimize etmek için daha fazla iş yapmıştır. "Çok temel oluşturuyor ve bu teknolojinin gerçekten işe yaraması için ne gerekeceğini gerçekten anlamamıza yardımcı oluyor."

<a href = "https://www.techrepublic.com/a/hub/i/2021/05/24/6b99a34f-b455-4b4a-b0ab-bd59163ce99e/smartnoise-statistics-for-data-set-including-the -privacy-budget-for-ml-microsoft.jpg "target =" _ blank "data-component =" modalEnlargeImage "data-headline ="

SmartNoise araçları, makine öğrenimi için gizlilik bütçesi dahil olmak üzere veri kümenizle ilgili istatistikleri görmenizi sağlar.

"data-credit =" Resim: Microsoft ">smartnoise-istatistik-for-data-set-dahil-gizlilik-bütçesi-ml-microsoft.jpg "data-original =" https://www.techrepublic.com/a/hub/i/2021/05 /24/6b99a34f-b455-4b4a-b0ab-bd59163ce99e/smartnoise-statistics-for-data-set-including-the-privacy-budget-for-ml-microsoft.jpg

SmartNoise araçları, makine öğrenimi için gizlilik bütçesi dahil olmak üzere veri kümenizle ilgili istatistikleri görmenizi sağlar.

Resim: Microsoft

Gereken uzmanlık ve geliştirme çalışması miktarını azaltan SmartNoise ile bile, kuruluşlar algoritmayı ve ayarları seçmek için (özellikle bir veri seti için doğru epsilon değerini bulmak) hala çok sayıda veri bilimi uzmanlığına ihtiyaç duymaktadır.

Yapmaya çalıştığınız şey, farklı mahremiyetin halihazırda kullanıldığı bir yönteme benziyorsa, Bird, veri bilimcileri ve geliştiricilerden oluşan ekiplerin araç setini kendi başlarına başarılı bir şekilde kullanabileceklerini önerdi. Diğerleri GitHub'daki SmartNoise ekibine ulaşarak daha resmi bir erken benimseme programı Microsoft, kuruluşların hoşuna giden Humana ve Eğitim Sonuçları Ortaklığı sağlık ve eğitim verilerine bakarak araştırma programlarına farklı bir mahremiyet kazandırmak. Bird, "Farklı mahremiyet etrafında inşa etmek isteyen yeni girişimlerden, bunu eğitim için kullanmak isteyen kar amacı gütmeyen kuruluşlara kadar her şey," dedi. "Umarım yaklaşık altı ay içinde, dünyada farklı mahremiyete sahip birkaç üretim kullanım durumu daha yaşarız."

Microsoft ayrıca, ABD geniş bant kullanım verilerini (başlangıçta FCC için toplanan), şu konulara bakan araştırmacılarla paylaşmak için farklı gizlilik kullandı salgın sırasında bağlantı eğitime erişimi nasıl etkiledi.

Microsoft'ta farklı gizlilik

Microsoft artık Office'te ve reklamveren sorguları için kullanıldığı LinkedIn'de farklı gizlilik kullanıyor.

Outlook'taki yeni özellik e-postalara yanıt önerir sen alırsın farklı gizlilik kullanılarak oluşturulmuş, bu nedenle önerilerin hiçbiri kişisel bilgi içeremez. Bird, "Sosyal güvenlik numaramın otomatik olarak tamamlanması gibi, öğrenildiği uzun kuyruklu cevapları açığa vurmasını istemezsiniz," dedi. "Farklı gizlilik, sizi bu bireysel cevapları öğrenmekten korur." (Farklı gizlilik, Office'in başka bir yerinde kullanılmaktadır, ancak Microsoft henüz bu diğer kullanımlar hakkında konuşmaya başlamamıştır.)

Yönetici kontrol paneli İşyeri Analitiği Yöneticilere takımlarının nasıl çalıştığı hakkında bilgi vermesi, ancak belirli kişilerle ilgili ayrıntıları açıklamaması gerekir. Bird, "Bir yöneticinin ekibin sağlığına, üretkenliğine ve başarısına bakabilmesini, ancak bireysel çalışanlar hakkında hiçbir şey öğrenmemesini istiyorsunuz," dedi.

Diferansiyel gizlilik, farklı bir şekilde özel bir şekilde optimize edilebilen sabit bir dizi bilinen sorgu veya bilinen analiz olduğunda özellikle başarılıdır.

LinkedIn reklamveren sorguları, en sık sonuçları arayan 'en iyi k' sorgulardır. Bird, "Hepsi temelde aynı yapıya sahipler," diye açıkladı. "Windows telemetrisinde, tekrar tekrar gelen aynı veri ve analiz türüdür. Bir kez yapılan iş yoğun bir şekilde yeniden kullanılır. Telemetri gibi operasyonel analizler için, daha fazla kişinin gizlilik garantileriyle verilerden yararlanmasına izin veriyorsunuz. Bu gizlilik garantisine sahip olmak için modeli daha uzun süre eğitmeye veya daha dikkatli bir şekilde özelleştirme çabasına değer olduğu durumlarda makine öğrenimi (yararlıdır). "

GÖRMEK: Açık denizlerde yapay zeka: Dijital dönüşüm, küresel nakliye konusunda devrim yaratıyor (ücretsiz PDF) (TechRepublic)

Benzer şekilde, farklı gizliliğe sahip sentetik veriler oluşturmak, verilere sormak istediğiniz soruları biliyorsanız, bu soruları başarıyla yanıtlayan ve bu özellikleri orijinal veri kümesinde koruyan veriler üretebilmeniz için en yararlıdır. Bird, "Bu veri kümesini yayınlayacaksanız ve araştırmacıların verilere ne tür sorular soracağı konusunda hiçbir fikriniz yoksa, sentetik verilerin gerçek özellikleri destekleyeceğini garanti etmek çok zor" dedi.

Sonunda Bird, farklı mahremiyetin, araştırmacıların veri kümelerine karşı dinamik sorgular yapmalarına izin vererek "toplum için en son durumu ilerletmek, ancak özel bilgileri açığa çıkarmamak" için genişleyeceğini umuyor. Ancak bu en zorlu senaryo.

"Sorguları otomatik olarak optimize edebilmeniz ve doğruluk ile gizlilik ve hesaplama verimliliği arasındaki değiş tokuş alanında doğru noktayı bulmanız gerekir. O zaman kimin hangi bütçeden ne kadar alacağına dair dinamik bütçe izleme yönetimine ihtiyacınız var ve siz gerçekten veri kümesini kullanımdan kaldırıyor mu? " dedi.

"Gitmek istediğimiz vizyon budur – ve pratikte, bu parçalarda başarılı oluyoruz. Bu, daha fazla insanı şu anda teknolojiyi kullanmaya teşvik etmek için daha fazla neden, çünkü çalışan çok sayıda insana ihtiyacımız var Devletin bu nihai vizyona ulaşabileceğimiz bir noktaya ilerlemesine yardımcı olmak için üzerinde. "

Bird'ün önerdiği gibi, SmartNoise araç setiyle çalışmak için veri bilimi uzmanlığına sahip olmayan Microsoft müşterileri, sonunda farklı gizliliği Power BI ve Azure Veri Paylaşımı gibi platformlarda bir veri işleme seçeneği olarak görecek. Bir veritabanının görünümünü basitçe paylaşmak yerine, farklı şekilde özel bir görünümü paylaşabilir veya farklı gizlilik sorgularına izin verebilir ya da Power BI analitiğinden farklı şekilde özel sonuçlar elde edebilirsiniz.

Bunun nasıl uygulanacağı konusunda daha yapılacak çok iş var, dedi: "Bilmemiz gerekiyor, Power BI'da panolar oluştururken, işte sorgular, işte çoğu durum için çalışan parametreler veya işte bunları nasıl ayarlayacağınız Henüz tam olarak orada değiliz, ancak bunun gerçekten geniş ölçekte kullanıldığını göreceğim gelecek bu. "

Ayrıca bakın

Source link

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*