Tam o sırada, başka bir pillinetwork sitesi olan hafif.org'da: "Ben Yaşadığınız Dünya - 1"


\

bir site girişi esnasında robot-insan ayrımı yapmak artık ir zorunluluk. Bu sorunun çözümü harika bir fikirdi: gördüğünü ya da duyduğunu algılayarak,seçerek giriş yapmak. Bunu ancak bir insan yapabilir çünkü.
\

reCaptcha bu araclardan biri. Captcha* sistemini oldukça ayrıntılı ve hassas olarak uygulamaya çalışan Captcha sisteminin ücretsiz bir versiyonu. Şu ana kadar 20.000 kadar sitenin kullandığı, 2000 insanın tam gün çalışması ile girilebilecek kadar kitabın dijital ortama alınarak analizinin yapılığı bir sistem.

daha önce girdiğim bir bildiride de reCaptcha 'dan bahsetmiştim. Bu araç, bünyesinde barındırdığı metin okuma analizleri datası ile bu hizmeti kusursuz sunmaya çalışıyor. Nasıl mı?

\
OCR (Optical Character Recognition) sistemlerinin kusurlu olduğu bölümleri tespit ediyor. örneğin çapaklı ya da bozulmuş dokularda OCR sisteminin hata yapma oranı artıyor. reCaptcha yaptığı taramalar sonucu tüm bu verileri toplayarak site girişlerinde kusurlu malzeme üretiyor. bu kusurlu malzeme ise OCR sistemlerince algılanamıyor. yani sitenize gelen bir bot, giriş yapamıyor.

* CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) : Carnegie Mallon Üniversitesi Bilgisayar Bilimleri tarafından üretilmiş bot ile insan arasındaki ayrıma odaklanmış ve bu konuda bir çözüme ulaşmış bir projedir.


  • delizade
  • 8 yorum var
  • 13 Şubat 2008 15:30

Yorumlar

burada çok önemli bir bilginin atlandığını düşünüyorum. recaptcha nın en önemli görevi aslında kitapları bilgisayar ortamına taşımak! carnegie mellon üniversitesinde geliştirilen bu proje, ocr ile taranmış kitaplardaki doğru okunmuş bir kelime ve yanlış okunmuş bir kelimeyi beraber kullanıcıya gösteriyor. kullanıcı hangisinin yanlış olduğunu bilmediği için ikisini birden girmek zorunda kalıyor ve güvenlik açığı oluşmuyor. ocr tarafından yanlış okunan kelimede insan tarafından okunmuş olup hatası giderilmiş oluyor. günde 150,000 saatlik captcha kullanımı olduğu düşünüldüğünde çok faydalı olacağı kesin.

burda şunu merak ettim biz ordaki taramaları dijitize ediyorsak demekki bizim oraya ne yazdığımızı yada yazdığımızla gördüğümüzün doğruluğu kesin değil,yoksa daha önceden orda yazan kelimelerin bilinmesi gerekmezmi?
aklım karıştı:)

önce ertugka'nın yazısını okumalıymışım güzel mantık ama ben artık bunun kullanıldığı sitelerde sallama yaparım :)

hehehehehe ilk kandırmamı yptım :) hemde recaptcha sitesinde piles'ı pilez yazdım :)

ben de reCAPTCHA ile ilgili bir bildiri hazırlamıştım ama ""delizade"" isimli arkadaşımız benden önce davranmış :) Belki bu konu hakkında daha fazla bilgi edinmek isteyen olur diye kendi bildirimin metnini buraya kopyalıyorum.

---------------------

1. Öncelikle CAPTCHA nedir?

Muhtemelen CAPTCHA yöntemini daha önceden duydunuz, gördünüz veya kullandınız. Neredeyse her web sitesinin üyelik başvuru formunda CAPTCHA yöntemi kullanılıyor. Bu yöntemin amacı sizin bir insan olup olmadığınızı kontrol etmek. Çünkü spamcılar özel yazılımlar ile üyelik başvuru formlarını kötüye kullanıp bir web sitesinde aynı anda binlerce hesap açabiliyorlar. Bu kötü durumu engelleyen CAPTCHA yöntemi sayesinde size bir resim içerisinde hafif çarpıtılmış karakterler gösteriliyor. Bu karakterleri çözümleyerek aynısını forma giriyorsunuz. Eğer girdiğiniz karakterler resimdekilerle uyuşuyorsa sizin bir insan olduğunuz doğrulanmış oluyor. Spamcıların kullandıkları otomatik form doldurma yazılımları ise bu çarpıtılmış karakterleri okuyamadıkları için veya yanlış okudukları için kötü amaçlarına ulaşamamış oluyorlar.

2. reCAPTCHA nedir?

Tahminlere göre dünyada her gün 60 milyon CAPTCHA insanlar tarafından çözümleniyor. Bu da CAPTCHA çözümleyen her bir insanın, ömründen yaklaşık olarak 10 saniyenin bu işe harcanması demek. İnsanları tek tek ele aldığımızda fazla bir süreymiş gibi gelmeyebilir ama olayı genel olarak düşündüğümüzde her gün 150.000 saatin CAPTCHA çözümlemek uğruna tüketildiği belirtiliyor. Peki, insanların bu eforunu pozitif bir yönde kullanmak mümkün mü? İşte reCAPTCHA, bu eforun "kitapların sayısallaştırılması" adına harcanmasını sağlayan çok faydalı bir proje.

3. Neden reCAPTCHA?

Bilgiyi arşivlemek için ve bilgiyi daha fazla erişilebilir kılmak için birçok proje, bilgisayar çağından önce yazılmış kitapları şu anda bile sayısal ortama aktarmakla uğraşıyor. Bunun için kitap sayfaları fotoğrafik olarak taranıyorlar ve sonra aranabilir olmaları için OCR (Optical Character Recognition) adı verilen teknik ile metne (yazıya) dönüştürülüyorlar. Metne dönüştürmek şunun için faydalıdır: Bir kitabın taranması, resimler oluşturulması demektir. Fakat resimlerin küçük aygıtlarda depolanması zordur, bilgisayara indirilmesi pahalıya mal olur ve en önemlisi de aranabilir değillerdir. Bir başka problem de resim içindeki metinlerin yazıya dönüştürülmesini sağlayan OCR tekniğinin ne yazıkki mükemmel derecede iyi çalışmamasıdır.

4. reCAPTCHA nasıl çalışıyor?

reCAPTCHA, kitapları sayısal ortama aktarma işlemini geliştiren bir yöntem. reCAPTCHA sayesinde, bilgisayarlar tarafından okunamayan sözcükler bir havuzda toplanıyorlar. Daha sonra insanların çözümlemesi için CAPTCHA kullanan web formlarına gönderiliyorlar. Bu yöntemde, OCR yazılımları tarafından doğru okunamayan her sözcük bir resim içerisine yerleştiriliyor ve bir CAPTCHA olarak kullanılması sağlanıyor. Birçok OCR yazılımının bir sözcüğü doğru olarak okuyamadığında uyarı vermesi, reCAPTCHA yönteminin geçerliliğini mümkün kılıyor.

Normal CAPTCHA yönteminde kullanıcıdan yalnızca 1 adet sözcüğün doğrulanması istenirken, reCAPTCHA yönteminde 2 tane sözcüğün doğrulanması isteniyor. Bu sözcüklerin birisi daha önceden çözümlenmiş bir sözcük oluyor ve formu dolduranın gerçekten bir insan olup olmadığını kontrol etmek için kullanılıyor. Diğer sözcük ise OCR yazılımıyla doğru olarak okunamamış sözcük oluyor ve metne dönüştürme işleminde kullanılıyor. Yani bir yandan sisteme insan olduğunuzu kanıtlıyorsunuz, diğer yandan da kitapların sayısal ortama aktarılmasında insanlığa bir faydanız dokunmuş oluyor.

@eburhan, üzüldüm şimdi bu kadar ayrıntılı da yazmışsın. ama bunu lütfen günlüğe yine de postala derim. gerekli bilgiler çünkü.

@ertugka evet ama ben şu aralar spam meselelerine fena daldığımdan sadece bu tarafını görmüşüm. teşekkürler bu önemli eklenti için.

iki adet sorum var:

birincisi: formda bana iki adet kelime geliyor, biri daha önceden çözümlenmiş bir sözcük. yani bunu bana yollayan site, o resimde yazan text'i aslında biliyor, ve benim de aynısını yazmamı bekliyor.

şimdi ikinci resimdeki kelimede ne yazdığını site de bilmiyor. e, ben de yanlış yazmış olabilirim? doğrusunu yazacağımı kim garanti ediyor? bunun "captcha kütüphanesi"ne katılması için kontrolden geçmesi mi gerekiyor? böyle kontrol edeceklerine, kendileri girseler daha kısa süre ve efor harcamış olmazlar mı? :)

ikinci soruma gelirsek, bu captcha sistemi, taradığı kelimenin yanlış olduğunu nereden biliyor? nereden biliyor da, "bu kelime yanlış, bunu bu sistemi kullanan web sitelerine göndereyim, doğrusunu insanlar yazsın" diyor?

aslında çok büyük miktarda okunamayan veri(sözcük) var. sisem şöyle çalışıyor;

size iki kelime veriyor sistem. biri kesin olarak okunmuş olan kelime. diğeri ise OCR sisteminin "okuyamadım" dediği kelime( ilk sorunun cevabı; sistem bunu anlıyor) ya da parça.

siz, kesin olarak bilinen kelimeyi doğru yazarsanız sistem şöyle düşünüyor "bu insanın gireceği veri doğru olması yüksek ihtimal olan veridir." siz ikinci kelimeyi'de -yani Captcha sisteminin okuyamadığı kelimeyi de- girdikten sonra sistem bu yarı bilinen imajı defalarca başka sitelere gönderiyor.

sonuçta OCR sisteminin okuyamadığı kelime bir eşik sonrasında "tamam bu imajın karşılığı bu kelimedir diyebiliyor"

üye olunpillinetwork sitelerine yorum ekleyebilmek ve daha fazlası için, üye olun ya da giriş yapın.

Bu Yazıyı Tutanlar

Beğendiğiniz bir yazıya "tuttum" demek için başlığın yanındaki yıldıza tıklayabilirsiniz.

Bu yazıyı rapor et. Kural dışı içeriğe rastladığınızda editörlerimize rapor ederek müdahale edilmesini sağlayabilirsiniz. (Hangi durumlarda rapor edebilirim?)
bildirgec.org bölümleri
pillinetwork hesabınızla giriş yapın.

pilli ilan

son yorumlar

pilli ilan

Tutulanlar Banner

bildirgecinfo

bildirgec.org içeriği kullanıcıları tarafından üretilen kolektif bir blogdur.